論文の概要: ScrewSplat: An End-to-End Method for Articulated Object Recognition
- arxiv url: http://arxiv.org/abs/2508.02146v1
- Date: Mon, 04 Aug 2025 07:45:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.230726
- Title: ScrewSplat: An End-to-End Method for Articulated Object Recognition
- Title(参考訳): ScrewSplat:Articulated Object Recognitionのためのエンドツーエンド手法
- Authors: Seungyeon Kim, Junsu Ha, Young Hun Kim, Yonghyeon Lee, Frank C. Park,
- Abstract要約: 本稿では,RGB観測のみで動作する単純なエンドツーエンド手法であるScrewSplatを紹介する。
提案手法は,多種多様な対象物に対して,最先端の認識精度を達成できることを実証する。
- 参考スコア(独自算出の注目度): 13.128395758408189
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Articulated object recognition -- the task of identifying both the geometry and kinematic joints of objects with movable parts -- is essential for enabling robots to interact with everyday objects such as doors and laptops. However, existing approaches often rely on strong assumptions, such as a known number of articulated parts; require additional inputs, such as depth images; or involve complex intermediate steps that can introduce potential errors -- limiting their practicality in real-world settings. In this paper, we introduce ScrewSplat, a simple end-to-end method that operates solely on RGB observations. Our approach begins by randomly initializing screw axes, which are then iteratively optimized to recover the object's underlying kinematic structure. By integrating with Gaussian Splatting, we simultaneously reconstruct the 3D geometry and segment the object into rigid, movable parts. We demonstrate that our method achieves state-of-the-art recognition accuracy across a diverse set of articulated objects, and further enables zero-shot, text-guided manipulation using the recovered kinematic model.
- Abstract(参考訳): ロボットがドアやラップトップなどの日常的な物体と対話できるようにするには、物体の幾何学的関節と運動学的関節の両方を識別する作業が不可欠だ。
しかし、既存のアプローチは、既知の多数の調音部品、深度画像などの追加入力、潜在的なエラーを発生させる複雑な中間ステップなど、強い仮定に依存していることが多い。
本稿では,RGB観測のみで動作するシンプルなエンドツーエンド手法であるScrewSplatを紹介する。
我々のアプローチは、ランダムにスクリュー軸を初期化することから始まり、オブジェクトの基盤となる運動構造を回復するために反復的に最適化される。
ガウススプラッティングと統合することにより、3次元幾何学を同時に再構築し、物体を剛性のある可動部分へ分割する。
提案手法は,多種多様な定式化オブジェクトに対して最先端の認識精度を実現し,また,回復したキネマティックモデルを用いたゼロショット・テキスト誘導操作を可能にする。
関連論文リスト
- ObjectGS: Object-aware Scene Reconstruction and Scene Understanding via Gaussian Splatting [54.92763171355442]
ObjectGSは3Dシーンをセマンティックな理解と統合するオブジェクト認識フレームワークである。
我々はObjectGSがオープンボキャブラリやパン光学のセグメンテーションタスクにおいて最先端の手法より優れていることを示す実験を通して示す。
論文 参考訳(メタデータ) (2025-07-21T10:06:23Z) - Self-Supervised Multi-Part Articulated Objects Modeling via Deformable Gaussian Splatting and Progressive Primitive Segmentation [23.18517560629462]
DeGSSは,物体を変形可能な3次元ガウス場として符号化し,幾何学,外観,動きを1つのコンパクト表現に埋め込む統一フレームワークである。
一般化とリアリズムを評価するために、合成PartNet-Mobilityベンチマークを拡張し、RGBキャプチャと正確にリバースエンジニアリングされた3Dモデルを組み合わせたリアル・トゥ・シムデータセットRS-Artをリリースする。
論文 参考訳(メタデータ) (2025-06-11T12:32:16Z) - Object-X: Learning to Reconstruct Multi-Modal 3D Object Representations [112.29763628638112]
Object-Xは多目的なマルチモーダル3D表現フレームワークである。
リッチなオブジェクトの埋め込みをエンコードして、幾何学的および視覚的再構成に復号することができる。
シーンアライメント、シングルイメージの3Dオブジェクト再構成、ローカライゼーションなど、さまざまなダウンストリームタスクをサポートする。
論文 参考訳(メタデータ) (2025-06-05T09:14:42Z) - IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments [56.85804719947]
IAAOは知的エージェントのための明示的な3Dモデルを構築するフレームワークで,対話を通して環境内の明瞭な物体の理解を得る。
マスク特徴とビュー一貫性ラベルを多視点画像から抽出し,まず3次元ガウススティング(3DGS)を用いて各オブジェクト状態の階層的特徴とラベルフィールドを構築する。
次に、3Dガウスプリミティブ上でオブジェクトと部分レベルのクエリを実行し、静的および明瞭な要素を識別し、大域的な変換と局所的な調音パラメータをアベイランスとともに推定する。
論文 参考訳(メタデータ) (2025-04-09T12:36:48Z) - Detection Based Part-level Articulated Object Reconstruction from Single RGBD Image [52.11275397911693]
本稿では,1枚のRGBD画像から複数の人工関節オブジェクトを再構成する,エンドツーエンドで訓練可能なクロスカテゴリ手法を提案する。
私たちは、あらかじめ定義された部分数で人工的なオブジェクトに焦点をあて、インスタンスレベルの潜在空間を学習することに依存する以前の作業から離れています。
提案手法は, 従来の作業では処理できない様々な構成された複数インスタンスの再構築に成功し, 形状再構成や運動学推定において, 先行の作業よりも優れていた。
論文 参考訳(メタデータ) (2025-04-04T05:08:04Z) - Collaborative Learning for 3D Hand-Object Reconstruction and Compositional Action Recognition from Egocentric RGB Videos Using Superquadrics [31.819336585007104]
境界ボックスに対する3次元オブジェクト表現の代替としてスーパークワッドリックを活用することを提案する。
テンプレートレスオブジェクト再構成とアクション認識の両タスクで有効性を示す。
また,動詞と名詞の訓練組み合わせがテスト分割と重複しない,より困難な課題を考慮し,行動の構成性についても検討した。
論文 参考訳(メタデータ) (2025-01-13T07:26:05Z) - Kinematics-based 3D Human-Object Interaction Reconstruction from Single View [10.684643503514849]
既存の方法は、単に身体のポーズを単に屋内データセットのネットワークトレーニングに依存するだけである。
本研究では,人体の関節を人体接触領域へ正確に駆動するキネマティクスに基づく手法を提案する。
論文 参考訳(メタデータ) (2024-07-19T05:44:35Z) - 3D Foundation Models Enable Simultaneous Geometry and Pose Estimation of Grasped Objects [13.58353565350936]
本研究では,ロボットが把握した物体の形状と姿勢を共同で推定する手法を提案する。
提案手法は,推定幾何をロボットの座標フレームに変換する。
我々は,実世界の多様な物体の集合を保持するロボットマニピュレータに対する我々のアプローチを実証的に評価した。
論文 参考訳(メタデータ) (2024-07-14T21:02:55Z) - Learning Explicit Contact for Implicit Reconstruction of Hand-held
Objects from Monocular Images [59.49985837246644]
我々は,手持ちの物体を暗黙的に再構築する上で,明示的な方法で接触をモデル化する方法を示す。
まず,1つの画像から3次元手オブジェクトの接触を直接推定するサブタスクを提案する。
第2部では,ハンドメッシュ面から近傍の3次元空間へ推定された接触状態を拡散する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:59:26Z) - What's in your hands? 3D Reconstruction of Generic Objects in Hands [49.12461675219253]
我々の研究は、単一のRGB画像からハンドヘルドオブジェクトを再構築することを目的としている。
通常、既知の3Dテンプレートを仮定し、問題を3Dポーズ推定に還元する以前の作業とは対照的に、我々の作業は3Dテンプレートを知らずに汎用的なハンドヘルドオブジェクトを再構成する。
論文 参考訳(メタデータ) (2022-04-14T17:59:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。