論文の概要: Articulated 3D Scene Graphs for Open-World Mobile Manipulation
- arxiv url: http://arxiv.org/abs/2602.16356v1
- Date: Wed, 18 Feb 2026 10:40:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.581887
- Title: Articulated 3D Scene Graphs for Open-World Mobile Manipulation
- Title(参考訳): オープンワールドモバイルマニピュレーションのためのArticulated 3D Scene Graphs
- Authors: Martin Büchner, Adrian Röfer, Tim Engelbracht, Tim Welschehold, Zuria Bauer, Hermann Blum, Marc Pollefeys, Abhinav Valada,
- Abstract要約: 本報告では, セマンティックな3次元シーングラフを構築するためのフレームワークであるMoMa-SGについて述べる。
新たな統合的ツイスト推定法を用いて調音モデルを推定する。
また,Arti4D-Semanticデータセットについても紹介する。
- 参考スコア(独自算出の注目度): 55.97942733699124
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantics has enabled 3D scene understanding and affordance-driven object interaction. However, robots operating in real-world environments face a critical limitation: they cannot anticipate how objects move. Long-horizon mobile manipulation requires closing the gap between semantics, geometry, and kinematics. In this work, we present MoMa-SG, a novel framework for building semantic-kinematic 3D scene graphs of articulated scenes containing a myriad of interactable objects. Given RGB-D sequences containing multiple object articulations, we temporally segment object interactions and infer object motion using occlusion-robust point tracking. We then lift point trajectories into 3D and estimate articulation models using a novel unified twist estimation formulation that robustly estimates revolute and prismatic joint parameters in a single optimization pass. Next, we associate objects with estimated articulations and detect contained objects by reasoning over parent-child relations at identified opening states. We also introduce the novel Arti4D-Semantic dataset, which uniquely combines hierarchical object semantics including parent-child relation labels with object axis annotations across 62 in-the-wild RGB-D sequences containing 600 object interactions and three distinct observation paradigms. We extensively evaluate the performance of MoMa-SG on two datasets and ablate key design choices of our approach. In addition, real-world experiments on both a quadruped and a mobile manipulator demonstrate that our semantic-kinematic scene graphs enable robust manipulation of articulated objects in everyday home environments. We provide code and data at: https://momasg.cs.uni-freiburg.de.
- Abstract(参考訳): セマンティックスは3Dシーン理解と余剰駆動のオブジェクトインタラクションを可能にした。
しかし、現実の環境で動くロボットは、物体の動きを予測できないという限界に直面している。
長距離移動操作は意味論、幾何学、運動学のギャップを埋める必要がある。
本研究では,多種多様な対話可能なオブジェクトを含む調音シーンのセマンティックな3Dシーングラフを構築するための新しいフレームワークであるMoMa-SGを提案する。
複数のオブジェクトの調音を含むRGB-D配列が与えられた場合、物体の相互作用を時間的に分割し、オクルージョン・ロバスト点追跡を用いて物体の動きを推定する。
次に, 3次元に起点軌道を持ち上げ, 単一の最適化パスにおいて, 相対的および原始的関節パラメータを頑健に推定する新しい統合的ツイスト推定式を用いて, 調音モデルを推定する。
次に,対象物と推定された調音とを関連付け,母子関係を推定し,対象物を検出する。
また,600個のオブジェクトインタラクションと3つの異なる観察パラダイムを含む62個のRGB-Dシーケンスに対して,親子関係ラベルを含む階層的オブジェクトセマンティクスとオブジェクト軸アノテーションを一意に組み合わせたArti4D-Semanticデータセットについても紹介する。
2つのデータセット上でのMoMa-SGの性能を広範囲に評価し、アプローチの重要な設計選択を補完する。
さらに, 実世界における四重奏と移動マニピュレータの両実験により, 日常の家庭環境において, セマンティック・キネマティック・シーングラフが頑健に操作できることが実証された。
https://momasg.cs.uni-freiburg.de.com/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/ s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/ s/s/s/s/s/
関連論文リスト
- REACT3D: Recovering Articulations for Interactive Physical 3D Scenes [96.27769519526426]
REACT3Dは静的な3Dシーンを一貫した幾何学を持つシミュレーション可能なインタラクティブなレプリカに変換するフレームワークである。
室内の様々な場面における検出・分離・調音計測における最先端性能について検討した。
論文 参考訳(メタデータ) (2025-10-13T12:37:59Z) - Articulated Object Estimation in the Wild [25.616481887384708]
ArtiPointは、動的カメラモーションと部分観測可能性の下で、明瞭なオブジェクトモデルを推論できる新しい推定フレームワークである。
ディープポイントトラッキングと因子グラフ最適化フレームワークを組み合わせることで、ArtiPointは生のRGB-Dビデオから直接、調音部分軌跡と調音軸を強く推定する。
ArtiPointを古典的および学習ベースのベースラインに対してベンチマークし、Arti4Dで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2025-09-01T18:34:17Z) - IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments [56.85804719947]
IAAOは知的エージェントのための明示的な3Dモデルを構築するフレームワークで,対話を通して環境内の明瞭な物体の理解を得る。
マスク特徴とビュー一貫性ラベルを多視点画像から抽出し,まず3次元ガウススティング(3DGS)を用いて各オブジェクト状態の階層的特徴とラベルフィールドを構築する。
次に、3Dガウスプリミティブ上でオブジェクトと部分レベルのクエリを実行し、静的および明瞭な要素を識別し、大域的な変換と局所的な調音パラメータをアベイランスとともに推定する。
論文 参考訳(メタデータ) (2025-04-09T12:36:48Z) - Articulate3D: Holistic Understanding of 3D Scenes as Universal Scene Description [56.69740649781989]
3Dシーン理解は、コンピュータビジョンにおける長年の課題であり、混合現実、ウェアラブルコンピューティング、そして具体化されたAIを実現する上で重要な要素である。
室内280のシーンに高品質な手動アノテーションを付加した専門的な3DデータセットであるArticulate3Dを紹介する。
我々はまた,部分分割を同時に予測できる新しい統一フレームワークUSDNetと,オブジェクトの動作属性の完全な仕様を提示する。
論文 参考訳(メタデータ) (2024-12-02T11:33:55Z) - ROAM: Robust and Object-Aware Motion Generation Using Neural Pose
Descriptors [73.26004792375556]
本稿では,3次元オブジェクト認識キャラクタ合成における新しいシーンオブジェクトへのロバストさと一般化が,参照オブジェクトを1つも持たないモーションモデルをトレーニングすることで実現可能であることを示す。
我々は、オブジェクト専用のデータセットに基づいて訓練された暗黙的な特徴表現を活用し、オブジェクトの周りのSE(3)-同変記述体フィールドをエンコードする。
本研究では,3次元仮想キャラクタの動作と相互作用の質,および未知のオブジェクトを持つシナリオに対するロバスト性を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-24T17:59:51Z) - Relation3DMOT: Exploiting Deep Affinity for 3D Multi-Object Tracking
from View Aggregation [8.854112907350624]
3Dマルチオブジェクトトラッキングは、自律ナビゲーションにおいて重要な役割を果たす。
多くのアプローチでは、トラッキングのための2次元RGBシーケンス内のオブジェクトを検出するが、これは3次元空間内のオブジェクトをローカライズする際の信頼性の欠如である。
本稿では,隣接フレーム内の各オブジェクト間の相関をよりよく活用するために,RelationConvという新しい畳み込み演算を提案する。
論文 参考訳(メタデータ) (2020-11-25T16:14:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。