論文の概要: ArtiSG: Functional 3D Scene Graph Construction via Human-demonstrated Articulated Objects Manipulation
- arxiv url: http://arxiv.org/abs/2512.24845v1
- Date: Wed, 31 Dec 2025 13:10:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.59078
- Title: ArtiSG: Functional 3D Scene Graph Construction via Human-demonstrated Articulated Objects Manipulation
- Title(参考訳): ArtiSG: 人工物体操作による機能的3次元シーングラフ構築
- Authors: Qiuyi Gu, Yuze Sheng, Jincheng Yu, Jiahao Tang, Xiaolong Shan, Zhaoyang Shen, Tinghao Yi, Xiaodan Liang, Xinlei Chen, Yu Wang,
- Abstract要約: ArtiSGは、人間のデモを構造化されたロボットメモリにエンコードすることで、機能的な3Dシーングラフを構築するフレームワークである。
本研究では,ArtiSGが機能的要素リコールおよび調音推定精度において,ベースラインを著しく上回ることを示す。
- 参考スコア(独自算出の注目度): 51.54082859171464
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D scene graphs have empowered robots with semantic understanding for navigation and planning, yet they often lack the functional information required for physical manipulation, particularly regarding articulated objects. Existing approaches for inferring articulation mechanisms from static observations are prone to visual ambiguity, while methods that estimate parameters from state changes typically rely on constrained settings such as fixed cameras and unobstructed views. Furthermore, fine-grained functional elements like small handles are frequently missed by general object detectors. To bridge this gap, we present ArtiSG, a framework that constructs functional 3D scene graphs by encoding human demonstrations into structured robotic memory. Our approach leverages a robust articulation data collection pipeline utilizing a portable setup to accurately estimate 6-DoF articulation trajectories and axes even under camera ego-motion. We integrate these kinematic priors into a hierarchical and open-vocabulary graph while utilizing interaction data to discover inconspicuous functional elements missed by visual perception. Extensive real-world experiments demonstrate that ArtiSG significantly outperforms baselines in functional element recall and articulation estimation precision. Moreover, we show that the constructed graph serves as a reliable functional memory that effectively guides robots to perform language-directed manipulation tasks in real-world environments containing diverse articulated objects.
- Abstract(参考訳): 3Dシーングラフは、ナビゲーションと計画のためのセマンティックな理解を持つロボットに権限を与えている。
静的観測から調音機構を推定するための既存のアプローチは、視覚的曖昧さの傾向があるが、状態変化からパラメータを推定する手法は、固定カメラや障害物のないビューのような制約された設定に依存するのが一般的である。
さらに、小さなハンドルのようなきめ細かい機能要素は、一般的な物体検出器によってしばしば見逃される。
このギャップを埋めるために、人間のデモを構造化されたロボットメモリにエンコードすることで、機能的な3Dシーングラフを構築するフレームワークArtiSGを提案する。
提案手法では, 携帯型装置を用いた頑健な調音データ収集パイプラインを用いて, カメラのエゴモーション下においても6-DoF調音軌道と軸を正確に推定する。
我々はこれらのキネマティックな先行要素を階層的でオープンな語彙グラフに統合し、相互作用データを利用して視覚的知覚によって欠落する目立たない機能的要素を発見する。
広汎な実世界の実験により、ArtiSGは機能的要素リコールと調音推定精度において、ベースラインを著しく上回ることを示した。
さらに,構築したグラフは,多種多様なオブジェクトを含む実環境において,ロボットが言語指向の操作を効果的に行うための信頼性の高い機能記憶として機能することを示す。
関連論文リスト
- Articulated 3D Scene Graphs for Open-World Mobile Manipulation [55.97942733699124]
本報告では, セマンティックな3次元シーングラフを構築するためのフレームワークであるMoMa-SGについて述べる。
新たな統合的ツイスト推定法を用いて調音モデルを推定する。
また,Arti4D-Semanticデータセットについても紹介する。
論文 参考訳(メタデータ) (2026-02-18T10:40:35Z) - IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments [56.85804719947]
IAAOは知的エージェントのための明示的な3Dモデルを構築するフレームワークで,対話を通して環境内の明瞭な物体の理解を得る。
マスク特徴とビュー一貫性ラベルを多視点画像から抽出し,まず3次元ガウススティング(3DGS)を用いて各オブジェクト状態の階層的特徴とラベルフィールドを構築する。
次に、3Dガウスプリミティブ上でオブジェクトと部分レベルのクエリを実行し、静的および明瞭な要素を識別し、大域的な変換と局所的な調音パラメータをアベイランスとともに推定する。
論文 参考訳(メタデータ) (2025-04-09T12:36:48Z) - SIGHT: Synthesizing Image-Text Conditioned and Geometry-Guided 3D Hand-Object Trajectories [124.24041272390954]
手動物体の相互作用をモデル化することは、ロボットと具体化されたAIシステムを前進させる大きな可能性を秘めている。
SIGHTは、1つの画像から現実的で物理的に妥当な3Dハンドオブジェクトインタラクショントラジェクトリを生成することに焦点を当てた,新しいタスクである。
SIGHT-Fusionは,データベースから最もよく似た3Dオブジェクトメッシュを抽出し,この課題に対処する,新しい拡散型画像文条件付き生成モデルを提案する。
論文 参考訳(メタデータ) (2025-03-28T20:53:20Z) - FunGraph: Functionality Aware 3D Scene Graphs for Language-Prompted Scene Interaction [1.8124328823188356]
本研究の目的は,ロボットが環境と直接対話できる表現を開発することである。
我々は、より細かな解像度でオブジェクトを検出し、保存することに集中し、価格関連部品に焦点をあてる。
現在利用可能な3Dリソースを活用して、2Dデータを生成し、検出器をトレーニングし、標準の3Dシーングラフ生成パイプラインを拡張するために使用します。
論文 参考訳(メタデータ) (2025-03-10T23:13:35Z) - Learning Granularity-Aware Affordances from Human-Object Interaction for Tool-Based Functional Dexterous Grasping [27.124273762587848]
オブジェクトの付加的な特徴は、エージェントとオブジェクト間の機能的な相互作用のブリッジとして機能する。
機能的空き地を特定するための粒度対応型空き地特徴抽出法を提案する。
握り動作の予測には手動物体間相互作用領域で高活性な粗粒度機能を用いる。
GAAF-Dexは、人間と物体の相互作用からグラニュラリティ・アウェア・アフォーダンスを学習する完全なフレームワークである。
論文 参考訳(メタデータ) (2024-06-30T07:42:57Z) - SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。