論文の概要: MomaGraph: State-Aware Unified Scene Graphs with Vision-Language Model for Embodied Task Planning
- arxiv url: http://arxiv.org/abs/2512.16909v1
- Date: Thu, 18 Dec 2025 18:59:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.249113
- Title: MomaGraph: State-Aware Unified Scene Graphs with Vision-Language Model for Embodied Task Planning
- Title(参考訳): MomaGraph: タスクプランニングのためのビジョンランゲージモデルを備えたステートアウェア統一シーングラフ
- Authors: Yuanchen Ju, Yongyuan Liang, Yen-Jen Wang, Nandiraju Gireesh, Yuanliang Ju, Seungjae Lee, Qiao Gu, Elvis Hsieh, Furong Huang, Koushil Sreenath,
- Abstract要約: 家庭の移動マニピュレータは、ナビゲートと操作の両方が必要です。
これは、オブジェクトがどこにあるか、どのように機能し、どの部分が実行可能なのかをキャプチャする、コンパクトでセマンティックにリッチなシーン表現を必要とする。
我々は,空間的機能的関係と部分レベルの対話的要素を統合した,エンボディエージェントのための統一的なシーン表現であるMomaGraphを紹介した。
- 参考スコア(独自算出の注目度): 44.61781303455069
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mobile manipulators in households must both navigate and manipulate. This requires a compact, semantically rich scene representation that captures where objects are, how they function, and which parts are actionable. Scene graphs are a natural choice, yet prior work often separates spatial and functional relations, treats scenes as static snapshots without object states or temporal updates, and overlooks information most relevant for accomplishing the current task. To address these limitations, we introduce MomaGraph, a unified scene representation for embodied agents that integrates spatial-functional relationships and part-level interactive elements. However, advancing such a representation requires both suitable data and rigorous evaluation, which have been largely missing. We thus contribute MomaGraph-Scenes, the first large-scale dataset of richly annotated, task-driven scene graphs in household environments, along with MomaGraph-Bench, a systematic evaluation suite spanning six reasoning capabilities from high-level planning to fine-grained scene understanding. Built upon this foundation, we further develop MomaGraph-R1, a 7B vision-language model trained with reinforcement learning on MomaGraph-Scenes. MomaGraph-R1 predicts task-oriented scene graphs and serves as a zero-shot task planner under a Graph-then-Plan framework. Extensive experiments demonstrate that our model achieves state-of-the-art results among open-source models, reaching 71.6% accuracy on the benchmark (+11.4% over the best baseline), while generalizing across public benchmarks and transferring effectively to real-robot experiments.
- Abstract(参考訳): 家庭の移動マニピュレータは、ナビゲートと操作の両方が必要です。
これは、オブジェクトがどこにあるか、どのように機能し、どの部分が実行可能なのかをキャプチャする、コンパクトでセマンティックにリッチなシーン表現を必要とする。
シーングラフは自然な選択であるが、以前の作業はしばしば空間的および機能的関係を分離し、シーンをオブジェクトの状態や時間的更新のない静的スナップショットとして扱い、現在のタスクを達成する上で最も関連性の高い情報を見落としている。
これらの制約に対処するために,空間的機能的関係と部分レベルの対話的要素を統合したエンボディエージェントのための統一的なシーン表現であるMomaGraphを紹介した。
しかし、このような表現を推し進めるには適切なデータと厳密な評価が必要である。
そこで我々は,家庭環境におけるリッチ・アノテート・タスク駆動型シーングラフの最初の大規模データセットであるMomaGraph-Scenesと,高レベルの計画からきめ細かなシーン理解に至るまでの6つの推論能力にまたがる系統的評価スイートであるMomaGraph-Benchをコントリビュートした。
この基盤の上に構築されたMomaGraph-R1は、MomaGraph-Scenesで強化学習を訓練した7B視覚言語モデルである。
MomaGraph-R1はタスク指向のシーングラフを予測し、Graph-then-Planフレームワークの下でゼロショットタスクプランナとして機能する。
大規模な実験により、我々のモデルはオープンソースモデル間で最先端の結果を達成し、ベンチマークで71.6%の精度(ベストベースラインで+11.4%)に達した。
関連論文リスト
- Synthetic Visual Genome [88.00433979509218]
本稿では,高品質な高次グラフを大規模に構築できる密接な注釈付き関係を持つ命令設計法であるROBINを紹介する。
我々のデータセットは合計146K画像と2.6Mオブジェクトの5.6M関係を含んでいる。
ROBIN-3Bモデルは300万件未満のインスタンスでトレーニングされているにもかかわらず、関係理解ベンチマークで3億件以上のインスタンスでトレーニングされた類似サイズのモデルを上回っている。
論文 参考訳(メタデータ) (2025-06-09T11:09:10Z) - LLM Meets Scene Graph: Can Large Language Models Understand and Generate Scene Graphs? A Benchmark and Empirical Study [12.90392791734461]
大規模言語モデル(LLM)は、組み込みAI、ロボティクス、その他の現実世界のタスクに応用を拡大するための道を開いた。
最近の研究は、シーン内のエンティティ、属性、およびそれらの関係をエンコードする構造化された表現であるシーングラフを活用している。
テキストシーングラフ(TSG)ベンチ(Text-Scene Graph)は,LLMのシーングラフ理解能力を評価するためのベンチマークである。
論文 参考訳(メタデータ) (2025-05-26T04:45:12Z) - Fine-Grained is Too Coarse: A Novel Data-Centric Approach for Efficient
Scene Graph Generation [0.7851536646859476]
本稿では,関連性の生成を優先するSGG(Efficient Scene Graph Generation)の課題を紹介する。
我々は、人気のあるVisual Genomeデータセットのアノテーションに基づいて、新しいデータセットVG150をキュレートする。
我々は、このデータセットが通常SGGで使用されるものよりも高品質で多様なアノテーションを含んでいることを示す一連の実験を通して示す。
論文 参考訳(メタデータ) (2023-05-30T00:55:49Z) - Unsupervised Task Graph Generation from Instructional Video Transcripts [53.54435048879365]
本研究では,実世界の活動を行う指導ビデオのテキスト書き起こしを提供する環境について考察する。
目標は、これらの重要なステップ間の依存関係関係と同様に、タスクに関連する重要なステップを特定することです。
本稿では,命令調整言語モデルの推論能力とクラスタリングとランキングコンポーネントを組み合わせたタスクグラフ生成手法を提案する。
論文 参考訳(メタデータ) (2023-02-17T22:50:08Z) - Scene Graph Modification as Incremental Structure Expanding [61.84291817776118]
本研究では,既存のシーングラフを自然言語クエリに基づいて更新する方法を学習するために,シーングラフ修正(SGM)に注目した。
インクリメンタル構造拡張(ISE)の導入によるグラフ拡張タスクとしてのSGM
既存のデータセットよりも複雑なクエリと大きなシーングラフを含む、挑戦的なデータセットを構築します。
論文 参考訳(メタデータ) (2022-09-15T16:26:14Z) - Segmentation-grounded Scene Graph Generation [47.34166260639392]
ピクセルレベルセグメンテーションに基づくシーングラフ生成のためのフレームワークを提案する。
私たちのフレームワークは、基盤となるシーングラフ生成方法に無知です。
ターゲットデータセットと補助データセットの両方でマルチタスクで学習される。
論文 参考訳(メタデータ) (2021-04-29T08:54:08Z) - Visual Distant Supervision for Scene Graph Generation [66.10579690929623]
シーングラフモデルは通常、大量のラベル付きデータを人間のアノテーションで教師付き学習する必要がある。
本研究では,人間ラベルデータを用いずにシーングラフモデルを訓練できる視覚関係学習の新しいパラダイムである視覚遠方監視を提案する。
包括的な実験結果から、我々の遠隔監視モデルは、弱い監督と半監督のベースラインよりも優れています。
論文 参考訳(メタデータ) (2021-03-29T06:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。