論文の概要: GSR: Learning Structured Reasoning for Embodied Manipulation
- arxiv url: http://arxiv.org/abs/2602.01693v1
- Date: Mon, 02 Feb 2026 06:07:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.077532
- Title: GSR: Learning Structured Reasoning for Embodied Manipulation
- Title(参考訳): GSR: 身体操作のための構造化推論学習
- Authors: Kewei Hu, Michael Zhang, Wei Ying, Tianhao Liu, Guoqiang Hao, Zimeng Li, Wanchan Yu, Jiajian Jing, Fangwen Chen, Hanwen Kang,
- Abstract要約: グラウンドド・シーングラフ推論(グラウンドド・シーングラフ・レアソニング、英語: Grounded Scene-graph Reasoning、GSR)は、セマンティックグラウンドド・シーングラフ上の遷移として、世界状態の進化を明示的にモデル化する構造的推論パラダイムである。
GSRは、物理的に接地された空間における行動条件、結果、および目標満足度に関する明確な推論を可能にする。
- 参考スコア(独自算出の注目度): 10.756456261056867
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite rapid progress, embodied agents still struggle with long-horizon manipulation that requires maintaining spatial consistency, causal dependencies, and goal constraints. A key limitation of existing approaches is that task reasoning is implicitly embedded in high-dimensional latent representations, making it challenging to separate task structure from perceptual variability. We introduce Grounded Scene-graph Reasoning (GSR), a structured reasoning paradigm that explicitly models world-state evolution as transitions over semantically grounded scene graphs. By reasoning step-wise over object states and spatial relations, rather than directly mapping perception to actions, GSR enables explicit reasoning about action preconditions, consequences, and goal satisfaction in a physically grounded space. To support learning such reasoning, we construct Manip-Cognition-1.6M, a large-scale dataset that jointly supervises world understanding, action planning, and goal interpretation. Extensive evaluations across RLBench, LIBERO, GSR-benchmark, and real-world robotic tasks show that GSR significantly improves zero-shot generalization and long-horizon task completion over prompting-based baselines. These results highlight explicit world-state representations as a key inductive bias for scalable embodied reasoning.
- Abstract(参考訳): 急速な進歩にもかかわらず、エンボディエージェントは、空間的一貫性、因果依存性、目標制約の維持を必要とする長い水平操作に苦慮している。
既存のアプローチの鍵となる制限は、タスク推論が高次元の潜在表現に暗黙的に埋め込まれていることである。
我々は,意味的基底化されたシーングラフの遷移として,世界状態の進化を明示的にモデル化する構造化推論パラダイムであるグラウンドド・シーングラフ推論(GSR)を紹介した。
物体の状態や空間的関係を段階的に推理することで、認識を行動に直接マッピングするのではなく、GSRは行動前提条件、結果、目標満足度に関する明確な推論を可能にする。
このような推論の学習を支援するために,世界理解,行動計画,目標解釈を共同で監督する大規模データセットManip-Cognition-1.6Mを構築した。
RLBench, LIBERO, GSR-benchmark, および実世界のロボットタスクに対する広範な評価は、GSRがプロンプトベースラインよりもゼロショットの一般化と長期タスク完了を大幅に改善することを示している。
これらの結果は、スケーラブルな具体的推論の鍵となる帰納的バイアスとして、明示的な世界状態表現を強調している。
関連論文リスト
- Affordance-Graphed Task Worlds: Self-Evolving Task Generation for Scalable Embodied Learning [38.10198732103412]
Affordance-Graphed Task Worlds (AGT-World) は対話型シミュレーション環境とそれに対応するロボットタスクポリシーを自律的に構築するフレームワークである。
ランダムな提案や静的レプリケーションに依存するメソッドとは異なり、AGT-Worldは構造化グラフとしてタスク空間を定式化している。
提案手法は,スケーラブルなロボット学習のための提案,実行,修正の自己改善サイクルを達成し,成功率と一般化を著しく上回る。
論文 参考訳(メタデータ) (2026-02-12T15:23:45Z) - EscherVerse: An Open World Benchmark and Dataset for Teleo-Spatial Intelligence with Physical-Dynamic and Intent-Driven Understanding [56.89359230139883]
本稿では,Teleo-Spatial Intelligence(TSI)について紹介する。
本稿では、大規模なオープンワールドベンチマーク(Escher-Bench)、データセット(Escher-35k)、モデル(Escherシリーズ)からなるEscherVerseを紹介する。
これはIntent-Driven Reasoningを体系的に評価する最初のベンチマークである。
論文 参考訳(メタデータ) (2026-01-04T14:42:39Z) - Executable Analytic Concepts as the Missing Link Between VLM Insight and Precise Manipulation [70.8381970762877]
VLM(Vision-Language Models)は、セマンティック推論とタスク計画において顕著な能力を示す。
本稿では,VLMに基づく推論を実行可能な解析概念を通じて基礎づける新しいフレームワークであるGRACEを紹介する。
G GRACEは高レベル命令理解と低レベルロボット制御の統一的で解釈可能なインターフェースを提供する。
論文 参考訳(メタデータ) (2025-10-09T09:08:33Z) - Towards Faithful Reasoning in Remote Sensing: A Perceptually-Grounded GeoSpatial Chain-of-Thought for Vision-Language Models [8.021952962029165]
リモートセンシングにおける視覚言語モデル(VLM)は、複雑な分析タスクで失敗することが多い。
我々は、知覚的に周囲の地理空間的連鎖(Geo-CoT)を紹介する。
Geo-CoTは、リモートセンシング分析を検証可能なマルチステッププロセスとしてモデル化するフレームワークである。
論文 参考訳(メタデータ) (2025-09-26T11:34:42Z) - Reinforcing Video Reasoning Segmentation to Think Before It Segments [67.5703457389657]
本稿では,ビデオ推論セグメンテーションのためのLVLMであるVeason-R1を紹介する。
Veason-R1 は、Chain-of-Thought trajectories を付加した Group Relative Policy Optimization (O) を通じて訓練される。
空間的アライメントと時間的整合性を高める包括的報酬機構を組み込んだ。
Veason-R1は、複数のベンチマークで最先端のパフォーマンスを達成し、先行技術を上回っている。
論文 参考訳(メタデータ) (2025-08-15T15:34:56Z) - Ground-R1: Incentivizing Grounded Visual Reasoning via Reinforcement Learning [96.01617809845396]
Ground-R1は、明示的なエビデンスや合理的アノテーションを必要とせずに、基礎的な視覚的推論を可能にする強化学習フレームワークである。
グラウンドR1は優れた性能を示し、不確実性認識、空間認識、反復的洗練などの創発的な認知行動を示す。
論文 参考訳(メタデータ) (2025-05-26T17:51:47Z) - EmbodiedVSR: Dynamic Scene Graph-Guided Chain-of-Thought Reasoning for Visual Spatial Tasks [24.41705039390567]
EmbodiedVSR (Embodied Visual Space Reasoning) は動的シーングラフ誘導型Chain-of-Thought (CoT)推論を統合する新しいフレームワークである。
本手法はタスク固有の微調整なしでゼロショット空間推論を可能にする。
実験により,我々のフレームワークは,既存のMLLM法よりも精度と推論コヒーレンスにおいて優れていることが示された。
論文 参考訳(メタデータ) (2025-03-14T05:06:07Z) - Grounded Situation Recognition [56.18102368133022]
画像の構造的要約を生成することを必要とする課題であるグラウンドドコンディション認識(GSR)を導入する。
GSRはセマンティック・サリエンシの識別、大規模で多様なエンティティの分類とローカライズという重要な技術的課題を提示している。
我々は,条件付きクエリ,視覚連鎖,接地型セマンティック・アウェアネス・イメージ検索の3つのモデルによって実現される3つの将来方向について,最初の知見を示す。
論文 参考訳(メタデータ) (2020-03-26T17:57:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。