論文の概要: SAGE: Scene Graph-Aware Guidance and Execution for Long-Horizon Manipulation Tasks
- arxiv url: http://arxiv.org/abs/2509.21928v1
- Date: Fri, 26 Sep 2025 06:14:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.225429
- Title: SAGE: Scene Graph-Aware Guidance and Execution for Long-Horizon Manipulation Tasks
- Title(参考訳): SAGE: 長期操作タスクのためのシーングラフ認識誘導と実行
- Authors: Jialiang Li, Wenzheng Wu, Gaojing Zhang, Yifan Han, Wenzhao Lian,
- Abstract要約: ロングホライゾン操作タスクは、拡張されたアクションシーケンスと複雑なオブジェクトの相互作用を含む。
長軸操作タスクにおけるSAGE(Scene Graph-Aware Guidance and Execution)の新たなフレームワークを提案する。
SAGE は,(1) VLM と LLM を用いて環境解析を行うシーングラフベースのタスクプランナと,(2) 対象のサブゴールグラフを対応する画像に変換する分離構造画像編集パイプラインから構成される。
- 参考スコア(独自算出の注目度): 3.688836621357062
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Successfully solving long-horizon manipulation tasks remains a fundamental challenge. These tasks involve extended action sequences and complex object interactions, presenting a critical gap between high-level symbolic planning and low-level continuous control. To bridge this gap, two essential capabilities are required: robust long-horizon task planning and effective goal-conditioned manipulation. Existing task planning methods, including traditional and LLM-based approaches, often exhibit limited generalization or sparse semantic reasoning. Meanwhile, image-conditioned control methods struggle to adapt to unseen tasks. To tackle these problems, we propose SAGE, a novel framework for Scene Graph-Aware Guidance and Execution in Long-Horizon Manipulation Tasks. SAGE utilizes semantic scene graphs as a structural representation for scene states. A structural scene graph enables bridging task-level semantic reasoning and pixel-level visuo-motor control. This also facilitates the controllable synthesis of accurate, novel sub-goal images. SAGE consists of two key components: (1) a scene graph-based task planner that uses VLMs and LLMs to parse the environment and reason about physically-grounded scene state transition sequences, and (2) a decoupled structural image editing pipeline that controllably converts each target sub-goal graph into a corresponding image through image inpainting and composition. Extensive experiments have demonstrated that SAGE achieves state-of-the-art performance on distinct long-horizon tasks.
- Abstract(参考訳): 長距離操作タスクをうまく解くことは、依然として根本的な課題である。
これらのタスクは、拡張されたアクションシーケンスと複雑なオブジェクト相互作用を含み、ハイレベルなシンボリックプランニングと低レベルな継続的な制御の間に重要なギャップを生じさせる。
このギャップを埋めるためには、堅牢な長期タスク計画と効果的な目標条件操作の2つの重要な機能が必要である。
従来の LLM や LLM ベースのアプローチを含む既存のタスク計画手法では、限定的な一般化やスパースなセマンティック推論がしばしば見られる。
一方、画像条件付き制御手法は、目に見えないタスクに適応するのに苦労する。
これらの問題に対処するために,SAGEを提案する。SAGEは,Long-Horizon Manipulation TasksにおけるScene Graph-Aware Guidance and Executionのための新しいフレームワークである。
SAGEはシーン状態の構造表現としてセマンティックシーングラフを利用する。
構造的シーングラフは、ブリッジングタスクレベルのセマンティック推論とピクセルレベルのビジュオモダ制御を可能にする。
これはまた、正確で新しいサブゴール画像の制御可能な合成を容易にする。
SAGE は,(1) VLM と LLM を用いて環境解析を行うシーングラフベースのタスクプランナ,(2) 対象のサブゴールグラフを対応する画像に変換する分離構造画像編集パイプラインから構成される。
大規模な実験により、SAGEは異なる長距離タスクで最先端のパフォーマンスを達成することが実証された。
関連論文リスト
- Plan-over-Graph: Towards Parallelable LLM Agent Schedule [53.834646147919436]
大規模言語モデル(LLM)はタスク計画の推論において例外的な能力を示した。
本稿では,まず実生活のテキストタスクを実行可能なサブタスクに分解し,抽象的なタスクグラフを構築する,新しいパラダイムであるプランオーバーグラフを提案する。
モデルはこのタスクグラフを入力として理解し、並列実行計画を生成する。
論文 参考訳(メタデータ) (2025-02-20T13:47:51Z) - VeriGraph: Scene Graphs for Execution Verifiable Robot Planning [33.8868315479384]
本稿では,ロボット計画のための視覚言語モデル(VLM)を統合するフレームワークであるVeriGraphを提案する。
VeriGraphはシーングラフを中間表現として使用し、キーオブジェクトと空間関係をキャプチャして、計画検証と改善を改善する。
提案手法は,多様な操作シナリオにおけるタスク完了率を大幅に向上させ,言語ベースタスクでは58%,画像ベースタスクでは30%,ベースラインメソッドでは58%向上させる。
論文 参考訳(メタデータ) (2024-11-15T18:59:51Z) - Image Semantic Relation Generation [0.76146285961466]
シーングラフは複雑な画像情報を排除し、意味レベルの関係を利用して視覚モデルのバイアスを修正することができる。
本研究では,画像意味関係生成(ISRG)を提案する。
論文 参考訳(メタデータ) (2022-10-19T16:15:19Z) - Sequential Manipulation Planning on Scene Graph [90.28117916077073]
我々は,効率的な逐次タスク計画のための3次元シーングラフ表現であるコンタクトグラフ+(cg+)を考案する。
ゴール設定は、自然にコンタクトグラフに指定され、最適化法を用いて遺伝的アルゴリズムによって作成することができる。
次に、初期接触グラフと目標設定との間のグラフ編集距離(GED)を計算してタスクプランを簡潔化し、ロボット動作に対応するグラフ編集操作を生成する。
論文 参考訳(メタデータ) (2022-07-10T02:01:33Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - Goal-Conditioned End-to-End Visuomotor Control for Versatile Skill
Primitives [89.34229413345541]
本稿では,制御器とその条件をエンドツーエンドに学習することで,落とし穴を回避する条件付け手法を提案する。
本モデルでは,ロボットの動きのダイナミックな画像表現に基づいて,複雑な動作シーケンスを予測する。
代表的MPCおよびILベースラインに対するタスク成功の大幅な改善を報告した。
論文 参考訳(メタデータ) (2020-03-19T15:04:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。