論文の概要: LookPlanGraph: Embodied Instruction Following Method with VLM Graph Augmentation
- arxiv url: http://arxiv.org/abs/2512.21243v1
- Date: Wed, 24 Dec 2025 15:36:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.818683
- Title: LookPlanGraph: Embodied Instruction Following Method with VLM Graph Augmentation
- Title(参考訳): LookPlanGraph: VLMグラフ拡張による身体的指示追従手法
- Authors: Anatoly O. Onishchenko, Alexey K. Kovalev, Aleksandr I. Panov,
- Abstract要約: 大規模言語モデル(LLM)をタスクを具体化するためのプランナーとして利用する手法が広く普及している。
1つの解決策は、必要なすべての情報を含むシーングラフを使用することです。
現代の手法は事前に構築されたシーングラフに依存し、すべてのタスク関連情報が計画開始時に利用可能であると仮定する。
静的なアセットとオブジェクトの先行値からなるシーングラフを利用するLookPlanGraphを提案する。
- 参考スコア(独自算出の注目度): 47.99822253865053
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Methods that use Large Language Models (LLM) as planners for embodied instruction following tasks have become widespread. To successfully complete tasks, the LLM must be grounded in the environment in which the robot operates. One solution is to use a scene graph that contains all the necessary information. Modern methods rely on prebuilt scene graphs and assume that all task-relevant information is available at the start of planning. However, these approaches do not account for changes in the environment that may occur between the graph construction and the task execution. We propose LookPlanGraph - a method that leverages a scene graph composed of static assets and object priors. During plan execution, LookPlanGraph continuously updates the graph with relevant objects, either by verifying existing priors or discovering new entities. This is achieved by processing the agents egocentric camera view using a Vision Language Model. We conducted experiments with changed object positions VirtualHome and OmniGibson simulated environments, demonstrating that LookPlanGraph outperforms methods based on predefined static scene graphs. To demonstrate the practical applicability of our approach, we also conducted experiments in a real-world setting. Additionally, we introduce the GraSIF (Graph Scenes for Instruction Following) dataset with automated validation framework, comprising 514 tasks drawn from SayPlan Office, BEHAVIOR-1K, and VirtualHome RobotHow. Project page available at https://lookplangraph.github.io .
- Abstract(参考訳): 大規模言語モデル(LLM)をタスクを具体化するためのプランナーとして利用する手法が広く普及している。
タスクを完了させるためには、LLMはロボットが動作している環境に接地する必要がある。
1つの解決策は、必要なすべての情報を含むシーングラフを使用することです。
現代の手法は事前に構築されたシーングラフに依存し、すべてのタスク関連情報が計画開始時に利用可能であると仮定する。
しかし、これらのアプローチは、グラフ構築とタスク実行の間に生じる可能性のある環境の変化を考慮に入れていない。
静的なアセットとオブジェクトの先行値からなるシーングラフを利用するLookPlanGraphを提案する。
計画実行中、LookPlanGraphは関連するオブジェクトでグラフを継続的に更新する。
これは、視覚言語モデルを用いてエージェント中心のカメラビューを処理することで達成される。
我々はVirtualHomeとOmniGibsonをシミュレートした環境のオブジェクト位置を変える実験を行い、LookPlanGraphが事前に定義された静的シーングラフに基づいてメソッドを性能良くすることを示した。
また,本手法の実用性を示すために,実環境における実験を行った。
さらに、SayPlan Office、BEHAVIOR-1K、VirtualHome RobotHowから引き出された514のタスクを含む、自動検証フレームワークを備えたGraSIFデータセット(Graph Scenes for Instruction following)を導入する。
プロジェクトページはhttps://lookplangraph.github.io にある。
関連論文リスト
- MomaGraph: State-Aware Unified Scene Graphs with Vision-Language Model for Embodied Task Planning [44.61781303455069]
家庭の移動マニピュレータは、ナビゲートと操作の両方が必要です。
これは、オブジェクトがどこにあるか、どのように機能し、どの部分が実行可能なのかをキャプチャする、コンパクトでセマンティックにリッチなシーン表現を必要とする。
我々は,空間的機能的関係と部分レベルの対話的要素を統合した,エンボディエージェントのための統一的なシーン表現であるMomaGraphを紹介した。
論文 参考訳(メタデータ) (2025-12-18T18:59:03Z) - Plan-over-Graph: Towards Parallelable LLM Agent Schedule [53.834646147919436]
大規模言語モデル(LLM)はタスク計画の推論において例外的な能力を示した。
本稿では,まず実生活のテキストタスクを実行可能なサブタスクに分解し,抽象的なタスクグラフを構築する,新しいパラダイムであるプランオーバーグラフを提案する。
モデルはこのタスクグラフを入力として理解し、並列実行計画を生成する。
論文 参考訳(メタデータ) (2025-02-20T13:47:51Z) - VeriGraph: Scene Graphs for Execution Verifiable Robot Planning [33.8868315479384]
本稿では,ロボット計画のための視覚言語モデル(VLM)を統合するフレームワークであるVeriGraphを提案する。
VeriGraphはシーングラフを中間表現として使用し、キーオブジェクトと空間関係をキャプチャして、計画検証と改善を改善する。
提案手法は,多様な操作シナリオにおけるタスク完了率を大幅に向上させ,言語ベースタスクでは58%,画像ベースタスクでは30%,ベースラインメソッドでは58%向上させる。
論文 参考訳(メタデータ) (2024-11-15T18:59:51Z) - SayPlan: Grounding Large Language Models using 3D Scene Graphs for
Scalable Robot Task Planning [15.346150968195015]
本研究では,3次元シーングラフ(DSG)表現を用いた大規模タスクプランニングのスケーラブルなアプローチであるSayPlanを紹介する。
我々は,最大3フロア,36部屋,140部屋までの大規模な2つの環境に対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-07-12T12:37:55Z) - Sequential Manipulation Planning on Scene Graph [90.28117916077073]
我々は,効率的な逐次タスク計画のための3次元シーングラフ表現であるコンタクトグラフ+(cg+)を考案する。
ゴール設定は、自然にコンタクトグラフに指定され、最適化法を用いて遺伝的アルゴリズムによって作成することができる。
次に、初期接触グラフと目標設定との間のグラフ編集距離(GED)を計算してタスクプランを簡潔化し、ロボット動作に対応するグラフ編集操作を生成する。
論文 参考訳(メタデータ) (2022-07-10T02:01:33Z) - Hallucinative Topological Memory for Zero-Shot Visual Planning [86.20780756832502]
視覚計画(VP)では、エージェントは、オフラインで取得した動的システムの観察から目標指向の振る舞いを計画することを学ぶ。
以前のVPに関するほとんどの研究は、学習された潜在空間で計画することでこの問題にアプローチし、結果として品質の低い視覚計画を生み出した。
本稿では,画像空間を直接計画し,競合性能を示すシンプルなVP手法を提案する。
論文 参考訳(メタデータ) (2020-02-27T18:54:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。