論文の概要: VeriGraph: Scene Graphs for Execution Verifiable Robot Planning
- arxiv url: http://arxiv.org/abs/2411.10446v1
- Date: Fri, 15 Nov 2024 18:59:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-18 15:37:31.138711
- Title: VeriGraph: Scene Graphs for Execution Verifiable Robot Planning
- Title(参考訳): VeriGraph:実行検証ロボット計画のためのシーングラフ
- Authors: Daniel Ekpo, Mara Levy, Saksham Suri, Chuong Huynh, Abhinav Shrivastava,
- Abstract要約: 本稿では,ロボット計画のための視覚言語モデル(VLM)を統合するフレームワークであるVeriGraphを提案する。
VeriGraphはシーングラフを中間表現として使用し、キーオブジェクトと空間関係をキャプチャして、計画検証と改善を改善する。
提案手法は,多様な操作シナリオにおけるタスク完了率を大幅に向上させ,言語ベースタスクでは58%,画像ベースタスクでは30%,ベースラインメソッドでは58%向上させる。
- 参考スコア(独自算出の注目度): 33.8868315479384
- License:
- Abstract: Recent advancements in vision-language models (VLMs) offer potential for robot task planning, but challenges remain due to VLMs' tendency to generate incorrect action sequences. To address these limitations, we propose VeriGraph, a novel framework that integrates VLMs for robotic planning while verifying action feasibility. VeriGraph employs scene graphs as an intermediate representation, capturing key objects and spatial relationships to improve plan verification and refinement. The system generates a scene graph from input images and uses it to iteratively check and correct action sequences generated by an LLM-based task planner, ensuring constraints are respected and actions are executable. Our approach significantly enhances task completion rates across diverse manipulation scenarios, outperforming baseline methods by 58% for language-based tasks and 30% for image-based tasks.
- Abstract(参考訳): 近年の視覚言語モデル(VLM)の進歩は、ロボットのタスク計画に可能性をもたらすが、VLMが誤ったアクションシーケンスを生成する傾向があるため、課題は残る。
これらの制約に対処するため,ロボット計画のためのVLMを統合し,動作の実現可能性を検証する新しいフレームワークであるVeriGraphを提案する。
VeriGraphはシーングラフを中間表現として使用し、キーオブジェクトと空間関係をキャプチャして、計画検証と改善を改善する。
システムは、入力画像からシーングラフを生成し、LLMベースのタスクプランナが生成したアクションシーケンスを反復的にチェックし、修正し、制約を尊重し、アクションが実行可能であることを保証する。
提案手法は,多様な操作シナリオにおけるタスク完了率を大幅に向上させ,言語ベースタスクでは58%,画像ベースタスクでは30%,ベースラインメソッドでは58%向上させる。
関連論文リスト
- Dynamic Planning for LLM-based Graphical User Interface Automation [48.31532014795368]
LLMベースのGUIエージェントのための動的思考計画(D-PoT)と呼ばれる新しいアプローチを提案する。
D-PoTは環境フィードバックと実行履歴に基づいて計画の動的調整を行う。
実験の結果、提案されたD-PoTは強いGPT-4Vベースラインを+12.7%上回った。
論文 参考訳(メタデータ) (2024-10-01T07:49:24Z) - Can Graph Learning Improve Planning in LLM-based Agents? [61.47027387839096]
言語エージェントにおけるタスクプランニングは、大規模言語モデル(LLM)の開発とともに重要な研究トピックとして浮上している。
本稿では,課題計画のためのグラフ学習に基づく手法について検討する。
我々のグラフ学習への関心は、注意のバイアスと自己回帰的損失が、グラフ上の意思決定を効果的にナビゲートするLLMの能力を妨げているという理論的な発見に起因している。
論文 参考訳(メタデータ) (2024-05-29T14:26:24Z) - From Pixels to Graphs: Open-Vocabulary Scene Graph Generation with Vision-Language Models [81.92098140232638]
シーングラフ生成(SGG)は、下流の推論タスクのための中間グラフ表現に視覚シーンを解析することを目的としている。
既存の手法は、新しい視覚的関係の概念を持つシーングラフを生成するのに苦労している。
シークエンス生成に基づく新しいオープン語彙SGGフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-01T04:21:01Z) - MuseGraph: Graph-oriented Instruction Tuning of Large Language Models
for Generic Graph Mining [41.19687587548107]
グラフニューラルネットワーク(GNN)は、異なるグラフタスクやデータセットに適用されるたびに、再トレーニングされる必要がある。
GNNとLarge Language Models(LLM)の強みをシームレスに統合する新しいフレームワークMusteGraphを提案する。
実験結果から,異なるグラフタスクの大幅な改善が示された。
論文 参考訳(メタデータ) (2024-03-02T09:27:32Z) - Planning as In-Painting: A Diffusion-Based Embodied Task Planning
Framework for Environments under Uncertainty [56.30846158280031]
具体的AIのためのタスクプランニングは、最も難しい問題の1つだ。
In-paintingとしての計画」というタスク非依存の手法を提案する。
提案するフレームワークは,様々な具体的AIタスクにおいて,有望なパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-12-02T10:07:17Z) - Unsupervised Task Graph Generation from Instructional Video Transcripts [53.54435048879365]
本研究では,実世界の活動を行う指導ビデオのテキスト書き起こしを提供する環境について考察する。
目標は、これらの重要なステップ間の依存関係関係と同様に、タスクに関連する重要なステップを特定することです。
本稿では,命令調整言語モデルの推論能力とクラスタリングとランキングコンポーネントを組み合わせたタスクグラフ生成手法を提案する。
論文 参考訳(メタデータ) (2023-02-17T22:50:08Z) - Sequential Manipulation Planning on Scene Graph [90.28117916077073]
我々は,効率的な逐次タスク計画のための3次元シーングラフ表現であるコンタクトグラフ+(cg+)を考案する。
ゴール設定は、自然にコンタクトグラフに指定され、最適化法を用いて遺伝的アルゴリズムによって作成することができる。
次に、初期接触グラフと目標設定との間のグラフ編集距離(GED)を計算してタスクプランを簡潔化し、ロボット動作に対応するグラフ編集操作を生成する。
論文 参考訳(メタデータ) (2022-07-10T02:01:33Z) - A Task-Motion Planning Framework Using Iteratively Deepened AND/OR Graph
Networks [1.3535770763481902]
本稿では,TMP-IDAN (Iterative Deepened and/OR Graph Networks) を用いたタスク移動計画手法を提案する。
TMP-IDANはタスクレベルの状態とアクションをコンパクトに表現するためにAND/ORグラフネットワークベースの新しい抽象化を使用する。
バクスターロボットと最先端のロボティクスシミュレーターを用いて、アプローチの検証と能力評価を行います。
論文 参考訳(メタデータ) (2021-04-04T07:06:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。