論文の概要: SayPlan: Grounding Large Language Models using 3D Scene Graphs for
Scalable Robot Task Planning
- arxiv url: http://arxiv.org/abs/2307.06135v2
- Date: Wed, 27 Sep 2023 23:17:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-29 20:18:40.572740
- Title: SayPlan: Grounding Large Language Models using 3D Scene Graphs for
Scalable Robot Task Planning
- Title(参考訳): SayPlan: スケーラブルなロボットタスク計画のための3Dシーングラフによる大規模言語モデルの構築
- Authors: Krishan Rana, Jesse Haviland, Sourav Garg, Jad Abou-Chakra, Ian Reid
and Niko Suenderhauf
- Abstract要約: 本研究では,3次元シーングラフ(DSG)表現を用いた大規模タスクプランニングのスケーラブルなアプローチであるSayPlanを紹介する。
我々は,最大3フロア,36部屋,140部屋までの大規模な2つの環境に対するアプローチを評価した。
- 参考スコア(独自算出の注目度): 15.346150968195015
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) have demonstrated impressive results in
developing generalist planning agents for diverse tasks. However, grounding
these plans in expansive, multi-floor, and multi-room environments presents a
significant challenge for robotics. We introduce SayPlan, a scalable approach
to LLM-based, large-scale task planning for robotics using 3D scene graph
(3DSG) representations. To ensure the scalability of our approach, we: (1)
exploit the hierarchical nature of 3DSGs to allow LLMs to conduct a 'semantic
search' for task-relevant subgraphs from a smaller, collapsed representation of
the full graph; (2) reduce the planning horizon for the LLM by integrating a
classical path planner and (3) introduce an 'iterative replanning' pipeline
that refines the initial plan using feedback from a scene graph simulator,
correcting infeasible actions and avoiding planning failures. We evaluate our
approach on two large-scale environments spanning up to 3 floors and 36 rooms
with 140 assets and objects and show that our approach is capable of grounding
large-scale, long-horizon task plans from abstract, and natural language
instruction for a mobile manipulator robot to execute. We provide real robot
video demonstrations on our project page https://sayplan.github.io.
- Abstract(参考訳): 大規模言語モデル(llm)は、様々なタスクのためのジェネラリスト計画エージェントの開発において印象的な結果を示している。
しかし、これらの計画を拡張的でマルチフロア、マルチルーム環境で基礎化することは、ロボティクスにとって大きな課題となる。
本研究では,3次元シーングラフ(DSG)表現を用いたLLMベースの大規模タスク計画手法であるSayPlanを紹介する。
提案手法のスケーラビリティを確保するため,1) 3DSG の階層的特性を活用して,LLM がタスク関連部分グラフに対して,より小さく,崩壊した全グラフの表現から "意味探索" を行うこと,2) 古典的なパスプランナを統合することで LLM の計画的地平線を小さくすること,3) シーングラフシミュレータからのフィードバックを用いて初期計画を洗練し,実行不可能な動作を補正し,計画失敗を回避するパイプラインを導入すること,などが提案されている。
提案手法は,最大3階36部屋,140のアセットとオブジェクトにまたがる2つの大規模環境において評価し,移動体マニピュレータロボットに対して,大規模で長距離のタスクプランを抽象的かつ自然言語的な指示からグラウンド化できることを示す。
実際のロボットビデオデモはプロジェクトページ https://sayplan.github.io で公開しています。
関連論文リスト
- VeriGraph: Scene Graphs for Execution Verifiable Robot Planning [33.8868315479384]
本稿では,ロボット計画のための視覚言語モデル(VLM)を統合するフレームワークであるVeriGraphを提案する。
VeriGraphはシーングラフを中間表現として使用し、キーオブジェクトと空間関係をキャプチャして、計画検証と改善を改善する。
提案手法は,多様な操作シナリオにおけるタスク完了率を大幅に向上させ,言語ベースタスクでは58%,画像ベースタスクでは30%,ベースラインメソッドでは58%向上させる。
論文 参考訳(メタデータ) (2024-11-15T18:59:51Z) - Plan-Seq-Learn: Language Model Guided RL for Solving Long Horizon Robotics Tasks [50.27313829438866]
Plan-Seq-Learn (PSL) は、抽象言語と学習した低レベル制御の間のギャップを埋めるためにモーションプランニングを使用するモジュラーアプローチである。
PSLは85%以上の成功率、言語ベース、古典的、エンドツーエンドのアプローチを達成している。
論文 参考訳(メタデータ) (2024-05-02T17:59:31Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Look Before You Leap: Unveiling the Power of GPT-4V in Robotic
Vision-Language Planning [32.045840007623276]
本稿では,ロボットビジョン・ランゲージ計画(ViLa)について紹介する。
ViLaは、知覚データを推論と計画プロセスに直接統合する。
実ロボットとシミュレーション環境の両方で実施した評価は,既存のLCMプランナよりもViLaの方が優れていることを示す。
論文 参考訳(メタデータ) (2023-11-29T17:46:25Z) - ConceptGraphs: Open-Vocabulary 3D Scene Graphs for Perception and
Planning [125.90002884194838]
ConceptGraphsはオープンな3Dシーン用のグラフ構造化表現である。
2Dファウンデーションモデルを活用し、マルチビューアソシエーションによってアウトプットを3Dに融合することで構築される。
我々は,この表現の有用性を,下流の計画タスクを通じて実証する。
論文 参考訳(メタデータ) (2023-09-28T17:53:38Z) - Embodied Task Planning with Large Language Models [86.63533340293361]
本研究では,現場制約を考慮した地上計画のための具体的タスクにおけるTAsk Planing Agent (TaPA)を提案する。
推論の際には,オープンボキャブラリオブジェクト検出器を様々な場所で収集された多視点RGB画像に拡張することにより,シーン内の物体を検出する。
実験の結果,我々のTaPAフレームワークから生成されたプランは,LLaVAやGPT-3.5よりも大きなマージンで高い成功率が得られることがわかった。
論文 参考訳(メタデータ) (2023-07-04T17:58:25Z) - Learning to Reason over Scene Graphs: A Case Study of Finetuning GPT-2
into a Robot Language Model for Grounded Task Planning [45.51792981370957]
本研究では,ロボットタスク計画における小クラス大規模言語モデル(LLM)の適用性について,計画立案者が順次実行するためのサブゴール仕様にタスクを分解することを学ぶことによって検討する。
本手法は,シーングラフとして表現される領域上でのLLMの入力に基づいて,人間の要求を実行可能なロボット計画に変換する。
本研究は,LLMに格納された知識を長期タスクプランニングに効果的に活用できることを示唆し,ロボット工学におけるニューロシンボリックプランニング手法の今後の可能性を示すものである。
論文 参考訳(メタデータ) (2023-05-12T18:14:32Z) - ProgPrompt: Generating Situated Robot Task Plans using Large Language
Models [68.57918965060787]
大規模言語モデル(LLM)は、タスク計画中の潜在的な次のアクションを評価するために使用することができる。
本稿では, プログラム型LCMプロンプト構造を用いて, 配置環境間での計画生成機能を実現する。
論文 参考訳(メタデータ) (2022-09-22T20:29:49Z) - TASKOGRAPHY: Evaluating robot task planning over large 3D scene graphs [33.25317860393983]
TASKOGRAPHYは、3DSGを使った最初の大規模ロボットタスク計画ベンチマークである。
タスク条件付き3DSGスカラー化手法であるSCRUBを提案する。
また,学習ベースプランナが3DSG構造を活用できる手法であるSEEKを提案する。
論文 参考訳(メタデータ) (2022-07-11T16:51:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。