論文の概要: DoReMi: Grounding Language Model by Detecting and Recovering from Plan-Execution Misalignment
- arxiv url: http://arxiv.org/abs/2307.00329v4
- Date: Sat, 14 Sep 2024 12:11:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 03:47:44.964477
- Title: DoReMi: Grounding Language Model by Detecting and Recovering from Plan-Execution Misalignment
- Title(参考訳): DoReMi:計画実行ミスソーシングの検出と復元による接地言語モデル
- Authors: Yanjiang Guo, Yen-Jen Wang, Lihan Zha, Jianyu Chen,
- Abstract要約: DoReMiは、計画と実行間のミスアライメントの検出とリカバリを可能にする。
パイプラインは、低レベルの実行を監視し、特定の計画実行ミスアライメントが発生した場合、タイムリなリカバリを可能にします。
- 参考スコア(独自算出の注目度): 10.322491116030825
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) encode a vast amount of semantic knowledge and possess remarkable understanding and reasoning capabilities. Previous work has explored how to ground LLMs in robotic tasks to generate feasible and executable textual plans. However, low-level execution in the physical world may deviate from the high-level textual plan due to environmental perturbations or imperfect controller design. In this paper, we propose \textbf{DoReMi}, a novel language model grounding framework that enables immediate Detection and Recovery from Misalignments between plan and execution. Specifically, we leverage LLMs to play a dual role, aiding not only in high-level planning but also generating constraints that can indicate misalignment during execution. Then vision language models (VLMs) are utilized to detect constraint violations continuously. Our pipeline can monitor the low-level execution and enable timely recovery if certain plan-execution misalignment occurs. Experiments on various complex tasks including robot arms and humanoid robots demonstrate that our method can lead to higher task success rates and shorter task completion times. Videos of DoReMi are available at \url{https://sites.google.com/view/doremi-paper}.
- Abstract(参考訳): 大規模言語モデル(LLM)は大量の意味知識を符号化し、顕著な理解と推論能力を持っている。
従来の研究は、ロボット作業でLLMを接地して、実現可能で実行可能なテキストプランを生成する方法を模索してきた。
しかし、物理世界での低レベルの実行は、環境変動や不完全なコントローラ設計のために、高レベルのテキスト計画から逸脱する可能性がある。
本稿では,計画と実行のミスアライメントの即時検出と回復を可能にする,新しい言語モデル基盤フレームワークである \textbf{DoReMi} を提案する。
具体的には、LSMを利用して二重の役割を担い、ハイレベルな計画だけでなく、実行中に不適応を示す制約も生成します。
次に、視覚言語モデル(VLM)を用いて制約違反を継続的に検出する。
パイプラインは、低レベルの実行を監視し、特定の計画実行ミスアライメントが発生した場合、タイムリなリカバリを可能にします。
ロボットアームやヒューマノイドロボットなどの複雑なタスクの実験により,本手法がタスク成功率の向上とタスク完了時間の短縮につながることが実証された。
DoReMiのビデオは \url{https://sites.google.com/view/doremi-paper} で見ることができる。
関連論文リスト
- Plan-Seq-Learn: Language Model Guided RL for Solving Long Horizon Robotics Tasks [50.27313829438866]
Plan-Seq-Learn (PSL) は、抽象言語と学習した低レベル制御の間のギャップを埋めるためにモーションプランニングを使用するモジュラーアプローチである。
PSLは85%以上の成功率、言語ベース、古典的、エンドツーエンドのアプローチを達成している。
論文 参考訳(メタデータ) (2024-05-02T17:59:31Z) - Grounding Language Plans in Demonstrations Through Counterfactual Perturbations [25.19071357445557]
物理領域におけるLarge Language Models(LLM)の常識的推論は、具体化されたAIにとって重要な問題でありながら未解決である。
提案手法は,2次元ナビゲーションによる模倣学習の解釈性と反応性を向上し,シミュレーションおよび実ロボット操作タスクを実現する。
論文 参考訳(メタデータ) (2024-03-25T19:04:59Z) - Symbolic Planning and Code Generation for Grounded Dialogue [78.48668501764385]
大規模言語モデル(LLM)は、テキストとコードの両方の処理と生成に優れる。
本稿では,LLMをシンボリックプランナと接地コード実行で構成することで,欠点に対処する,モジュール型で解釈可能な接地対話システムを提案する。
我々のシステムは、人間の評価におけるタスク成功率を最も困難な環境で56%から69%に改善するなど、従来の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-10-26T04:22:23Z) - Ground Manipulator Primitive Tasks to Executable Actions using Large
Language Models [13.827349677538352]
大規模言語モデル(LLM)を用いた低レベル動作ロボットのためのマニピュレータ・プリミティブ・タスクを基礎とする新しい手法を提案する。
このようにして、LLMはハイブリッド制御のための位置/力のセットポイントを生成することができる。
論文 参考訳(メタデータ) (2023-08-13T16:52:36Z) - Embodied Task Planning with Large Language Models [86.63533340293361]
本研究では,現場制約を考慮した地上計画のための具体的タスクにおけるTAsk Planing Agent (TaPA)を提案する。
推論の際には,オープンボキャブラリオブジェクト検出器を様々な場所で収集された多視点RGB画像に拡張することにより,シーン内の物体を検出する。
実験の結果,我々のTaPAフレームワークから生成されたプランは,LLaVAやGPT-3.5よりも大きなマージンで高い成功率が得られることがわかった。
論文 参考訳(メタデータ) (2023-07-04T17:58:25Z) - AutoTAMP: Autoregressive Task and Motion Planning with LLMs as Translators and Checkers [20.857692296678632]
人間とロボットの効果的なインタラクションには、ロボットは複雑な長期的タスクを理解し、計画し、実行する必要がある。
大規模言語モデルの最近の進歩は、自然言語をロボットのアクションシーケンスに変換することを約束している。
本研究では,複雑なタスク領域において,LLMをプランナとして用いる手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-10T21:58:29Z) - Plan, Eliminate, and Track -- Language Models are Good Teachers for
Embodied Agents [99.17668730578586]
事前訓練された大言語モデル(LLM)は、世界に関する手続き的な知識をキャプチャする。
Plan, Eliminate, and Track (PET)フレームワークはタスク記述をハイレベルなサブタスクのリストに変換する。
PETフレームワークは、人間の目標仕様への一般化のために、SOTAよりも15%改善されている。
論文 参考訳(メタデータ) (2023-05-03T20:11:22Z) - ProgPrompt: Generating Situated Robot Task Plans using Large Language
Models [68.57918965060787]
大規模言語モデル(LLM)は、タスク計画中の潜在的な次のアクションを評価するために使用することができる。
本稿では, プログラム型LCMプロンプト構造を用いて, 配置環境間での計画生成機能を実現する。
論文 参考訳(メタデータ) (2022-09-22T20:29:49Z) - Language Models as Zero-Shot Planners: Extracting Actionable Knowledge
for Embodied Agents [111.33545170562337]
自然言語で表現された高レベルなタスクを、選択された実行可能なステップのセットに基底付ける可能性について検討する。
事前学習したLMが十分に大きく、適切に誘導された場合、ハイレベルなタスクを効果的に低レベルな計画に分解できることがわかった。
本稿では,既存の実演の条件を規定し,計画が許容可能な行動に意味的に変換される手順を提案する。
論文 参考訳(メタデータ) (2022-01-18T18:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。