論文の概要: Plan Verification for LLM-Based Embodied Task Completion Agents
- arxiv url: http://arxiv.org/abs/2509.02761v2
- Date: Thu, 04 Sep 2025 15:30:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 14:03:59.174647
- Title: Plan Verification for LLM-Based Embodied Task Completion Agents
- Title(参考訳): LLMを用いたタスク完了エージェントの計画検証
- Authors: Ananth Hariharan, Vardhan Dongre, Dilek Hakkani-Tür, Gokhan Tur,
- Abstract要約: 大規模言語モデル(LLM)に基づくタスク計画とそれに対応するAIの人間による実演は騒々しいかもしれない。
審査員が行動系列を批判し、プランナーLLMが修正を適用する反復検証フレームワークを提案する。
- 参考スコア(独自算出の注目度): 10.439882851477162
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model (LLM) based task plans and corresponding human demonstrations for embodied AI may be noisy, with unnecessary actions, redundant navigation, and logical errors that reduce policy quality. We propose an iterative verification framework in which a Judge LLM critiques action sequences and a Planner LLM applies the revisions, yielding progressively cleaner and more spatially coherent trajectories. Unlike rule-based approaches, our method relies on natural language prompting, enabling broad generalization across error types including irrelevant actions, contradictions, and missing steps. On a set of manually annotated actions from the TEACh embodied AI dataset, our framework achieves up to 90% recall and 100% precision across four state-of-the-art LLMs (GPT o4-mini, DeepSeek-R1, Gemini 2.5, LLaMA 4 Scout). The refinement loop converges quickly, with 96.5% of sequences requiring at most three iterations, while improving both temporal efficiency and spatial action organization. Crucially, the method preserves human error-recovery patterns rather than collapsing them, supporting future work on robust corrective behavior. By establishing plan verification as a reliable LLM capability for spatial planning and action refinement, we provide a scalable path to higher-quality training data for imitation learning in embodied AI.
- Abstract(参考訳): 大規模言語モデル(LLM)ベースのタスク計画とそれに対応するAIの人間によるデモンストレーションは、不要なアクション、冗長なナビゲーション、ポリシーの品質を低下させる論理的エラーなど、ノイズを伴う可能性がある。
本稿では,LLM判事が行動系列を批判し,Planner LLMが修正を適用した反復検証フレームワークを提案する。
ルールベースのアプローチとは異なり、本手法は自然言語のプロンプトに依存しており、無関係な動作、矛盾、欠落したステップを含むエラータイプを広範囲に一般化することができる。
TEAChを具体化したAIデータセットから手動で注釈付けされた一連のアクションに基づいて、我々のフレームワークは、4つの最先端LLM(GPT o4-mini、DeepSeek-R1、Gemini 2.5、LLaMA 4 Scout)で最大90%のリコールと100%の精度を達成する。
精製ループは急速に収束し、96.5%のシーケンスは少なくとも3回の繰り返しを必要とするが、時間効率と空間行動の両方を改善する。
重要なことに、この方法は、崩壊するよりも、人間のエラー回復パターンを保存し、堅牢な修正行動に関する将来の研究を支援する。
空間計画と行動改善のための信頼性の高いLCM機能として計画検証を確立することにより、具体的AIにおける模倣学習のための高品質なトレーニングデータへのスケーラブルなパスを提供する。
関連論文リスト
- Learning to Reason and Navigate: Parameter Efficient Action Planning with Large Language Models [63.765846080050906]
本稿では,大規模言語モデル (PEAP-LLM) を用いたパラメータ効率の高いアクションプランナを提案する。
実験により,提案したREVERIEモデルが従来の最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-05-12T12:38:20Z) - Sculpting Subspaces: Constrained Full Fine-Tuning in LLMs for Continual Learning [19.27175827358111]
大規模言語モデル(LLM)における継続的な学習は破滅的な忘れがちである。
適応特異値分解(SVD)を利用した連続的完全微調整手法を提案する。
我々は,Encoder-decoder (T5-Large) モデルとdecoder-only (LLaMA-2 7B) モデルの両方を用いて,標準連続学習ベンチマークを広範囲に評価した。
論文 参考訳(メタデータ) (2025-04-09T17:59:42Z) - Self-Corrective Task Planning by Inverse Prompting with Large Language Models [9.283971287618261]
InversePromptは,新しい自己修正型タスクプランニング手法である。
提案手法は、明確な解釈可能なフィードバックを提供するための推論ステップを組み込んだものである。
ベンチマークデータセットの結果は、既存のLCMベースのタスク計画手法よりも平均16.3%高い成功率を示している。
論文 参考訳(メタデータ) (2025-03-10T13:35:51Z) - Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。
このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。
我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文 参考訳(メタデータ) (2024-05-30T09:42:54Z) - Plan, Eliminate, and Track -- Language Models are Good Teachers for
Embodied Agents [99.17668730578586]
事前訓練された大言語モデル(LLM)は、世界に関する手続き的な知識をキャプチャする。
Plan, Eliminate, and Track (PET)フレームワークはタスク記述をハイレベルなサブタスクのリストに変換する。
PETフレームワークは、人間の目標仕様への一般化のために、SOTAよりも15%改善されている。
論文 参考訳(メタデータ) (2023-05-03T20:11:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。