論文の概要: Unleashing Embodied Task Planning Ability in LLMs via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2506.23127v1
- Date: Sun, 29 Jun 2025 07:31:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.729084
- Title: Unleashing Embodied Task Planning Ability in LLMs via Reinforcement Learning
- Title(参考訳): 強化学習によるLLMの解き放たれたタスクプランニング能力
- Authors: Zhaoye Fei, Li Ji, Siyin Wang, Junhao Shi, Jingjing Gong, Xipeng Qiu,
- Abstract要約: 大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
既存のアプローチは静的知識に基づいてオープンループアクションスクリプトを生成する。
結果駆動型強化学習フレームワークであるEmbodied Planner-R1を紹介する。
- 参考スコア(独自算出の注目度): 41.67411509781136
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable capabilities across various tasks, yet they face significant challenges in embodied task planning scenarios that require continuous environmental understanding and action generation. Existing approaches generate open-loop action scripts based on static knowledge, making it difficult to learn causal relationships between actions and environmental feedback, particularly in partially observable environments. We introduce Embodied Planner-R1, a novel outcome-driven reinforcement learning framework that enables LLMs to develop interactive capabilities through autonomous exploration with minimal supervision. Our framework incorporates three key innovations: (1) Without human annotations, we employ pure reinforcement learning with group rollout, incorporating in-environment interaction through parallel exploration; (2) completion-driven sparse reward; and (3) Interactive Policy Optimization (IPO) for efficient learning from grouped trajectories. Across two challenging text-based Embodied planning benchmarks, Embodied Planner-R1 achieves impressive completion rates of 97.78% on ALFWorld and 79.92% on ScienceWorld, surpassing prior methods by a large margin, and suffers only a -3.66% drop in previously unseen environments, evidencing strong generalization.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示してきたが、継続的な環境理解とアクション生成を必要とするタスク計画シナリオを具現化する上で、大きな課題に直面している。
既存のアプローチでは、静的な知識に基づいてオープンループアクションスクリプトを生成するため、特に部分的に観察可能な環境において、アクションと環境フィードバックの間の因果関係の学習が困難になる。
Embodied Planner-R1は、LLMが最小限の監督で自律的な探索を通じてインタラクティブな機能を開発することができる新しい結果駆動強化学習フレームワークである。
この枠組みには,(1) 人間のアノテーションがなければ, グループロールアウトによる純粋強化学習, (2) 並列探索による環境内相互作用の導入, (2) 完備化によるスパース報酬, (3) グループ軌道からの効率的な学習のための対話的政策最適化(IPO)の3つの重要な革新が含まれている。
2つの挑戦的なテキストベースの計画ベンチマークの中で、Embodied Planner-R1は、ALFWorldで97.78%、ScienceWorldで79.92%という印象的な完成率を達成した。
関連論文リスト
- Don't Just Follow MLLM Plans: Robust and Efficient Planning for Open-world Agents [7.186226937530119]
本稿では,これらの問題に対処するための新しいフレームワークであるオープンワールドエージェントのためのロバスト・効率的な計画手法(REPOA)を紹介する。
REPOAは、適応的な依存性学習と、知識不正確性に対する堅牢性を高めるためのきめ細かな障害対応操作メモリの3つの重要なコンポーネントを備えている。
2つの確立されたオープンワールドテストベッドにおける評価は、REPOAの堅牢で効率的なプランニングを実証し、遅発品の獲得に成功していることを示す。
論文 参考訳(メタデータ) (2025-05-30T03:01:44Z) - Words as Beacons: Guiding RL Agents with High-Level Language Prompts [6.7236795813629]
大型言語モデル(LLM)は「教師」として、複雑なタスクをサブゴールに分解することでエージェントの学習プロセスを導く。
LLMは、人間と同じような方法で、環境のために定義されたタスクを達成するためのサブゴールを提供することができる。
トレーニングフェーズの間のみLLMに問い合わせることができ、エージェントはLLMの介入なしに環境内で操作できる。
論文 参考訳(メタデータ) (2024-10-11T08:54:45Z) - AgentGen: Enhancing Planning Abilities for Large Language Model based Agent via Environment and Task Generation [81.32722475387364]
大規模言語モデルに基づくエージェントが注目され、ますます人気が高まっている。
計画能力は LLM ベースのエージェントの重要な構成要素であり、通常は初期状態から望ましい目標を達成する必要がある。
近年の研究では、専門家レベルの軌跡を指導訓練用LLMに活用することで、効果的に計画能力を向上させることが示されている。
論文 参考訳(メタデータ) (2024-08-01T17:59:46Z) - Knowledgeable Agents by Offline Reinforcement Learning from Large Language Model Rollouts [10.929547354171723]
本稿では,言語モデルロールアウト(KALM)の知識エージェントを紹介する。
大規模言語モデル(LLM)から、オフラインの強化学習手法によってエージェントが容易に学習できる想像上のロールアウトの形で知識を抽出する。
未確認の目標を持つタスクの実行において46%の成功率を達成し、ベースラインメソッドによって達成された26%の成功率を大幅に上回る。
論文 参考訳(メタデータ) (2024-04-14T13:19:40Z) - From Summary to Action: Enhancing Large Language Models for Complex
Tasks with Open World APIs [62.496139001509114]
大規模な現実世界のAPIを制御するために設計された新しいツール呼び出しパイプラインを導入します。
このパイプラインは人間のタスク解決プロセスを反映し、複雑な実際のユーザクエリに対処する。
ToolBenchベンチマークにおけるSum2Actパイプラインの実証的な評価は、大幅なパフォーマンス向上を示している。
論文 参考訳(メタデータ) (2024-02-28T08:42:23Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - Efficient Learning of High Level Plans from Play [57.29562823883257]
本稿では,移動計画と深いRLを橋渡しするロボット学習のフレームワークであるELF-Pについて紹介する。
ELF-Pは、複数の現実的な操作タスクよりも、関連するベースラインよりもはるかに優れたサンプル効率を有することを示す。
論文 参考訳(メタデータ) (2023-03-16T20:09:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。