論文の概要: Unleashing Embodied Task Planning Ability in LLMs via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2506.23127v1
- Date: Sun, 29 Jun 2025 07:31:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.729084
- Title: Unleashing Embodied Task Planning Ability in LLMs via Reinforcement Learning
- Title(参考訳): 強化学習によるLLMの解き放たれたタスクプランニング能力
- Authors: Zhaoye Fei, Li Ji, Siyin Wang, Junhao Shi, Jingjing Gong, Xipeng Qiu,
- Abstract要約: 大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
既存のアプローチは静的知識に基づいてオープンループアクションスクリプトを生成する。
結果駆動型強化学習フレームワークであるEmbodied Planner-R1を紹介する。
- 参考スコア(独自算出の注目度): 41.67411509781136
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable capabilities across various tasks, yet they face significant challenges in embodied task planning scenarios that require continuous environmental understanding and action generation. Existing approaches generate open-loop action scripts based on static knowledge, making it difficult to learn causal relationships between actions and environmental feedback, particularly in partially observable environments. We introduce Embodied Planner-R1, a novel outcome-driven reinforcement learning framework that enables LLMs to develop interactive capabilities through autonomous exploration with minimal supervision. Our framework incorporates three key innovations: (1) Without human annotations, we employ pure reinforcement learning with group rollout, incorporating in-environment interaction through parallel exploration; (2) completion-driven sparse reward; and (3) Interactive Policy Optimization (IPO) for efficient learning from grouped trajectories. Across two challenging text-based Embodied planning benchmarks, Embodied Planner-R1 achieves impressive completion rates of 97.78% on ALFWorld and 79.92% on ScienceWorld, surpassing prior methods by a large margin, and suffers only a -3.66% drop in previously unseen environments, evidencing strong generalization.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示してきたが、継続的な環境理解とアクション生成を必要とするタスク計画シナリオを具現化する上で、大きな課題に直面している。
既存のアプローチでは、静的な知識に基づいてオープンループアクションスクリプトを生成するため、特に部分的に観察可能な環境において、アクションと環境フィードバックの間の因果関係の学習が困難になる。
Embodied Planner-R1は、LLMが最小限の監督で自律的な探索を通じてインタラクティブな機能を開発することができる新しい結果駆動強化学習フレームワークである。
この枠組みには,(1) 人間のアノテーションがなければ, グループロールアウトによる純粋強化学習, (2) 並列探索による環境内相互作用の導入, (2) 完備化によるスパース報酬, (3) グループ軌道からの効率的な学習のための対話的政策最適化(IPO)の3つの重要な革新が含まれている。
2つの挑戦的なテキストベースの計画ベンチマークの中で、Embodied Planner-R1は、ALFWorldで97.78%、ScienceWorldで79.92%という印象的な完成率を達成した。
関連論文リスト
- Subgoal Graph-Augmented Planning for LLM-Guided Open-World Reinforcement Learning [0.0]
大規模言語モデル(LLM)は強化学習に強力な高レベル計画機能を提供する。
LLMは、セマンティックに妥当なサブゴールを生成するが、ターゲット環境では不可能または無関係である。
LLMの計画は自己検証と融合し、自信過剰で信頼性の低いサブゴールとなる。
論文 参考訳(メタデータ) (2025-11-26T02:49:44Z) - ReflexGrad: Three-Way Synergistic Architecture for Zero-Shot Generalization in LLM Agents [0.0]
ReflexGradは、3つの相補的なメカニズムを密に結合する新しいアーキテクチャである。
本システムは, 純粋意味論的推論により, 真のゼロショット一般化を実現する。
我々の研究は、相補的な学習機構の相補的な統合が、堅牢なゼロショット一般化を可能にすることを実証している。
論文 参考訳(メタデータ) (2025-11-18T15:25:05Z) - Graph-Enhanced Policy Optimization in LLM Agent Training [3.177432419321498]
グループベース強化学習(RL)は複雑な推論や数学的タスクにおいて顕著な結果を示した。
グループベース強化学習(RL)は複雑な推論や数学的タスクにおいて顕著な結果を示した。
論文 参考訳(メタデータ) (2025-10-30T08:53:41Z) - Grounded in Reality: Learning and Deploying Proactive LLM from Offline Logs [72.08224879435762]
textttLearn-to-Askは、プロアクティブな対話エージェントの学習とデプロイのためのシミュレータフリーフレームワークである。
当社のアプローチは,LLMの大規模オンラインAIサービスへの展開を成功に導くものです。
論文 参考訳(メタデータ) (2025-10-29T12:08:07Z) - Beyond Manuals and Tasks: Instance-Level Context Learning for LLM Agents [22.620674535292068]
大規模言語モデル(LLM)エージェントは通常、インタラクションインターフェースとグローバルルールを定義する環境レベルのマニュアルと、特定の目標に関連するタスクレベルのガイダンスまたはデモの2つの種類のコンテキストを受信する。
我々は、複雑なタスクにおいて、LLMエージェントの障害発生源としてインスタンスレベルのコンテキストが欠如していることを論じる。
我々は、この問題をインスタンスレベルコンテキスト学習(ILCL)として定式化し、それを解決するためのタスクに依存しない方法を紹介します。
論文 参考訳(メタデータ) (2025-09-29T05:38:51Z) - PARL-MT: Learning to Call Functions in Multi-Turn Conversation with Progress Awareness [57.020401590532686]
マルチターン関数呼び出しのためのLLMトレーニングに進捗認識を明示的に組み込むフレームワークであるPARL-MTを導入する。
PARL-MTは既存の手法よりも優れており、堅牢で効率的なマルチターン関数呼び出しの実現における進捗認識の有効性を強調している。
論文 参考訳(メタデータ) (2025-09-27T09:32:27Z) - MEJO: MLLM-Engaged Surgical Triplet Recognition via Inter- and Intra-Task Joint Optimization [52.149337961205624]
手術用三重項認識のためのタスク間最適化とタスク内最適化を両立する枠組みを提案する。
タスク間最適化のために、タスク共有およびタスク固有コンポーネントに表現を分解する共有特徴分散学習スキーム(S$2$D)を導入する。
タスク内最適化競合に対して,正負の曖昧さを識別・再バランスするコーディネート・グラディエント・ラーニング(CGL)戦略を開発する。
論文 参考訳(メタデータ) (2025-09-16T09:48:52Z) - EmbRACE-3K: Embodied Reasoning and Action in Complex Environments [48.32142591866083]
EmRACE-3KはUnreal EngineとUnrealCV-Zooフレームワークを使って構築された3000以上の言語誘導タスクのデータセットである。
探索,動的空間意味推論,多段階ゴール実行の3つの重要な次元にわたって,VLMの具体的推論能力を評価するためのベンチマークを構築した。
ゼロショット設定では、すべてのモデルが20%未満の成功率を達成した。
論文 参考訳(メタデータ) (2025-07-14T17:59:46Z) - Improving LLM Agent Planning with In-Context Learning via Atomic Fact Augmentation and Lookahead Search [48.348209577994865]
大規模言語モデル(LLM)はますます有能になるが、複雑で対話的な環境で効果的に機能するためには、重要なガイダンスや広範な相互作用履歴を必要とすることが多い。
テキスト内学習による計画能力を高める新しいLLMエージェントフレームワークを提案する。
我々のエージェントは、その相互作用軌跡からタスククリティカルな原子事実'を抽出することを学ぶ。
論文 参考訳(メタデータ) (2025-06-10T18:36:31Z) - Don't Just Follow MLLM Plans: Robust and Efficient Planning for Open-world Agents [7.186226937530119]
本稿では,これらの問題に対処するための新しいフレームワークであるオープンワールドエージェントのためのロバスト・効率的な計画手法(REPOA)を紹介する。
REPOAは、適応的な依存性学習と、知識不正確性に対する堅牢性を高めるためのきめ細かな障害対応操作メモリの3つの重要なコンポーネントを備えている。
2つの確立されたオープンワールドテストベッドにおける評価は、REPOAの堅牢で効率的なプランニングを実証し、遅発品の獲得に成功していることを示す。
論文 参考訳(メタデータ) (2025-05-30T03:01:44Z) - Words as Beacons: Guiding RL Agents with High-Level Language Prompts [6.7236795813629]
大型言語モデル(LLM)は「教師」として、複雑なタスクをサブゴールに分解することでエージェントの学習プロセスを導く。
LLMは、人間と同じような方法で、環境のために定義されたタスクを達成するためのサブゴールを提供することができる。
トレーニングフェーズの間のみLLMに問い合わせることができ、エージェントはLLMの介入なしに環境内で操作できる。
論文 参考訳(メタデータ) (2024-10-11T08:54:45Z) - AgentGen: Enhancing Planning Abilities for Large Language Model based Agent via Environment and Task Generation [81.32722475387364]
大規模言語モデルに基づくエージェントが注目され、ますます人気が高まっている。
計画能力は LLM ベースのエージェントの重要な構成要素であり、通常は初期状態から望ましい目標を達成する必要がある。
近年の研究では、専門家レベルの軌跡を指導訓練用LLMに活用することで、効果的に計画能力を向上させることが示されている。
論文 参考訳(メタデータ) (2024-08-01T17:59:46Z) - Knowledgeable Agents by Offline Reinforcement Learning from Large Language Model Rollouts [10.929547354171723]
本稿では,言語モデルロールアウト(KALM)の知識エージェントを紹介する。
大規模言語モデル(LLM)から、オフラインの強化学習手法によってエージェントが容易に学習できる想像上のロールアウトの形で知識を抽出する。
未確認の目標を持つタスクの実行において46%の成功率を達成し、ベースラインメソッドによって達成された26%の成功率を大幅に上回る。
論文 参考訳(メタデータ) (2024-04-14T13:19:40Z) - From Summary to Action: Enhancing Large Language Models for Complex
Tasks with Open World APIs [62.496139001509114]
大規模な現実世界のAPIを制御するために設計された新しいツール呼び出しパイプラインを導入します。
このパイプラインは人間のタスク解決プロセスを反映し、複雑な実際のユーザクエリに対処する。
ToolBenchベンチマークにおけるSum2Actパイプラインの実証的な評価は、大幅なパフォーマンス向上を示している。
論文 参考訳(メタデータ) (2024-02-28T08:42:23Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - Efficient Learning of High Level Plans from Play [57.29562823883257]
本稿では,移動計画と深いRLを橋渡しするロボット学習のフレームワークであるELF-Pについて紹介する。
ELF-Pは、複数の現実的な操作タスクよりも、関連するベースラインよりもはるかに優れたサンプル効率を有することを示す。
論文 参考訳(メタデータ) (2023-03-16T20:09:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。