論文の概要: PilotRL: Training Language Model Agents via Global Planning-Guided Progressive Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2508.00344v2
- Date: Fri, 15 Aug 2025 03:07:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.541075
- Title: PilotRL: Training Language Model Agents via Global Planning-Guided Progressive Reinforcement Learning
- Title(参考訳): PilotRL:グローバルプランニングガイドによるプログレッシブ強化学習による言語モデルエージェントの訓練
- Authors: Keer Lu, Chong Chen, Bin Cui, Huang Leng, Wentao Zhang,
- Abstract要約: 大規模言語モデル(LLM)はエージェント指向タスクの処理において顕著な進歩を見せている。
現在のアプローチは主に教師付き微調整に依存しており、しばしばモデルが確立されたタスク完了軌跡を記憶させる。
適応的グローバルプランベースエージェントパラダイムであるAdaPlanを導入する。
- 参考スコア(独自算出の注目度): 36.051921179063264
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have shown remarkable advancements in tackling agent-oriented tasks. Despite their potential, existing work faces challenges when deploying LLMs in agent-based environments. The widely adopted agent paradigm ReAct centers on integrating single-step reasoning with immediate action execution, which limits its effectiveness in complex tasks requiring long-term strategic planning. Furthermore, the coordination between the planner and executor during problem-solving is also a critical factor to consider in agent design. Additionally, current approaches predominantly rely on supervised fine-tuning, which often leads models to memorize established task completion trajectories, thereby restricting their generalization ability when confronted with novel problem contexts. To address these challenges, we introduce an adaptive global plan-based agent paradigm AdaPlan, aiming to synergize high-level explicit guidance with execution to support effective long-horizon decision-making. Based on the proposed paradigm, we further put forward PilotRL, a global planning-guided training framework for LLM agents driven by progressive reinforcement learning. We first develop the model's ability to follow explicit guidance from global plans when addressing agent tasks. Subsequently, based on this foundation, we focus on optimizing the quality of generated plans. Finally, we conduct joint optimization of the model's planning and execution coordination. Experiments indicate that PilotRL could achieve state-of-the-art performances, with LLaMA3.1-8B-Instruct + PilotRL surpassing closed-sourced GPT-4o by 3.60%, while showing a more substantial gain of 55.78% comparing to GPT-4o-mini at a comparable parameter scale.
- Abstract(参考訳): 大規模言語モデル(LLM)はエージェント指向タスクの処理において顕著な進歩を見せている。
その可能性にもかかわらず、既存の作業はエージェントベースの環境にLLMをデプロイする際の課題に直面している。
広く採用されているエージェントパラダイムであるReActは、ワンステップ推論と即時行動実行の統合に焦点を当てており、長期的な戦略的計画を必要とする複雑なタスクにおけるその有効性を制限する。
さらに、問題解決におけるプランナーと実行者の調整も、エージェント設計において考慮すべき重要な要素である。
さらに、現在のアプローチは主に教師付き微調整に依存しており、しばしばモデルが確立されたタスク完了軌跡を記憶し、新しい問題コンテキストに直面する際の一般化能力を制限する。
これらの課題に対処するため,適応的グローバルプランベースエージェントパラダイムであるAdaPlanを導入する。
提案したパラダイムに基づいて,プログレッシブ強化学習を駆使したLLMエージェントのためのグローバルプランニング誘導トレーニングフレームワークであるPilotRLをさらに推進した。
我々はまず,エージェントタスクに対処する際のグローバルプランからの明確なガイダンスに従うモデルの開発を行う。
続いて、この基盤に基づいて、生成された計画の品質を最適化することに焦点をあてる。
最後に、モデルの設計と実行の調整を共同で最適化する。
実験の結果、LLaMA3.1-8B-Instruct + PilotRLはクローズドソースのGPT-4oを3.60%上回り、GPT-4o-miniよりも55.78%向上した。
関連論文リスト
- Omni-Thinker: Scaling Cross-Domain Generalization in LLMs via Multi-Task RL with Hybrid Rewards [50.21528417884747]
Omni-Thinkerは多種多様なタスクにわたる大規模言語モデル(LLM)の性能を向上させる統合強化学習フレームワークである。
我々の手法はタスクタイプを一貫した最適化を可能にし、RLベースのトレーニングを主観的ドメインに拡張する。
4つの領域にまたがる実験の結果、カリキュラムの学習は、ジョイントトレーニングよりも5.2%、モデルマージより9.1%向上していることがわかった。
論文 参考訳(メタデータ) (2025-07-20T01:50:16Z) - PGPO: Enhancing Agent Reasoning via Pseudocode-style Planning Guided Preference Optimization [58.465778756331574]
本稿では,効果的なエージェント学習のためのPGPOと呼ばれる疑似コード型計画優先最適化手法を提案する。
2つの計画指向の報酬により、PGPOは、高品質なPコードプランを生成するLLMエージェントの能力をさらに強化する。
実験により、PGPOは代表エージェントベンチマークよりも優れた性能を示し、現在のリードベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2025-06-02T09:35:07Z) - Reinforced Reasoning for Embodied Planning [18.40186665383579]
身体的計画では、エージェントは動的視覚観察と自然言語の目標に基づいて、一貫性のある多段階決定を行う必要がある。
具体的計画にR1スタイルの推論強化をもたらす強化微調整フレームワークを導入する。
論文 参考訳(メタデータ) (2025-05-28T07:21:37Z) - SWEET-RL: Training Multi-Turn LLM Agents on Collaborative Reasoning Tasks [110.20297293596005]
大規模言語モデル(LLM)エージェントは、実世界のタスクでマルチターンインタラクションを実行する必要がある。
LLMエージェントを最適化するための既存のマルチターンRLアルゴリズムは、LLMの一般化能力を活用しながら、複数回にわたって効果的なクレジット割り当てを行うことができない。
本稿では,新たなRLアルゴリズムであるSWEET-RLを提案する。
我々の実験は、SWEET-RLがコルベンチにおける成功率と勝利率を、他の最先端マルチターンRLアルゴリズムと比較して6%向上することを示した。
論文 参考訳(メタデータ) (2025-03-19T17:55:08Z) - MPO: Boosting LLM Agents with Meta Plan Optimization [37.35230659116656]
大規模言語モデル(LLM)により、エージェントは対話的な計画タスクにうまく取り組むことができる。
既存のアプローチは、しばしば幻覚の計画に悩まされ、新しいエージェントごとに再訓練を必要とする。
本稿では,明示的なガイダンスを直接組み込んでエージェント計画機能を向上させるメタプラン最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-04T14:54:45Z) - Retrieval-Augmented Hierarchical in-Context Reinforcement Learning and Hindsight Modular Reflections for Task Planning with LLMs [8.55917897789612]
本研究では,大規模言語モデルを対象とした検索言語強化学習(RAHL)を提案する。
RAHLはLLMベースの高レベルポリシーを使用して複雑なタスクをサブタスクに分解する。
その結果, RAHLは5エピソードで9%, 42%, 10%のパフォーマンス向上が達成できた。
論文 参考訳(メタデータ) (2024-08-12T22:40:01Z) - AgentGen: Enhancing Planning Abilities for Large Language Model based Agent via Environment and Task Generation [81.32722475387364]
大規模言語モデルに基づくエージェントが注目され、ますます人気が高まっている。
計画能力は LLM ベースのエージェントの重要な構成要素であり、通常は初期状態から望ましい目標を達成する必要がある。
近年の研究では、専門家レベルの軌跡を指導訓練用LLMに活用することで、効果的に計画能力を向上させることが示されている。
論文 参考訳(メタデータ) (2024-08-01T17:59:46Z) - Planning with Multi-Constraints via Collaborative Language Agents [13.550774629515843]
本稿では,協調型マルチエージェントシステムのためのゼロショット手法であるPMC(Planning with Multi-Constraints)を紹介する。
PMCは、制約で複雑なタスク計画を簡単にし、従属タスクの階層に分解する。
PMCはTravelPlannerで平均42.68%の成功率を記録し、GPT-4 (2.92%) をはるかに上回り、API-BankでReActを13.64%上回った。
論文 参考訳(メタデータ) (2024-05-26T10:33:17Z) - Enhancing the General Agent Capabilities of Low-Parameter LLMs through Tuning and Multi-Branch Reasoning [56.82041895921434]
オープンソースの事前訓練された大規模言語モデル(LLM)は、強力な言語理解と生成能力を示す。
現実世界の複雑な問題に対処するエージェントとして使用される場合、ChatGPTやGPT-4のような大型の商用モデルに比べてパフォーマンスははるかに劣る。
論文 参考訳(メタデータ) (2024-03-29T03:48:12Z) - Model-based Reinforcement Learning for Decentralized Multiagent
Rendezvous [66.6895109554163]
目標を他のエージェントと整合させる人間の能力の下にあるのは、他人の意図を予測し、自分たちの計画を積極的に更新する能力である。
分散型マルチエージェントレンデブーのためのモデルに基づく強化学習手法である階層型予測計画(HPP)を提案する。
論文 参考訳(メタデータ) (2020-03-15T19:49:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。