論文の概要: Think Twice, Act Once: A Co-Evolution Framework of LLM and RL for Large-Scale Decision Making
- arxiv url: http://arxiv.org/abs/2506.02522v1
- Date: Tue, 03 Jun 2025 06:52:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.378162
- Title: Think Twice, Act Once: A Co-Evolution Framework of LLM and RL for Large-Scale Decision Making
- Title(参考訳): 一度に2回考える - 大規模意思決定のためのLLMとRLの共同進化フレームワーク
- Authors: Xu Wan, Wenyue Xu, Chao Yang, Mingyang Sun,
- Abstract要約: Agents Co-Evolution (ACE)は大規模言語モデル(LLM)と強化学習(RL)の相乗的フレームワークである
ACEは、LDMがRLのトレーニング中にポリシーアクターとバリュークリティカルの両方として機能するデュアルロール軌道改善機構を導入している。
動作空間が60Kを超える複数の電力グリッド操作実験を通じて、ACEは既存のRL法よりも優れた性能を示す。
- 参考スコア(独自算出の注目度): 9.34311343273189
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in Large Language Models (LLMs) and Reinforcement Learning (RL) have shown significant promise in decision-making tasks. Nevertheless, for large-scale industrial decision problems, both approaches face distinct challenges: LLMs lack real-time long-sequence decision-making capabilities, while RL struggles with sample efficiency in vast action spaces. To bridge this gap, we propose Agents Co-Evolution (ACE), a synergistic framework between LLMs and RL agents for large-scale decision-making scenarios. ACE introduces a dual-role trajectory refinement mechanism where LLMs act as both Policy Actor and Value Critic during RL's training: the Actor refines suboptimal actions via multi-step reasoning and environment validation, while the Critic performs temporal credit assignment through trajectory-level reward shaping. Concurrently, RL agent enhances LLMs' task-specific decision-making with high-quality fine-tuning datasets generated via prioritized experience replay. Through extensive experiments across multiple power grid operation challenges with action spaces exceeding 60K discrete actions, ACE demonstrates superior performance over existing RL methods and LLM-based methods.
- Abstract(参考訳): 大規模言語モデル(LLM)と強化学習(RL)の最近の進歩は意思決定タスクにおいて大きな可能性を示している。
LLMはリアルタイムの時系列決定能力に欠けており、RLは大規模な行動空間におけるサンプル効率に苦慮している。
このギャップを埋めるため、大規模意思決定シナリオのためのLLMとRLエージェントの相乗的フレームワークであるAgens Co-Evolution(ACE)を提案する。
ACEでは、LLMがポリシーアクターとバリュークリティカルの両方として機能し、アクターはマルチステップ推論と環境検証によって準最適アクションを洗練し、Criticはトラジェクトリレベルの報酬形成を通じて時間的クレジット割り当てを行う。
同時に、RLエージェントは、優先順位付けされたエクスペリエンスリプレイによって生成された高品質な微調整データセットを用いて、LLMのタスク固有の意思決定を強化する。
動作空間が60Kを超える複数の電力グリッド操作課題に対する広範な実験を通じて、ACEは既存のRL法やLLM法よりも優れた性能を示す。
関連論文リスト
- Large Language Model-enhanced Reinforcement Learning for Low-Altitude Economy Networking [71.83640290222928]
Low-Altitude Economic Networking (LAENet)は、1000m以下の多様な飛行アプリケーションをサポートすることを目的としている。
複雑な意思決定、資源の制約、環境の不確実性は、LEENetの開発に重大な課題をもたらす。
論文 参考訳(メタデータ) (2025-05-27T11:25:42Z) - Planning without Search: Refining Frontier LLMs with Offline Goal-Conditioned RL [62.984693936073974]
大きな言語モデル(LLM)は、質問応答や対話といったタスクに優れています。
交渉や説得のような相互作用を必要とする複雑なタスクは、さらなる長期の推論と計画を必要とする。
目的条件付き値関数を用いて LLM エージェントの推論を導出する手法を提案する。
論文 参考訳(メタデータ) (2025-05-23T16:51:54Z) - LLMs are Greedy Agents: Effects of RL Fine-tuning on Decision-Making Abilities [21.42711537107199]
我々は,Large Language Models (LLMs) が意思決定シナリオにおいてサブ最適に機能する理由を考察する。
自己生成型CoT論理の強化学習(Reinforcement Learning, RL)による微調整によるこれらの欠点の緩和を提案する。
論文 参考訳(メタデータ) (2025-04-22T17:57:14Z) - Option Discovery Using LLM-guided Semantic Hierarchical Reinforcement Learning [16.654435148168172]
大規模言語モデル(LLM)は、推論と意思決定において顕著な将来性を示している。
サンプル効率,一般化,マルチタスク適応性を向上させるため,LDSCと呼ばれるLCM誘導階層型RLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-24T15:49:56Z) - SWEET-RL: Training Multi-Turn LLM Agents on Collaborative Reasoning Tasks [110.20297293596005]
大規模言語モデル(LLM)エージェントは、実世界のタスクでマルチターンインタラクションを実行する必要がある。
LLMエージェントを最適化するための既存のマルチターンRLアルゴリズムは、LLMの一般化能力を活用しながら、複数回にわたって効果的なクレジット割り当てを行うことができない。
本稿では,新たなRLアルゴリズムであるSWEET-RLを提案する。
我々の実験は、SWEET-RLがコルベンチにおける成功率と勝利率を、他の最先端マルチターンRLアルゴリズムと比較して6%向上することを示した。
論文 参考訳(メタデータ) (2025-03-19T17:55:08Z) - Advancing Autonomous VLM Agents via Variational Subgoal-Conditioned Reinforcement Learning [38.68600863590734]
変分部分決定強化学習(VSC-RL)という新しい枠組みを提案する。
VSC-RLは、新たな最適化目標であるサブゴールエビデンス・ロウアーバウンド(Subgoal Evidence Lower Bound)を用いて、変分サブゴール条件付きRL問題として決定問題を再構成する。
我々は,VSC-RLが性能保証を損なうことなく,学習効率を効率的に向上できることを理論的かつ実証的に実証した。
論文 参考訳(メタデータ) (2025-02-11T20:57:46Z) - Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z) - Efficient Reinforcement Learning with Large Language Model Priors [18.72288751305885]
大規模言語モデル(LLM)は、最近、強力な汎用ツールとして登場した。
本稿では,従来の行動分布としてLLMを扱い,それらをRLフレームワークに統合することを提案する。
LLMに基づくアクションの事前処理を取り入れることで、探索と複雑性の最適化が大幅に削減されることを示す。
論文 参考訳(メタデータ) (2024-10-10T13:54:11Z) - ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。
我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。
実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-29T18:45:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。