論文の概要: AEM: Adaptive Entropy Modulation for Multi-Turn Agentic Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.00425v1
- Date: Fri, 01 May 2026 05:54:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:28.863641
- Title: AEM: Adaptive Entropy Modulation for Multi-Turn Agentic Reinforcement Learning
- Title(参考訳): AEM: エージェント強化学習のための適応エントロピー変調
- Authors: Haotian Zhao, Yuxin Zhang, Songlin Zhou, Stephen S. -T. Yau, Wenyu Zhang, Lun Tian, Tianshu Zhu, Yifeng Huang, Yucheng Zeng, Jingnan Gu, Daxiang Dong, Jianmin Wu,
- Abstract要約: 強化学習(RL)は、大規模言語モデル(LLM)エージェントが環境と相互作用し、マルチターンタスクを解く能力を大幅に進歩させた。
しかし、結果のみの報酬は、エージェントの行動軌跡における個々のステップにクレジットを割り当てるのが難しくなるため、効果的なトレーニングは依然として困難である。
本稿では、RLトレーニング中にエントロピーのダイナミクスを適応的に調整し、より効果的な探索・探索トレードオフを実現するための、監督不要な信用割当手法であるAEMを提案する。
- 参考スコア(独自算出の注目度): 13.755500788361815
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) has significantly advanced the ability of large language model (LLM) agents to interact with environments and solve multi-turn tasks. Yet effective training remains challenging, as sparse, outcome-only rewards make it difficult to assign credit to individual steps in an agent's action trajectory. A common remedy is to introduce dense intermediate supervision, such as process reward models or auxiliary self-supervised signals, but this increases supervision and tuning complexity and often generalizes poorly across tasks and domains. This paper presents AEM, a supervision-free credit assignment method that adaptively modulates entropy dynamics during RL training to achieve a more effective exploration-exploitation trade-off. Theoretically, we elevate entropy analysis from the token level to the response level to reduce token sampling variance and show that entropy drift under natural gradients is intrinsically governed by the product of the advantage and the relative response surprisal. Specifically, we derive a practical proxy to reshape training dynamics, enabling a natural transition from exploration to exploitation. Extensive experiments across various benchmarks and models ranging from 1.5B to 32B parameters demonstrate the effectiveness of AEM, including a notable 1.4 percent gain when integrated into a state-of-the-art baseline on the highly challenging SWE-bench-Verified benchmark.
- Abstract(参考訳): 強化学習(RL)は、大規模言語モデル(LLM)エージェントが環境と相互作用し、マルチターンタスクを解く能力を大幅に進歩させた。
しかし、結果のみの報酬は、エージェントの行動軌跡における個々のステップにクレジットを割り当てるのが難しくなるため、効果的なトレーニングは依然として困難である。
一般的な治療法は、プロセス報酬モデルや補助的な自己監督信号のような密集した中間的監督を導入することであるが、これは監督とチューニングの複雑さを高め、多くの場合、タスクやドメイン間での一般化が不十分である。
本稿では、RLトレーニング中にエントロピーのダイナミクスを適応的に調整し、より効果的な探索・探索トレードオフを実現するための、監督不要な信用割当手法であるAEMを提案する。
理論的には、トークンレベルから応答レベルへのエントロピー解析を向上し、トークンサンプリングのばらつきを低減し、自然勾配下でのエントロピーのドリフトが、その利点と相対的な応答の積によって本質的に制御されていることを示す。
具体的には、トレーニングダイナミクスを再形成する実用的なプロキシを導出し、探索から搾取への自然な移行を可能にする。
1.5Bから32Bのパラメータを含む様々なベンチマークおよびモデルにわたる大規模な実験は、非常に挑戦的なSWE-bench-Verifiedベンチマーク上で最先端のベースラインに統合された場合、注目すべき1.4パーセントの増加を含む、AEMの有効性を示している。
関連論文リスト
- RetroAgent: From Solving to Evolving via Retrospective Dual Intrinsic Feedback [54.39884046754265]
RetroAgentは、エージェントが複雑なインタラクティブ環境をマスターできるオンラインRLフレームワークである。
実験の結果,RetroAgentはSOTA(State-of-the-art)の性能を達成できた。
論文 参考訳(メタデータ) (2026-03-09T16:23:33Z) - Improving Deepfake Detection with Reinforcement Learning-Based Adaptive Data Augmentation [60.04281435591454]
CRDA(Curriculum Reinforcement-Learning Data Augmentation)は、マルチドメインの偽造機能を段階的にマスターするための検出器を導く新しいフレームワークである。
私たちのアプローチの中心は、強化学習と因果推論を統合することです。
提案手法は検出器の一般化性を大幅に向上し,複数のクロスドメインデータセット間でSOTA法より優れている。
論文 参考訳(メタデータ) (2025-11-10T12:45:52Z) - Rediscovering Entropy Regularization: Adaptive Coefficient Unlocks Its Potential for LLM Reinforcement Learning [55.59724323303857]
本稿では,3つのコンポーネントによる探索と利用のバランスをとるフレームワークを提案する。
複数の数学的推論ベンチマークの実験は、AERが一貫してベースラインを上回り、推論精度と探索能力の両方を改善していることを示している。
論文 参考訳(メタデータ) (2025-10-13T03:10:26Z) - Don't Just Fine-tune the Agent, Tune the Environment [25.7349297100143]
合成データの微調整の監督は、過度な適合につながる。
標準的な強化学習は、重要なコールドスタート問題とトレーニング不安定性に苦慮している。
本研究は,静的軌道の教師付き微調整から動的環境探索へのパラダイムシフトを示す。
論文 参考訳(メタデータ) (2025-10-11T12:35:15Z) - Decomposing the Entropy-Performance Exchange: The Missing Keys to Unlocking Effective Reinforcement Learning [106.68304931854038]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の推論能力を高めるために広く用いられている。
我々は,RLVRのエントロピー・パフォーマンス交換機構を,異なるレベルの粒度で系統的に解析する。
分析の結果, 上昇段階において, 負のサンプルのエントロピー減少は効果的な推論パターンの学習を促進することが明らかとなった。
プラトー段階では、学習効率は、低エントロピーのサンプルに存在する高エントロピートークンと、シーケンスの終端に位置するトークンと強く相関する。
論文 参考訳(メタデータ) (2025-08-04T10:08:10Z) - Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - Finite-Time Convergence and Sample Complexity of Actor-Critic Multi-Objective Reinforcement Learning [20.491176017183044]
本稿では多目的強化学習(MORL)問題に取り組む。
MOACと呼ばれる革新的なアクター批判アルゴリズムを導入し、競合する報酬信号間のトレードオフを反復的に行うことでポリシーを見出す。
論文 参考訳(メタデータ) (2024-05-05T23:52:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。