論文の概要: AEM: Adaptive Entropy Modulation for Multi-Turn Agentic Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.00425v3
- Date: Fri, 08 May 2026 06:22:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 16:31:22.521638
- Title: AEM: Adaptive Entropy Modulation for Multi-Turn Agentic Reinforcement Learning
- Title(参考訳): AEM: エージェント強化学習のための適応エントロピー変調
- Authors: Haotian Zhao, Songlin Zhou, Yuxin Zhang, Stephen S. -T. Yau, Wenyu Zhang, Lun Tian, Tianshu Zhu, Yifeng Huang, Yucheng Zeng, Jingnan Gu, Daxiang Dong, Jianmin Wu,
- Abstract要約: 強化学習(RL)は、大規模言語モデル(LLM)エージェントが環境と相互作用し、マルチターンタスクを解く能力を大幅に改善した。
既存のアプローチは、プロセス報酬モデルや補助的な自己監督信号など、密集した中間監視を導入することが多い。
本稿では、RLトレーニング中にエントロピーダイナミクスを適応的に調整し、探索・探索トレードオフを改善するための監督不要な信用割当手法であるAEMを提案する。
- 参考スコア(独自算出の注目度): 13.755500788361815
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) has substantially improved the ability of large language model (LLM) agents to interact with environments and solve multi-turn tasks. However, effective agentic RL remains challenging: sparse outcome-only rewards provide limited guidance for assigning credit to individual steps within long interaction trajectories. Existing approaches often introduce dense intermediate supervision, such as process reward models or auxiliary self-supervised signals, which increases supervision and tuning complexity and may limit generalization across tasks and domains. We present AEM, a supervision-free credit assignment method that adaptively modulates entropy dynamics during RL training to improve the exploration-exploitation trade-off. Since in agentic RL the environment is typically affected by a complete response, rather than an individual token, our analysis lifts entropy dynamics from the token level to the response level, aligning uncertainty estimation with the effective action granularity of LLM agents and reducing sensitivity to token-level sampling noise. We further show that entropy drift under natural-gradient updates is governed by the interaction between the sampled-response advantage and its relative surprisal. Motivated by this result, AEM derives a practical response-level uncertainty proxy and uses it to rescale advantages, leveraging the evolving balance between positive and negative samples to naturally transition from exploration to exploitation. Extensive experiments on ALFWorld, WebShop, and SWE-bench-Verified with models ranging from 1.5B to 32B demonstrate that AEM consistently improves strong RL baselines, including a +1.4\% gain when integrated into a state-of-the-art software-engineering RL training framework.
- Abstract(参考訳): 強化学習(RL)は、大規模言語モデル(LLM)エージェントが環境と相互作用し、マルチターンタスクを解く能力を大幅に改善した。
しかし、効果的なエージェントRLは依然として困難なままであり、少ない結果のみの報酬は、長期の相互作用軌跡内の個々のステップにクレジットを割り当てるための限定的なガイダンスを提供する。
既存のアプローチでは、プロセス報酬モデルや補助的な自己監督信号のような密集した中間的監督を導入し、監督とチューニングの複雑さを高め、タスクやドメイン間の一般化を制限することがある。
本稿では、RLトレーニング中にエントロピーダイナミクスを適応的に調整し、探索・探索トレードオフを改善するための監督不要な信用割当手法であるAEMを提案する。
エージェントRLでは, 個々のトークンではなく, 完全な応答によって環境が影響を受けるため, トークンレベルから応答レベルへのエントロピーダイナミクスを持ち上げ, 有効作用粒度と不確実性評価を一致させ, トークンレベルのサンプリングノイズに対する感度を低減させる。
さらに, 自然段階更新時のエントロピードリフトは, サンプル応答の優位性と相対的前提との相互作用によって制御されることを示した。
この結果により、AEMは実用的な応答レベルの不確実性プロキシを導出し、正と負のサンプルのバランスの進化を活用して、探索から搾取へと自然に移行する。
ALFWorld、WebShop、SWE-bench-Verifiedの大規模な実験では、1.5Bから32Bのモデルによって、AEMは、最先端のソフトウェアエンジニアリングRLトレーニングフレームワークに統合された場合の、+1.4\%のゲインを含む、強力なRLベースラインを一貫して改善することを示した。
関連論文リスト
- RetroAgent: From Solving to Evolving via Retrospective Dual Intrinsic Feedback [54.39884046754265]
RetroAgentは、エージェントが複雑なインタラクティブ環境をマスターできるオンラインRLフレームワークである。
実験の結果,RetroAgentはSOTA(State-of-the-art)の性能を達成できた。
論文 参考訳(メタデータ) (2026-03-09T16:23:33Z) - Improving Deepfake Detection with Reinforcement Learning-Based Adaptive Data Augmentation [60.04281435591454]
CRDA(Curriculum Reinforcement-Learning Data Augmentation)は、マルチドメインの偽造機能を段階的にマスターするための検出器を導く新しいフレームワークである。
私たちのアプローチの中心は、強化学習と因果推論を統合することです。
提案手法は検出器の一般化性を大幅に向上し,複数のクロスドメインデータセット間でSOTA法より優れている。
論文 参考訳(メタデータ) (2025-11-10T12:45:52Z) - Rediscovering Entropy Regularization: Adaptive Coefficient Unlocks Its Potential for LLM Reinforcement Learning [55.59724323303857]
本稿では,3つのコンポーネントによる探索と利用のバランスをとるフレームワークを提案する。
複数の数学的推論ベンチマークの実験は、AERが一貫してベースラインを上回り、推論精度と探索能力の両方を改善していることを示している。
論文 参考訳(メタデータ) (2025-10-13T03:10:26Z) - Don't Just Fine-tune the Agent, Tune the Environment [25.7349297100143]
合成データの微調整の監督は、過度な適合につながる。
標準的な強化学習は、重要なコールドスタート問題とトレーニング不安定性に苦慮している。
本研究は,静的軌道の教師付き微調整から動的環境探索へのパラダイムシフトを示す。
論文 参考訳(メタデータ) (2025-10-11T12:35:15Z) - Decomposing the Entropy-Performance Exchange: The Missing Keys to Unlocking Effective Reinforcement Learning [106.68304931854038]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の推論能力を高めるために広く用いられている。
我々は,RLVRのエントロピー・パフォーマンス交換機構を,異なるレベルの粒度で系統的に解析する。
分析の結果, 上昇段階において, 負のサンプルのエントロピー減少は効果的な推論パターンの学習を促進することが明らかとなった。
プラトー段階では、学習効率は、低エントロピーのサンプルに存在する高エントロピートークンと、シーケンスの終端に位置するトークンと強く相関する。
論文 参考訳(メタデータ) (2025-08-04T10:08:10Z) - Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - Finite-Time Convergence and Sample Complexity of Actor-Critic Multi-Objective Reinforcement Learning [20.491176017183044]
本稿では多目的強化学習(MORL)問題に取り組む。
MOACと呼ばれる革新的なアクター批判アルゴリズムを導入し、競合する報酬信号間のトレードオフを反復的に行うことでポリシーを見出す。
論文 参考訳(メタデータ) (2024-05-05T23:52:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。