論文の概要: Cyclical Entropy Eruption: Entropy Dynamics in Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.27954v1
- Date: Wed, 27 May 2026 04:47:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.750393
- Title: Cyclical Entropy Eruption: Entropy Dynamics in Agent Reinforcement Learning
- Title(参考訳): サイクリックエントロピー噴火:エージェント強化学習におけるエントロピーダイナミクス
- Authors: Wendi Li, Shawn Im, Sharon Li,
- Abstract要約: エージェント型大規模言語モデルは、目標を推論し、ツールを呼び出し、外部環境と対話することで、現実世界のタスクを解決するためにますます使われています。
循環型エントロピー噴火とよばれるエージェントRLの未発見現象を同定した。
表現空間における正しい軌道と間違った軌道を分離する軽量な補助的損失であるSEAL(Separation-Enhanced Agent Learning)を提案する。
- 参考スコア(独自算出の注目度): 12.011349036597338
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Agentic large language models are increasingly used to solve real-world tasks by reasoning over goals, invoking tools, and interacting with external environments. Reinforcement learning provides a natural framework for improving these behaviors, and recent agent RL methods have achieved strong results across domains. However, the training dynamics of agent RL remain poorly understood, limiting our ability to diagnose instabilities and design more effective training algorithms. In this work, we identify a previously underexplored phenomenon in agent RL, which we term cyclical entropy eruption. Unlike single-turn reasoning RL, where entropy typically collapses and stays low, agent RL training exhibits unique recurring cycles of sharp entropy eruption and gradual subsidence. We decompose this dynamic into three phases and provide theoretical and empirical analyses of each, explaining the mechanisms underlying its cyclical oscillation. We further show that degenerate patterns such as sentence duplication and hallucination, once acquired during eruption, can persist and accumulate across cycles. Motivated by these findings, we propose SEAL (Separation-Enhanced Agent Learning), a lightweight auxiliary loss that separates correct and incorrect trajectories in representation space, directly targeting the root cause of entropy eruption. Experiments across multiple benchmarks, models, and RL algorithms demonstrate that SEAL stabilizes training and yields stronger downstream agent performance.
- Abstract(参考訳): エージェント型大規模言語モデルは、目標を推論し、ツールを呼び出し、外部環境と対話することで、現実世界のタスクを解決するためにますます使われています。
強化学習はこれらの振る舞いを改善するための自然なフレームワークを提供する。
しかし、エージェントRLのトレーニングダイナミクスはいまだよく理解されておらず、不安定性を診断し、より効果的なトレーニングアルゴリズムを設計する能力が制限されている。
本研究は, 循環エントロピー噴火とよばれるエージェントRLの未発見現象を同定する。
エントロピーは通常崩壊し、低い値を維持するシングルターン推論RLとは異なり、エージェントRLトレーニングは鋭いエントロピー噴火と徐々に沈降するユニークなサイクルを示す。
我々はこの力学を3つの相に分解し、その循環振動の基礎となるメカニズムを説明する理論的および実証的な解析を行う。
さらに,噴火時に得られた文重複や幻覚などの退化パターンが周期的に持続・蓄積可能であることを示す。
本研究の目的は, エントロピー噴火の根本原因を直接ターゲットとして, 表現空間における正しい軌道と誤った軌道を分離する軽量な補助的損失であるSEAL(Separation-Enhanced Agent Learning)を提案することである。
複数のベンチマーク、モデル、RLアルゴリズムによる実験では、SEALがトレーニングを安定化し、下流エージェントのパフォーマンスが向上することを示した。
関連論文リスト
- AEM: Adaptive Entropy Modulation for Multi-Turn Agentic Reinforcement Learning [13.755500788361815]
強化学習(RL)は、大規模言語モデル(LLM)エージェントが環境と相互作用し、マルチターンタスクを解く能力を大幅に改善した。
既存のアプローチは、プロセス報酬モデルや補助的な自己監督信号など、密集した中間監視を導入することが多い。
本稿では、RLトレーニング中にエントロピーダイナミクスを適応的に調整し、探索・探索トレードオフを改善するための監督不要な信用割当手法であるAEMを提案する。
論文 参考訳(メタデータ) (2026-05-01T05:54:37Z) - Revisiting Entropy in Reinforcement Learning for Large Reasoning Models [54.96908589622163]
検証可能な報酬(RLVR)を用いた強化学習で訓練した大規模言語モデルのエントロピーダイナミクスについて検討する。
以上の結果から,RLVRでトレーニングしたLDMのエントロピーに影響を及ぼす重要な要因として,非政治的更新数,トレーニングデータの多様性,最適化目標におけるクリッピング閾値が示唆された。
論文 参考訳(メタデータ) (2025-11-08T12:50:41Z) - Rediscovering Entropy Regularization: Adaptive Coefficient Unlocks Its Potential for LLM Reinforcement Learning [55.59724323303857]
本稿では,3つのコンポーネントによる探索と利用のバランスをとるフレームワークを提案する。
複数の数学的推論ベンチマークの実験は、AERが一貫してベースラインを上回り、推論精度と探索能力の両方を改善していることを示している。
論文 参考訳(メタデータ) (2025-10-13T03:10:26Z) - Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails [103.05296856071931]
本稿では,自己進化型大規模言語モデル(LLM)エージェントに特有の,アライメント・ティッピング・プロセス(ATP)を同定する。
ATPは、連続的な相互作用によってエージェントが訓練中に確立されたアライメント制約を放棄し、強化された自己関心の戦略を支持するときに生じる。
実験の結果、アライメントの利点は自己進化の下で急速に低下し、最初は整合性のない状態に収束したモデルであることが判明した。
論文 参考訳(メタデータ) (2025-10-06T14:48:39Z) - From Pheromones to Policies: Reinforcement Learning for Engineered Biological Swarms [0.0]
本研究では, フェロモンを介するセロモン凝集と強化学習(RL)の理論的等価性を確立する。
我々は,フェロモンが数学的に相互学習の更新を反映していることを示し,捕食作業を行う線虫群をモデル化した。
この結果から, 環境信号が外部メモリとして機能する分散RLプロセスは, スティグマイシン系が本質的にコード化されていることが示唆された。
論文 参考訳(メタデータ) (2025-09-24T13:16:35Z) - Decomposing the Entropy-Performance Exchange: The Missing Keys to Unlocking Effective Reinforcement Learning [106.68304931854038]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の推論能力を高めるために広く用いられている。
我々は,RLVRのエントロピー・パフォーマンス交換機構を,異なるレベルの粒度で系統的に解析する。
分析の結果, 上昇段階において, 負のサンプルのエントロピー減少は効果的な推論パターンの学習を促進することが明らかとなった。
プラトー段階では、学習効率は、低エントロピーのサンプルに存在する高エントロピートークンと、シーケンスの終端に位置するトークンと強く相関する。
論文 参考訳(メタデータ) (2025-08-04T10:08:10Z) - Reframing attention as a reinforcement learning problem for causal discovery [3.2498796510544636]
本稿では因果構造に関する動的仮説を表現するための新しい理論として因果プロセスフレームワークを紹介する。
これにより、RL設定内でトランスフォーマーネットワークが普及するアテンション機構を再構築することができる。
論文 参考訳(メタデータ) (2025-07-18T13:50:57Z) - RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning [125.96848846966087]
対話型エージェントとしての大規模言語モデル(LLM)のトレーニングには,ユニークな課題がある。
強化学習は静的タスクの進行を可能にする一方で、マルチターンエージェントRLトレーニングは未探索のままである。
本稿では、軌道レベルのエージェントRLのための一般的なフレームワークであるStarPOを提案し、LLMエージェントのトレーニングと評価のためのモジュールシステムであるRAGENを紹介する。
論文 参考訳(メタデータ) (2025-04-24T17:57:08Z) - Dynamic Reinforcement Learning for Actors [0.0]
動的強化学習(Dynamic RL)は、アクター(アクション生成ニューラルネットワーク)出力の代わりに、システムダイナミクスを直接制御する。
Actorは当初、その環境とループを通してカオス力学を生成するように設計されている。
動的RLは「感度」と呼ばれる局所指数を用いてグローバルシステムダイナミクスを制御する
論文 参考訳(メタデータ) (2025-02-14T14:50:05Z) - What is Going on Inside Recurrent Meta Reinforcement Learning Agents? [63.58053355357644]
recurrent meta reinforcement learning (meta-rl)エージェントは「学習アルゴリズムの学習」を目的としてrecurrent neural network (rnn)を使用するエージェントである。
部分観測可能なマルコフ決定プロセス(POMDP)フレームワークを用いてメタRL問題を再構成することにより,これらのエージェントの内部動作機構を明らかにする。
論文 参考訳(メタデータ) (2021-04-29T20:34:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。