論文の概要: Entropy-Preserving Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2603.11682v1
- Date: Thu, 12 Mar 2026 08:47:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.973024
- Title: Entropy-Preserving Reinforcement Learning
- Title(参考訳): エントロピー保存強化学習
- Authors: Aleksei Petrenko, Ben Lipkin, Kevin Chen, Erik Wijmans, Marco Cusumano-Towner, Raja Giryes, Philipp Krähenbühl,
- Abstract要約: 多くのポリシー勾配アルゴリズムは、トレーニングの一部として自然にエントロピーを減少させる。
本稿では,エントロピーをトレーニングを通じて積極的に監視・制御するべきであると論じる。
- 参考スコア(独自算出の注目度): 42.27609126193588
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Policy gradient algorithms have driven many recent advancements in language model reasoning. An appealing property is their ability to learn from exploration on their own trajectories, a process crucial for fostering diverse and creative solutions. As we show in this paper, many policy gradient algorithms naturally reduce the entropy -- and thus the diversity of explored trajectories -- as part of training, yielding a policy increasingly limited in its ability to explore. In this paper, we argue that entropy should be actively monitored and controlled throughout training. We formally analyze the contributions of leading policy gradient objectives on entropy dynamics, identify empirical factors (such as numerical precision) that significantly impact entropy behavior, and propose explicit mechanisms for entropy control. These include REPO, a family of algorithms that modify the advantage function to regulate entropy, and ADAPO, an adaptive asymmetric clipping approach. Models trained with our entropy-preserving methods maintain diversity throughout training, yielding final policies that are more performant and retain their trainability for sequential learning in new environments.
- Abstract(参考訳): ポリシー勾配アルゴリズムは、近年の言語モデル推論の進歩を駆り立てている。
魅力的な性質は、多様で創造的なソリューションを育むのに不可欠なプロセスである、自身の軌道での探索から学ぶ能力である。
本稿で示すように、多くのポリシー勾配アルゴリズムは、訓練の一環として自然にエントロピーを減らし、探索された軌道の多様性を減らし、探索する能力に制限を与える。
本稿では,エントロピーをトレーニングを通じて積極的に監視・制御するべきであると論じる。
エントロピー力学における政策勾配目標の寄与を公式に分析し、エントロピーの挙動に大きな影響を及ぼす経験的要因(数値的精度など)を特定し、エントロピー制御の明確なメカニズムを提案する。
これには、エントロピーを制御するために有利関数を変更するアルゴリズムのファミリーであるREPOと、適応的な非対称クリッピングアプローチであるADAPOが含まれる。
エントロピー保存法で訓練されたモデルは、トレーニングを通して多様性を維持し、よりパフォーマンスが高く、新しい環境におけるシーケンシャルラーニングのためのトレーニング可能性を維持する最終方針を導出する。
関連論文リスト
- On the Entropy Dynamics in Reinforcement Fine-Tuning of Large Language Models [54.61810451777578]
エントロピーは、大きな言語モデルによって生成される出力の多様性を測定するための重要な指標となる。
近年の研究では、強化微調整における探究と利用のバランスを改善するために、エントロピーの監視と調整に重点を置いている。
論文 参考訳(メタデータ) (2026-02-03T11:14:58Z) - The Role of Entropy in Visual Grounding: Analysis and Optimization [69.51909526456606]
本稿では,効率的なエントロピー制御のための解釈可能なアルゴリズムであるECVGPO(Entropy Control Visual Grounding Policy Optimization)を紹介する。
実験によると、ECVGPOは様々なベンチマークやモデルで広範囲に改善されている。
論文 参考訳(メタデータ) (2025-12-07T08:33:55Z) - Revisiting Entropy in Reinforcement Learning for Large Reasoning Models [54.96908589622163]
検証可能な報酬(RLVR)を用いた強化学習で訓練した大規模言語モデルのエントロピーダイナミクスについて検討する。
以上の結果から,RLVRでトレーニングしたLDMのエントロピーに影響を及ぼす重要な要因として,非政治的更新数,トレーニングデータの多様性,最適化目標におけるクリッピング閾値が示唆された。
論文 参考訳(メタデータ) (2025-11-08T12:50:41Z) - Rediscovering Entropy Regularization: Adaptive Coefficient Unlocks Its Potential for LLM Reinforcement Learning [55.59724323303857]
本稿では,3つのコンポーネントによる探索と利用のバランスをとるフレームワークを提案する。
複数の数学的推論ベンチマークの実験は、AERが一貫してベースラインを上回り、推論精度と探索能力の両方を改善していることを示している。
論文 参考訳(メタデータ) (2025-10-13T03:10:26Z) - The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models [99.98293908799731]
本稿では,LLMによる推論,すなわち政策エントロピーの崩壊において,RLのスケーリングの大きな障害を克服することを目的としている。
実際には、エントロピーHと下流性能Rの間の変換方程式R=-a*eH+bを確立する。
Clip-Cov と KL-Cov という2つの単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2025-05-28T17:38:45Z) - Robust Policy Optimization in Deep Reinforcement Learning [16.999444076456268]
連続的な行動領域では、パラメータ化された行動分布は容易に探索の制御を可能にする。
特に,摂動分布を利用したロバストポリシ最適化(RPO)アルゴリズムを提案する。
我々は,DeepMind Control,OpenAI Gym,Pybullet,IsaacGymの各種連続制御タスクについて評価を行った。
論文 参考訳(メタデータ) (2022-12-14T22:43:56Z) - Examining Policy Entropy of Reinforcement Learning Agents for Personalization Tasks [0.40964539027092917]
本研究は, パーソナライズ環境における強化学習システムの行動調査に焦点をあてる。
本研究では,これらのエントロピーの違いが採用される学習の種類に起因することを示すため,多種多様な数値実験と理論的正当性を提供する。
論文 参考訳(メタデータ) (2022-11-21T21:42:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。