論文の概要: Arbitrary Entropy Policy Optimization: Entropy Is Controllable in Reinforcement Finetuning
- arxiv url: http://arxiv.org/abs/2510.08141v1
- Date: Thu, 09 Oct 2025 12:24:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.061944
- Title: Arbitrary Entropy Policy Optimization: Entropy Is Controllable in Reinforcement Finetuning
- Title(参考訳): 任意エントロピー政策最適化 : エントロピーは強化ファインタニングにおいて制御可能である
- Authors: Chen Wang, Zhaochun Li, Jionghao Bai, Yuzhi Zhang, Shisheng Cui, Zhou Zhao, Yue Wang,
- Abstract要約: 本稿では, エントロピーボーナスをREINFORCEポリシー勾配に置き換えることで, エントロピー崩壊を解消するArbitrary Entropy Policy Optimization (AEPO)を提案する。
AEPOは、ポリシー勾配を正規化として、分布を正規化として、REINFORCEを正規化として統合し、最適化を歪ませることなく正確なエントロピー制御を可能にする。
- 参考スコア(独自算出の注目度): 36.00460460149206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement finetuning (RFT) is essential for enhancing the reasoning capabilities of large language models (LLM), yet the widely adopted Group Relative Policy Optimization (GRPO) suffers from entropy collapse, where entropy monotonically decreases, exploration vanishes, and policies converge prematurely. Existing entropy-regularized methods only partially alleviate this issue while introducing bias and instability, leaving entropy control unresolved and the connection between entropy, exploration, and performance unclear. We propose Arbitrary Entropy Policy Optimization (AEPO), which eliminates entropy collapse by replacing entropy bonuses with REINFORCE policy gradient on temperature-adjusted distributions and stabilizing entropy through temperature regulation. AEPO integrates three key designs: policy gradient as regularization, distribution as regularization, and REINFORCE as regularization, enabling precise entropy control without distorting optimization. Experiments demonstrate three major contributions: AEPO (1) stabilizes entropy at arbitrary target levels, effectively removing collapse in GRPO; (2) reveals a non-monotonic relation where performance first improves then declines with increasing entropy, clarifying the link between entropy, exploration, and reasoning; and (3) generalizes beyond entropy, providing a broader RFT paradigm where superior target distributions can serve as REINFORCE regularizers.
- Abstract(参考訳): 強化微調整(Reinforcement finetuning, RFT)は, 大規模言語モデル(LLM)の推論能力の向上に不可欠であるが, 広く採用されているグループ相対政策最適化(GRPO)はエントロピー崩壊に悩まされ, エントロピーが単調に減少し, 探索が消滅し, 政策が早期に収束する。
既存のエントロピー規則化手法は、バイアスと不安定性を導入しながらこの問題を部分的に緩和するだけであり、エントロピー制御は未解決のままであり、エントロピー、探索、性能の関連性は不明確である。
本稿では, 温度調整分布のREINFORCEポリシ勾配にエントロピーボーナスを置き換え, 温度調整によるエントロピー安定化を図り, エントロピー崩壊を解消するArbitrary Entropy Policy Optimization (AEPO)を提案する。
AEPOは、ポリシー勾配を正規化として、分布を正規化として、REINFORCEを正規化として統合し、最適化を歪ませることなく正確なエントロピー制御を可能にする。
AEPO (1) は任意の目標レベルでエントロピーを安定化させ,GRPO の崩壊を効果的に除去する; 2) 性能が最初に向上し,エントロピーの増加とともに減少する非単調な関係を明らかにする; エントロピー,探索,推論の関連を明らかにする; 3) エントロピーを超えて一般化し,より優れたターゲット分布がREINFORCE正則化として機能するRFTパラダイムを提供する。
関連論文リスト
- EPO: Entropy-regularized Policy Optimization for LLM Agents Reinforcement Learning [15.529826552402769]
スパース報酬を伴うマルチターン環境におけるLLMエージェントの訓練は、強化学習の根本的な課題である。
この設定に特有のクリティカルな障害モード、すなわち探索・探索カスケードの障害を特定します。
本稿では,この障害サイクルを3つの相乗的メカニズムによって破る一般的なフレームワークであるエントロピー規則化政策最適化(EPO)を提案する。
論文 参考訳(メタデータ) (2025-09-26T16:51:44Z) - Complexity-Driven Policy Optimization [5.757876638037014]
エントロピーボーナスをより堅牢な複雑性ボーナスに置き換えることを提案する。
この正規化器は、量(高エントロピー)と構造(高不均衡)のバランスをとる政策を奨励する
このような挙動は、正規化器が極端(例えば、極大障害と完全秩序)を抑圧し、エージェントが構造的で適応可能な戦略を発見する圧力を発生させるためである。
論文 参考訳(メタデータ) (2025-09-24T19:32:03Z) - BEE-RAG: Balanced Entropy Engineering for Retrieval-Augmented Generation [77.10390725623125]
本稿では,RAGシステムの適応性を改善するために,バランスの取れたエントロピーエンジニアリングRAG(BEE-RAG)フレームワークを提案する。
BEE-RAGは、注意感度をコンテキスト長から分離し、安定したエントロピーレベルを確保する。
これに基づいて,マルチインパタンス推定のためのゼロショット推論戦略とパラメータ効率適応微調整機構を導入する。
論文 参考訳(メタデータ) (2025-08-07T07:37:25Z) - State Entropy Regularization for Robust Reinforcement Learning [49.08983925413188]
状態エントロピー規則化は、構造的および空間的に相関した摂動に対するロバスト性を向上させることを示す。
このようなバリエーションは、伝達学習では一般的であるが、標準的な堅牢な強化学習法では見落とされがちである。
論文 参考訳(メタデータ) (2025-06-08T11:15:31Z) - The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models [99.98293908799731]
本稿では,LLMによる推論,すなわち政策エントロピーの崩壊において,RLのスケーリングの大きな障害を克服することを目的としている。
実際には、エントロピーHと下流性能Rの間の変換方程式R=-a*eH+bを確立する。
Clip-Cov と KL-Cov という2つの単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2025-05-28T17:38:45Z) - Entropy annealing for policy mirror descent in continuous time and space [2.8255028200738455]
本研究では,エントロピー正則化が出口時間制御問題に対する政策手法の収束に及ぼす影響について検討する。
本稿では,真の勾配であっても,エントロピー正則化が政策最適化をどのように改善するかを説明する。
論文 参考訳(メタデータ) (2024-05-30T17:02:18Z) - Action Redundancy in Reinforcement Learning [54.291331971813364]
遷移エントロピーはモデル依存遷移エントロピーと作用冗長性という2つの用語で記述できることを示す。
その結果,行動冗長性は強化学習の根本的な問題であることが示唆された。
論文 参考訳(メタデータ) (2021-02-22T19:47:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。