論文の概要: Distribution-Centric Policy Optimization Dominates Exploration-Exploitation Trade-off
- arxiv url: http://arxiv.org/abs/2601.12730v1
- Date: Mon, 19 Jan 2026 05:20:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.762738
- Title: Distribution-Centric Policy Optimization Dominates Exploration-Exploitation Trade-off
- Title(参考訳): 流通中心政策最適化が探索・探索トレードオフを支配している
- Authors: Zhaochun Li, Chen Wang, Jionghao Bai, Shisheng Cui, Ge Lan, Zhou Zhao, Yue Wang,
- Abstract要約: 我々は、強化学習のためのtextbfdistribution中心の視点を導入する。
本稿では,分布レベルの正規化としてエントロピー規制を再構成する分散中心政策最適化(DCPO)を提案する。
全体として、DCPOはサンプルレベルの原則を分散レベルの原則に置き換え、理論的に基礎とフレキシブルなフレームワークを提供し、EEのトレードオフを強化します。
- 参考スコア(独自算出の注目度): 34.80019950191864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The exploration-exploitation (EE) trade-off is a central challenge in reinforcement learning (RL) for large language models (LLMs). With Group Relative Policy Optimization (GRPO), training tends to be exploitation driven: entropy decreases monotonically, samples convergence, and exploration fades. Most existing fixes are \textbf{sample-centric}: they seek or bonus rare samples, assuming exploration comes from novel trajectories and tokens. These heuristics depend on the "luck" of informative samples, lack principled control of the policy, and often yield limited or inconsistent gains. In this work, we are the first to introduce a \textbf{distribution-centric} perspective for RL, in which exploration is always guided by a "better" target distribution, and reveal that a policy's ability to resist entropy collapse is governed by the distribution itself rather than individual samples. Building on this insight, we propose Distribution-Centric Policy Optimization (DCPO), which reformulates entropy regulation as distribution-level regularization. DCPO achieves controllable entropy fully on-policy without sampling from external distributions, enabling efficient exploration while maintaining training stability. Across multiple models and seven benchmarks, DCPO improves over GRPO by about 20\% on average. Overall, DCPO replaces sample-level heuristics with distribution-level principles, offering a theoretically grounded and flexible framework for controllable exploration and a stronger EE trade-off. The code is available in https://github.com/597358816/DCPO.
- Abstract(参考訳): 探索-探索(EE)トレードオフは、大規模言語モデル(LLM)の強化学習(RL)における中心的な課題である。
グループ相対政策最適化(GRPO)では、エントロピーは単調に減少し、サンプル収束し、探索が衰退する。
探索が新しい軌跡やトークンから来ると仮定して、希少なサンプルを検索またはボーナスする。
これらのヒューリスティックは、情報的なサンプルの「少ない」ことに依存し、政策の原則的な制御が欠如しており、しばしば限定的または矛盾した利得をもたらす。
この研究において、我々はRL に対して初めて \textbf{distriion-centric} の視点を導入し、探索は常に「より良い」目標分布によって導かれ、エントロピー崩壊に抵抗する政策の能力は個々のサンプルではなく分布自体によって支配されることを示した。
この知見に基づいて、分布レベルの正規化としてエントロピー規制を再構築する分散中心政策最適化(DCPO)を提案する。
DCPOは外部分布をサンプリングすることなく、完全に制御可能なエントロピーを実現し、トレーニング安定性を維持しながら効率的な探索を可能にする。
複数のモデルと7つのベンチマークで、DCPOはGRPOを平均で約20倍改善する。
全体として、DCPOはサンプルレベルのヒューリスティックを分散レベルの原則に置き換え、制御可能な探索のための理論的基盤と柔軟なフレームワークと、より強力なEEトレードオフを提供します。
コードはhttps://github.com/597358816/DCPOで公開されている。
関連論文リスト
- Entropy Ratio Clipping as a Soft Global Constraint for Stable Reinforcement Learning [49.92803982100042]
我々は,現在の政策と過去の政策のエントロピー比を新たなグローバル指標として用いることを提案する。
エントロピー比に双方向の制約を課すtextbfEntropy Ratio (ERC) 機構を導入する。
これは、グローバルな分布レベルでの政策更新を安定化させ、未サンプリングアクションの確率シフトを規制するPPOクリップの不能を補償する。
論文 参考訳(メタデータ) (2025-12-05T10:26:32Z) - FlowRL: Matching Reward Distributions for LLM Reasoning [69.88820066093798]
大規模言語モデル(LLM)強化学習(RL)において、報酬を最大化する代わりに、フローバランシングによる全報酬分布をマッチングするフローRLを提案する。
我々はスカラー報酬を学習可能な分割関数を用いて正規化対象分布に変換し、その後、ポリシーと対象分布との逆KL分散を最小化する。
論文 参考訳(メタデータ) (2025-09-18T17:56:36Z) - HAEPO: History-Aggregated Exploratory Policy Optimization [4.782714372521615]
本稿では,ヒストリーアグリゲート探索政策最適化(HAEPO)を紹介する。
HAEPOは各軌道を対数確率の和に圧縮し、軌道にプラケット・リュックソフトマックスを適用する。
実証的には、HAEPOは急速に収束し、徹底的に探索し、真の報酬と密接に一致し、PPO、GRPO、DPOと同等以上の堅牢な学習行動を示す。
論文 参考訳(メタデータ) (2025-08-26T09:59:44Z) - Entropy Controllable Direct Preference Optimization [3.536605202672355]
提案するDPOは,提案するポリシのエントロピーを制御可能なH-DPOである。
実験の結果,H-DPO は様々なタスクにおいて DPO よりも優れており,数理タスクに対するpass@$k$ 評価において優れた結果が得られた。
論文 参考訳(メタデータ) (2024-11-12T07:09:44Z) - Bag of Policies for Distributional Deep Exploration [7.522221438479138]
Bag of Policies (BoP) はリターン分布推定器上に構築されており、コピーの個体数を維持する。
トレーニング中、各エピソードは1つのヘッドで制御され、収集されたステートアクションペアはすべてのヘッドをオフ・ポリティに更新するために使用される。
ALE Atariゲームにおける実験結果から,BoPは学習時の堅牢性や速度が向上することが示された。
論文 参考訳(メタデータ) (2023-08-03T13:43:03Z) - Robust Policy Optimization in Deep Reinforcement Learning [16.999444076456268]
連続的な行動領域では、パラメータ化された行動分布は容易に探索の制御を可能にする。
特に,摂動分布を利用したロバストポリシ最適化(RPO)アルゴリズムを提案する。
我々は,DeepMind Control,OpenAI Gym,Pybullet,IsaacGymの各種連続制御タスクについて評価を行った。
論文 参考訳(メタデータ) (2022-12-14T22:43:56Z) - Distributional Reinforcement Learning via Moment Matching [54.16108052278444]
ニューラルネットワークを用いて各戻り分布から統計量の有限集合を学習する手法を定式化する。
我々の手法は、戻り分布とベルマン目標の間のモーメントの全ての順序を暗黙的に一致させるものとして解釈できる。
Atariゲームスイートの実験により,本手法は標準分布RLベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-07-24T05:18:17Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。