論文の概要: DGPO: Distribution Guided Policy Optimization for Fine Grained Credit Assignment
- arxiv url: http://arxiv.org/abs/2605.03327v1
- Date: Tue, 05 May 2026 03:36:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.748168
- Title: DGPO: Distribution Guided Policy Optimization for Fine Grained Credit Assignment
- Title(参考訳): DGPO:ファイングラインド・クレジット・アサインメントのための配当誘導型政策最適化
- Authors: Hongbo Jin, Rongpeng Zhu, Zhongjing Du, Xu Jiang, Jingqi Tian, Qiaoman Zhang, Jiayu Ding,
- Abstract要約: 強化学習は、複雑な推論タスクを実行するために、大きな言語モデルを調整するために不可欠である。
本稿では, 配当偏差を厳格なペナルティではなく, 誘導信号として再解釈する配当誘導政策最適化について紹介する。
- 参考スコア(独自算出の注目度): 3.5885872325877926
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning is crucial for aligning large language models to perform complex reasoning tasks. However, current algorithms such as Group Relative Policy Optimization suffer from coarse grained, sequence level credit assignment, which severely struggles to isolate pivotal reasoning steps within long Chain of Thought generations. Furthermore, the standard unbounded Kullback Leibler divergence penalty induces severe gradient instability and mode seeking conservatism, ultimately stifling the discovery of novel reasoning trajectories. To overcome these limitations, we introduce Distribution Guided Policy Optimization, a novel critic free reinforcement learning framework that reinterprets distribution deviation as a guiding signal rather than a rigid penalty.
- Abstract(参考訳): 強化学習は、複雑な推論タスクを実行するために、大きな言語モデルを調整するために不可欠である。
しかし、グループ相対政策最適化のような現在のアルゴリズムは、より粗い、シーケンスレベルの信用割り当てに悩まされており、思考の長い連鎖の中で重要な推論ステップを分離するのに苦慮している。
さらに、標準的非有界のクルバック・リーブラー分岐刑は、厳格な勾配不安定性と保守主義を求めるモードを誘導し、最終的には新しい推論軌道の発見を妨げている。
このような制限を克服するため,我々は,厳格なペナルティではなく,配電偏差を指針信号として再解釈する,新たな批判的自由強化学習フレームワークである配電誘導政策最適化を導入する。
関連論文リスト
- Too Correct to Learn: Reinforcement Learning on Saturated Reasoning Data [55.84428098924793]
構造保存探索を行うためのパラメータ自由復号法である Constrained Uniform Top-K Smpling (CUTS) を提案する。
グループ内の利点分散を増幅するために、エクスプロイトと探索的なロールアウトを相乗化するためのトレーニングフレームワークであるMixed-CUTSに統合する。
特にMixed-CUTSは、AIME25ベンチマークのPass@1の精度を標準のGRPOよりも15.1%向上している。
論文 参考訳(メタデータ) (2026-04-20T16:43:28Z) - Hindsight-Anchored Policy Optimization: Turning Failure into Feedback in Sparse Reward Settings [7.554296968064274]
検証リワード(RLVR)を用いた強化学習のための階層型ポリシー最適化(HAPO)を提案する。
HAPOは、障害時に教師のデモンストレーションに最適化を選択的にアンカーする、後ろ向きのメカニズムを採用している。
HAPOは,政策改善に伴う教師の信号のアニールを自然に行うことで,非バイアスのオン・ポリティクス勾配を回復する。
論文 参考訳(メタデータ) (2026-03-11T21:33:41Z) - Improving Search Agent with One Line of Code [68.58667107354253]
ツールベースのエージェント強化学習(TARL)は,検索エージェントが外部ツールと対話できるようにトレーニングするための,有望なパラダイムとして登場した。
textbfSearch textbfAgent textbfPolicy textbfOptimization (textbfSAPO)を提案する。
論文 参考訳(メタデータ) (2026-03-10T04:07:39Z) - Hit-RAG: Learning to Reason with Long Contexts via Preference Alignment [97.55382322103986]
Hit-RAGは認知的ボトルネックを解決するために設計された多段階の優先順位調整フレームワークである。
本手法は,3つの異なる段階を通じて外部証拠の利用を体系的に改善する。
論文 参考訳(メタデータ) (2026-03-07T04:05:27Z) - KEPO: Knowledge-Enhanced Preference Optimization for Reinforcement Learning with Reasoning [24.072603982041798]
強化学習は、大規模言語や視覚言語モデルにおいて、明示的な推論行動を引き起こすための有望なパラダイムとして登場した。
しかしながら、推論指向のRLポストトレーニングは、低軌道レベルの報酬のため、基本的には困難である。
近年のオンライン蒸留法では,教師の集中管理によって最適化の安定化が図られている。
論文 参考訳(メタデータ) (2026-01-30T23:28:37Z) - Latent Chain-of-Thought for Visual Reasoning [53.541579327424046]
大型視覚言語モデル(LVLM)の解釈可能性および信頼性向上には,チェーン・オブ・シント(CoT)推論が不可欠である
我々は,LVLMにおける推論を後部推論として再構成し,償却変分推論に基づくスケーラブルなトレーニングアルゴリズムを提案する。
提案手法は,7つの推論ベンチマークにおいて,最先端のLVLMを強化することを実証的に実証する。
論文 参考訳(メタデータ) (2025-10-27T23:10:06Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - DROMO: Distributionally Robust Offline Model-based Policy Optimization [0.0]
モデルベース制御によるオフライン強化学習の問題点を考察する。
分散ロバストなオフラインモデルベースポリシー最適化(DROMO)を提案する。
論文 参考訳(メタデータ) (2021-09-15T13:25:14Z) - Distribution-Free Robust Linear Regression [5.532477732693]
共変体の分布を仮定せずにランダムな設計線形回帰を研究する。
最適部分指数尾を持つオーダー$d/n$の過大なリスクを達成する非線形推定器を構築する。
我々は、Gy"orfi, Kohler, Krzyzak, Walk が原因で、truncated least squares 推定器の古典的境界の最適版を証明した。
論文 参考訳(メタデータ) (2021-02-25T15:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。