論文の概要: LAD: Learning Advantage Distribution for Reasoning
- arxiv url: http://arxiv.org/abs/2602.20132v1
- Date: Mon, 23 Feb 2026 18:44:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.955961
- Title: LAD: Learning Advantage Distribution for Reasoning
- Title(参考訳): LAD:Reasoningのための学習アドバンテージ分布
- Authors: Wendi Li, Sharon Li,
- Abstract要約: 本稿では,学習上の利点に取って代わる分散マッチングフレームワークであるLearning Advantage Distributionsを紹介する。
LADは精度と生成多様性の両方を確実に改善する。
数学およびコード推論タスクの実験により、LADは精度と生成多様性の両方を確実に改善することが示された。
- 参考スコア(独自算出の注目度): 11.179134756179998
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current reinforcement learning objectives for large-model reasoning primarily focus on maximizing expected rewards. This paradigm can lead to overfitting to dominant reward signals, while neglecting alternative yet valid reasoning trajectories, thereby limiting diversity and exploration. To address this issue, we introduce Learning Advantage Distributions (LAD), a distribution-matching framework that replaces advantage maximization with learning the advantage-induced distribution. By establishing the equivalence between the optimal policy update and an advantage-based target distribution, we derive a practical LAD objective formulated as minimizing an $f$-divergence between the policy-induced and advantage-induced distributions. This yields a gradient update that increases likelihood for high-advantage responses while suppressing over-confident probability growth, preventing collapse without requiring auxiliary entropy regularization. LAD incurs no extra training cost compared to GRPO and scales naturally to LLM post-training. In a controlled bandit setting, LAD faithfully recovers the multimodal advantage distribution, validating the theoretical formulation. Experiments on math and code reasoning tasks across several LLM backbones show that LAD reliably improves both accuracy and generative diversity.
- Abstract(参考訳): 大規模モデル推論の現在の強化学習目的は主に期待される報酬の最大化に焦点を当てている。
このパラダイムは、優越的な報酬信号に過度に適合すると同時に、代替の妥当な推論軌道を無視し、多様性と探索を制限する。
この問題に対処するために、我々は、有利な最大化と有利な帰属分布の学習に取って代わる分散マッチングフレームワークであるLearning Advantage Distributions (LAD)を紹介した。
最適政策更新と利益に基づく目標分布の等価性を確立することにより、政策誘発分布と利益誘導分布の$f$分割を最小化するための実用的LAD目標を導出する。
これにより、高アドバンテージ応答の可能性を高めながら、過信確率の増大を抑え、補助エントロピー正則化を必要とせずに崩壊を防止できる勾配更新が得られる。
LADはGRPOと比べて余分なトレーニングコストを伴わず、LLMのポストトレーニングに自然にスケールする。
制御されたバンディット設定では、LADはマルチモーダルな優位分布を忠実に回復し、理論的な定式化を検証する。
数個のLCMバックボーンにまたがる数学およびコード推論タスクの実験により、LADは精度と生成の多様性の両方を確実に改善することが示された。
関連論文リスト
- Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。
より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。
DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2026-02-04T18:59:04Z) - Latent Chain-of-Thought for Visual Reasoning [53.541579327424046]
大型視覚言語モデル(LVLM)の解釈可能性および信頼性向上には,チェーン・オブ・シント(CoT)推論が不可欠である
我々は,LVLMにおける推論を後部推論として再構成し,償却変分推論に基づくスケーラブルなトレーニングアルゴリズムを提案する。
提案手法は,7つの推論ベンチマークにおいて,最先端のLVLMを強化することを実証的に実証する。
論文 参考訳(メタデータ) (2025-10-27T23:10:06Z) - FlowRL: Matching Reward Distributions for LLM Reasoning [69.88820066093798]
大規模言語モデル(LLM)強化学習(RL)において、報酬を最大化する代わりに、フローバランシングによる全報酬分布をマッチングするフローRLを提案する。
我々はスカラー報酬を学習可能な分割関数を用いて正規化対象分布に変換し、その後、ポリシーと対象分布との逆KL分散を最小化する。
論文 参考訳(メタデータ) (2025-09-18T17:56:36Z) - Beyond Reverse KL: Generalizing Direct Preference Optimization with
Diverse Divergence Constraints [26.274786600234876]
大規模言語モデル(LLM)の能力の増大は、人工知能の機会を増大させるが、安全性の懸念を増幅する。
RLHFは、AIアライメントへの有望な経路として登場したが、複雑さと独立した報酬モデルへの依存により、課題を提起している。
DPOは代替として提案されており、逆KL正規化制約の下ではRLHFと等価である。
Jensen-Shannonの発散、forward KLの発散、$alpha$-divergencesなど、ある$f$-divergencesの下では、報酬と最適ポリシーの複雑な関係も単純化できることを示す。
論文 参考訳(メタデータ) (2023-09-28T08:29:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。