Fugu-MT 論文翻訳(概要): LAD: Learning Advantage Distribution for Reasoning

論文の概要: LAD: Learning Advantage Distribution for Reasoning

arxiv url: http://arxiv.org/abs/2602.20132v1
Date: Mon, 23 Feb 2026 18:44:10 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.955961
Title: LAD: Learning Advantage Distribution for Reasoning
Title（参考訳）: LAD:Reasoningのための学習アドバンテージ分布
Authors: Wendi Li, Sharon Li,
Abstract要約: 本稿では,学習上の利点に取って代わる分散マッチングフレームワークであるLearning Advantage Distributionsを紹介する。 LADは精度と生成多様性の両方を確実に改善する。数学およびコード推論タスクの実験により、LADは精度と生成多様性の両方を確実に改善することが示された。
参考スコア（独自算出の注目度）: 11.179134756179998
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Current reinforcement learning objectives for large-model reasoning primarily focus on maximizing expected rewards. This paradigm can lead to overfitting to dominant reward signals, while neglecting alternative yet valid reasoning trajectories, thereby limiting diversity and exploration. To address this issue, we introduce Learning Advantage Distributions (LAD), a distribution-matching framework that replaces advantage maximization with learning the advantage-induced distribution. By establishing the equivalence between the optimal policy update and an advantage-based target distribution, we derive a practical LAD objective formulated as minimizing an $f$-divergence between the policy-induced and advantage-induced distributions. This yields a gradient update that increases likelihood for high-advantage responses while suppressing over-confident probability growth, preventing collapse without requiring auxiliary entropy regularization. LAD incurs no extra training cost compared to GRPO and scales naturally to LLM post-training. In a controlled bandit setting, LAD faithfully recovers the multimodal advantage distribution, validating the theoretical formulation. Experiments on math and code reasoning tasks across several LLM backbones show that LAD reliably improves both accuracy and generative diversity.
Abstract（参考訳）: 大規模モデル推論の現在の強化学習目的は主に期待される報酬の最大化に焦点を当てている。このパラダイムは、優越的な報酬信号に過度に適合すると同時に、代替の妥当な推論軌道を無視し、多様性と探索を制限する。この問題に対処するために、我々は、有利な最大化と有利な帰属分布の学習に取って代わる分散マッチングフレームワークであるLearning Advantage Distributions (LAD)を紹介した。最適政策更新と利益に基づく目標分布の等価性を確立することにより、政策誘発分布と利益誘導分布の$f$分割を最小化するための実用的LAD目標を導出する。これにより、高アドバンテージ応答の可能性を高めながら、過信確率の増大を抑え、補助エントロピー正則化を必要とせずに崩壊を防止できる勾配更新が得られる。 LADはGRPOと比べて余分なトレーニングコストを伴わず、LLMのポストトレーニングに自然にスケールする。制御されたバンディット設定では、LADはマルチモーダルな優位分布を忠実に回復し、理論的な定式化を検証する。数個のLCMバックボーンにまたがる数学およびコード推論タスクの実験により、LADは精度と生成の多様性の両方を確実に改善することが示された。

関連論文リスト

Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。 DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文参考訳（メタデータ） (2026-02-04T18:59:04Z)
Whatever Remains Must Be True: Filtering Drives Reasoning in LLMs, Shaping Diversity [13.211627219720796]
強化学習(Reinforcement Learning, RL)は、推論に関わる課題を解決するためにLLMをチューニングするためのデファクトスタンダードとなっている。我々は、RLが暗黙的に「モード探索」あるいは「ゼロ強制」逆KLを目標分布に最適化し、モデルがターゲットの特定の高確率領域に質量を集中させることを論じる。そこで本研究では,まず,正解の相対確率を無視しながら,不正確な解をフィルタリングして得られる明示的対象分布から始める。
論文参考訳（メタデータ） (2025-12-05T18:56:40Z)
Data-regularized Reinforcement Learning for Diffusion Models at Scale [99.01056178660538]
データ正規化拡散強化学習(Data-regularized Diffusion Reinforcement Learning, DDRL)は, フォワードKLの分散を利用して, 政策を非政治データ分布に固定する新しいフレームワークである。 100万時間以上のGPU実験と1万回の二重盲検評価により、DDRLは、RLで見られる報酬ハックを緩和しながら、報酬を大幅に改善することを示した。
論文参考訳（メタデータ） (2025-12-03T23:45:07Z)
Latent Chain-of-Thought for Visual Reasoning [53.541579327424046]
大型視覚言語モデル(LVLM)の解釈可能性および信頼性向上には,チェーン・オブ・シント(CoT)推論が不可欠である我々は,LVLMにおける推論を後部推論として再構成し,償却変分推論に基づくスケーラブルなトレーニングアルゴリズムを提案する。提案手法は,7つの推論ベンチマークにおいて,最先端のLVLMを強化することを実証的に実証する。
論文参考訳（メタデータ） (2025-10-27T23:10:06Z)
FlowRL: Matching Reward Distributions for LLM Reasoning [69.88820066093798]
大規模言語モデル(LLM)強化学習(RL)において、報酬を最大化する代わりに、フローバランシングによる全報酬分布をマッチングするフローRLを提案する。我々はスカラー報酬を学習可能な分割関数を用いて正規化対象分布に変換し、その後、ポリシーと対象分布との逆KL分散を最小化する。
論文参考訳（メタデータ） (2025-09-18T17:56:36Z)
Implicit Reward as the Bridge: A Unified View of SFT and DPO Connections [65.36449542323277]
本稿では,Large Language Model (LLM) 後の学習において,SFT(Supervised Fine-Tuning) と優先学習を統合した理論フレームワークを提案する。そこで本研究では,学習率の簡易かつ効果的な削減手法を提案する。
論文参考訳（メタデータ） (2025-06-15T05:42:29Z)
Beyond Reverse KL: Generalizing Direct Preference Optimization with Diverse Divergence Constraints [26.274786600234876]
大規模言語モデル(LLM)の能力の増大は、人工知能の機会を増大させるが、安全性の懸念を増幅する。 RLHFは、AIアライメントへの有望な経路として登場したが、複雑さと独立した報酬モデルへの依存により、課題を提起している。 DPOは代替として提案されており、逆KL正規化制約の下ではRLHFと等価である。 Jensen-Shannonの発散、forward KLの発散、$alpha$-divergencesなど、ある$f$-divergencesの下では、報酬と最適ポリシーの複雑な関係も単純化できることを示す。
論文参考訳（メタデータ） (2023-09-28T08:29:44Z)
Learning Invariant Representations and Risks for Semi-supervised Domain Adaptation [109.73983088432364]
半教師付きドメイン適応(Semi-DA)の設定の下で不変表現とリスクを同時に学習することを目的とした最初の手法を提案する。共同で textbfLearning textbfInvariant textbfRepresentations と textbfRisks の LIRR アルゴリズムを導入する。
論文参考訳（メタデータ） (2020-10-09T15:42:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。