論文の概要: Conditional Advantage Estimation for Reinforcement Learning in Large Reasoning Models
- arxiv url: http://arxiv.org/abs/2509.23962v1
- Date: Sun, 28 Sep 2025 16:33:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.557016
- Title: Conditional Advantage Estimation for Reinforcement Learning in Large Reasoning Models
- Title(参考訳): 大規模推論モデルにおける強化学習のための条件付きアドバンテージ推定
- Authors: Guanxu Chen, Yafu Li, Yuxian Jiang, Chen Qian, Qihan Ren, Jingyi Yang, Yu Cheng, Dongrui Liu, Jing Shao,
- Abstract要約: 本研究では,条件付きアドバンテージ・エスティマティオン(CANON)を導入し,その方向を推定せずに目標距離の影響を増幅する。
エントロピーに基づくCANONは、数学推論と高複雑性論理タスクの両方において、従来手法よりも一貫して優れている。
- 参考スコア(独自算出の注目度): 50.84995206660551
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) for large language models (LLMs) has achieved remarkable progress in enhancing LLMs' reasoning capabilities on tasks with clear correctness criteria, such as mathematical reasoning tasks. Several training metrics, such as entropy or response length, have been observed to correlate with different reasoning behaviors in reinforcement learning. Prior approaches incorporate such priors through reward or advantage shaping, which often relies on hand-crafted penalties and preferences (e.g., higher-is-better or lower-is-better). However, without careful hyperparameter tuning, these directional priors can be overly biased and may lead to failure. To this end, we introduce Conditional advANtage estimatiON (CANON), amplifying the impact of the target metric without presuming its direction. Specifically, CANON regroups the sampled responses into two groups based on the higher or lower value of a target metric, measures which metric trend contributes to better performance through inter-group comparison, and identifies the better response within the same group. In summary, CANON based on entropy consistently outperforms prior methods across three LLMs on both math reasoning and high-complexity logic tasks. When applied to response length, CANON further improves token efficiency, yielding a more favorable Pareto frontier in the performance-cost trade-off.
- Abstract(参考訳): 大規模言語モデル(LLM)のためのRLVR(Reinforcement Learning with Verifiable Rewards)は、数学的推論タスクのような明確な正当性基準を持つタスクにおいてLLMの推論能力を向上する際、顕著な進歩を遂げた。
エントロピーや応答長といったいくつかのトレーニング指標は、強化学習における異なる推論行動と相関することが観察されている。
以前のアプローチでは、報酬や有利な形成を通じてこのような先入観を取り入れており、手作りのペナルティや好み(例えば、高位や低位など)に依存していることが多い。
しかし、注意深いハイパーパラメータチューニングがなければ、これらの方向の事前は過度に偏り、失敗につながる可能性がある。
この目的のために,条件付きアドバンテージ・エスティマティオン (CANON) を導入し,その方向を推定することなく,目標距離の影響を増幅する。
特に、CANONは、サンプリングされた応答を、ターゲットメトリックの上位または下位値に基づいて2つのグループに再分類し、どのメトリックトレンドがグループ間比較によってより良いパフォーマンスに寄与するかを測定し、同じグループ内でより良い応答を特定する。
要約すると、エントロピーに基づくCANONは、算術的推論と複雑度の高い論理タスクの両方において、3つの LLM にまたがる先行手法よりも一貫して優れる。
応答長に適用すると、CANONはさらにトークン効率を改善し、パフォーマンスコストのトレードオフにおいてより有利なParetoフロンティアが得られる。
関連論文リスト
- Walk Before You Run! Concise LLM Reasoning via Reinforcement Learning [10.255235456427037]
大規模言語モデル(LLM)における簡潔推論を実現するための簡易かつ効果的な2段階強化学習フレームワークを提案する。
最初の段階は、より多くのトレーニングステップを使用して、グループ相対ポリシー最適化を通じてモデルの推論能力をインセンティブ化することを目的としています。
第2段階は、より少ないトレーニングステップを使用して、簡潔さを明示的に実施し、Longth-aware Group Relative Policy Optimizationを通じて効率を向上させる。
論文 参考訳(メタデータ) (2025-05-27T13:29:51Z) - LARES: Latent Reasoning for Sequential Recommendation [96.26996622771593]
本稿では、シークエンシャルレコメンデーションのための新しいスケーラブルなLatent ReasoningフレームワークであるLARESを紹介する。
提案手法では,パラメータの複雑性を増大させることなく推理深度を柔軟に拡張できる再帰的アーキテクチャを用いている。
我々のフレームワークは既存の高度なモデルとのシームレスな互換性を示し、推奨性能をさらに向上させる。
論文 参考訳(メタデータ) (2025-05-22T16:22:54Z) - PEAR: Position-Embedding-Agnostic Attention Re-weighting Enhances Retrieval-Augmented Generation with Zero Inference Overhead [24.611413814466978]
検索拡張生成(RAG)により強化された大言語モデル(LLM)は、Web検索のための新しいパラダイムを導入した。
既存のコンテキスト認識を強化する方法は、しばしば非効率であり、推論中に時間やメモリオーバーヘッドが発生する。
そこで我々は,LLMの文脈認識をゼロ推論オーバーヘッドで向上する位置埋め込み非依存再重み付け(PEAR)を提案する。
論文 参考訳(メタデータ) (2024-09-29T15:40:54Z) - Prior Constraints-based Reward Model Training for Aligning Large Language Models [58.33118716810208]
本稿では,この問題を解決するために,事前制約に基づくリワードモデル(PCRM)のトレーニング手法を提案する。
PCRMは、前回の制約、特に各比較ペアの出力間の長さ比とコサイン類似性を、最適化の規模を調節しスコアマージンを制御するための報酬モデルトレーニングに組み入れている。
実験結果から,PCRMは報酬スコアのスケーリングを効果的に抑制することによりアライメント性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-04-01T07:49:11Z) - Augmenting Unsupervised Reinforcement Learning with Self-Reference [63.68018737038331]
人間は、新しいタスクを学ぶ際に、過去の経験を明確に表現する能力を持っている。
本稿では,歴史情報を活用するためのアドオンモジュールとして,自己参照(SR)アプローチを提案する。
提案手法は,非教師付き強化学習ベンチマークにおけるIQM(Interquartile Mean)性能と最適ギャップ削減の両面から,最先端の成果を実現する。
論文 参考訳(メタデータ) (2023-11-16T09:07:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。