論文の概要: SimKO: Simple Pass@K Policy Optimization
- arxiv url: http://arxiv.org/abs/2510.14807v1
- Date: Thu, 16 Oct 2025 15:40:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.924626
- Title: SimKO: Simple Pass@K Policy Optimization
- Title(参考訳): SimKO: Simple Pass@K Policy Optimization
- Authors: Ruotian Peng, Yi Ren, Zhouliang Yu, Weiyang Liu, Yandong Wen,
- Abstract要約: 検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の推論能力を向上させる。
一般的なRLVR法では,pass@1の改善とpass@K(K>1)性能の低下が証明されている。
SimKO(Simple Pass@K Optimization)は,高濃度化問題を緩和し,探索を促進する手法である。
- 参考スコア(独自算出の注目度): 24.274238047842914
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) has advanced the reasoning capabilities of large language models (LLMs). However, prevailing RLVR methods exhibit a systematic bias toward exploitation over exploration, as evidenced by improved pass@1 but reduced pass@K (K>1) performance. To understand this issue, we analyze training dynamics of RLVR methods by tracking the token-level probability distributions over vocabulary candidates. Our analysis reveals a consistent probability concentration effect where the top-1 candidate increasingly accumulates probability mass and suppresses that of other candidates. More importantly, stronger over-concentration correlates with worse pass@K performance. Inspired by this finding, we propose Simple Pass@K Optimization (SimKO), a method designed to mitigate the over-concentration issue, thereby encouraging exploration. SimKO operates in an asymmetrical manner. For verified-correct responses, it boosts the probabilities of the top-K candidates. For verified-incorrect responses, it applies stronger penalties to the top-1 candidate. We observe that this asymmetric design is particularly effective at mitigating over-concentration when applied at tokens with high entropy. Across various math and logical-reasoning benchmarks, SimKO consistently yields higher pass@K for a wide range of K, providing a simple way to improve RLVR's exploration.
- Abstract(参考訳): 検証可能な報酬付き強化学習(RLVR)は,大規模言語モデル(LLM)の推論能力を向上させる。
しかし,一般的なRLVR法では,pass@1が改良され,pass@K(K>1)の性能が低下することが証明された。
そこで我々は,RLVR手法の学習力学を,語彙候補上でのトークンレベルの確率分布を追跡することによって解析する。
分析の結果,トップ1候補が確率質量を蓄積し,他の候補の確率を抑える一貫した確率集中効果が明らかとなった。
さらに重要なのは、より強い集中度が、より悪いpass@Kパフォーマンスと相関していることだ。
この発見から着想を得たSimple Pass@K Optimization(SimKO)を提案する。
SimKOは非対称に動作する。
検証された正しい応答は、トップK候補の確率を高める。
不正確な反応については、トップ1候補に強い罰則を適用する。
この非対称設計は、高エントロピーのトークンに適用した場合、過濃度を緩和するのに特に有効である。
様々な数学と論理推論のベンチマークにおいて、SimKOは一貫して、広範囲のKに対してより高いパス@Kを出力し、RLVRの探索を改善するための簡単な方法を提供する。
関連論文リスト
- ASPO: Asymmetric Importance Sampling Policy Optimization [31.38346888572171]
ポジティブアドバンテージトークンのImportance Smpling(IS)比は不一致であり、正および負のトークンに対するアンバランストークン重み付けにつながる。
このミスマッチは、既に高確率のトークンを過剰に増幅しながら、低確率トークンの更新を抑制する。
我々は,IS比の正アドバンテージトークンを反転させるシンプルかつ効果的な戦略を用いた非対称的重要度サンプリングポリシー最適化(ASPO)を提案する。
論文 参考訳(メタデータ) (2025-10-07T15:54:24Z) - Conditional Advantage Estimation for Reinforcement Learning in Large Reasoning Models [50.84995206660551]
本研究では,条件付きアドバンテージ・エスティマティオン(CANON)を導入し,その方向を推定せずに目標距離の影響を増幅する。
エントロピーに基づくCANONは、数学推論と高複雑性論理タスクの両方において、従来手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2025-09-28T16:33:07Z) - RSPO: Risk-Seeking Policy Optimization for Pass@k and Max@k Metrics in Large Language Models [19.825375129156225]
本稿では,Pass@kとMax@kを直接対象とする新しい手法であるRSPOを提案する。
RSPOは「ヒッチハイク」問題に対処する:低逆応答は、高逆応答と共起した場合、必然的に強化される。
複数の応答に対するネスト勾配の複雑さにもかかわらず、RSPOは両方のメトリクスに対して効率的で偏りのない勾配推定器を生成する。
論文 参考訳(メタデータ) (2025-08-02T03:25:26Z) - The Surprising Effectiveness of Negative Reinforcement in LLM Reasoning [43.310209758380886]
検証可能な報酬を伴う強化学習(RLVR)は、言語モデル(LM)のトレーニングに有望なアプローチである
我々は学習信号を正しい応答の強化と正負の正負の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の
我々は、NSRが不正確な世代を抑え、確率質量を他の可算候補に向けて再分配することで、モデルの以前の信念に導かれることを示す。
論文 参考訳(メタデータ) (2025-06-02T06:10:54Z) - Reinforcing Video Reasoning with Focused Thinking [65.85683941058916]
本稿では,集中的思考と深い報酬の粒度で視覚的推論を強化する新しいフレームワークであるTW-GRPOを提案する。
具体的には,高情報密度のトークンを優先するトークン重み付け機構を用いる。
また,シングルチョイスからマルチチョイスQAタスクにシフトすることで,RLトレーニングを再構築する。
論文 参考訳(メタデータ) (2025-05-30T15:42:19Z) - Adaptive Segment-level Reward: Bridging the Gap Between Action and Reward Space in Alignment [13.087267214534727]
強化学習(RL)は大規模言語モデル(LLM)と人間の嗜好の整合に極めて効果的であることが証明されている。
典型的なRL法は、全体的なシーケンス報酬の下で最適化され、最適以下の学習プロセスにつながる可能性がある。
これは重要なクレジット割り当ての問題、すなわち、強化または抑制するトークンを特定することを反映している。
論文 参考訳(メタデータ) (2024-10-23T16:16:15Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Zero-Shot Sharpness-Aware Quantization for Pre-trained Language Models [88.80146574509195]
量子化は、メモリオーバーヘッドを減らし、推論を加速するための有望なアプローチである。
種々のPLMのゼロショット量子化のための新しい量子化(ZSAQ)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-20T07:09:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。