論文の概要: When Sharpening Becomes Collapse: Sampling Bias and Semantic Coupling in RL with Verifiable Rewards
- arxiv url: http://arxiv.org/abs/2601.15609v1
- Date: Thu, 22 Jan 2026 03:15:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.479746
- Title: When Sharpening Becomes Collapse: Sampling Bias and Semantic Coupling in RL with Verifiable Rewards
- Title(参考訳): シャープニングが崩壊する時 - RLにおけるバイアスとセマンティックカップリングのサンプリングと検証可能なリワード
- Authors: Mingyuan Fan, Weiguang Han, Daixin Wang, Cen Chen, Zhiqiang Zhang, Jun Zhou,
- Abstract要約: 本稿では,既存の知識を応用した強化学習が,新たな能力を引き出すのか,それとも単に知識の分布を絞るだけなのかを考察する。
本稿では,メモリネットワークを介したサンプリングの多様化を図るために,難解なクエリと分散レベルのキャリブレーションを優先する逆サクセス・アドバンス・キャリブレーションを提案する。
- 参考スコア(独自算出の注目度): 20.896576101848655
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) is a central paradigm for turning large language models (LLMs) into reliable problem solvers, especially in logic-heavy domains. Despite its empirical success, it remains unclear whether RLVR elicits novel capabilities or merely sharpens the distribution over existing knowledge. We study this by formalizing over-sharpening, a phenomenon where the policy collapses onto limited modes, suppressing valid alternatives. At a high level, we discover finite-batch updates intrinsically bias learning toward sampled modes, triggering a collapse that propagates globally via semantic coupling. To mitigate this, we propose inverse-success advantage calibration to prioritize difficult queries and distribution-level calibration to diversify sampling via a memory network. Empirical evaluations validate that our strategies can effectively improve generalization.
- Abstract(参考訳): Reinforcement Learning with Verifiable Rewards (RLVR)は、大規模言語モデル(LLM)を信頼性の高い問題解決、特に論理量の多い領域に変換するための中心的なパラダイムである。
実証的な成功にもかかわらず、RLVRが新しい能力を引き出すのか、それとも単に既存の知識よりも分布を絞るだけなのかは、まだ不明である。
我々は、政策が限定的なモードに崩壊する現象であるオーバーシャーペニングを形式化し、有効な選択肢を抑えることでこれを研究する。
高いレベルでは、有限バッチ更新が本質的にサンプリングモードに偏り、意味的結合によって世界中に伝播する崩壊を引き起こす。
これを軽減するために,難解なクエリと分散レベルのキャリブレーションを優先し,メモリネットワークを介してサンプリングを多様化する逆サクセス・アドバンス・キャリブレーションを提案する。
実証的な評価は、我々の戦略が一般化を効果的に改善できることを示す。
関連論文リスト
- Rewarding the Rare: Uniqueness-Aware RL for Creative Problem Solving in LLMs [126.45104018441698]
強化学習(RL)は、大規模言語モデル(LLM)の訓練後の中心パラダイムとなっている。
この失敗は、解の集合の多様性よりもむしろ局所的なトークンの振る舞いを規則化することに起因すると我々は主張する。
我々は,まれなハイレベル戦略を示す正しいソリューションを明示的に報酬する,ロールアウトレベルの目標であるUniqueness-Aware Reinforcement Learningを提案する。
論文 参考訳(メタデータ) (2026-01-13T17:48:43Z) - Offline Meta-Reinforcement Learning with Flow-Based Task Inference and Adaptive Correction of Feature Overgeneralization [12.107082786676907]
オフラインメタ強化学習(OMRL)は、オフラインRLにおける多様なデータセットからの学習の強みと、メタRLの新しいタスクへの適応性を組み合わせる。
既存の研究では、$Q$ネットワークの一般化がオフラインRLにおける外挿誤差に影響を与えることが示されている。
特徴分布をモデル化し,不確かさを推定することでOODサンプルを同定するFLORAを提案する。
論文 参考訳(メタデータ) (2026-01-12T03:16:07Z) - Calibrated Multimodal Representation Learning with Missing Modalities [100.55774771852468]
マルチモーダル表現学習は、それらを統一潜在空間に整列させることにより、異なるモダリティを調和させる。
最近の研究は、従来のクロスモーダルアライメントを一般化して、強化されたマルチモーダル・シナジーを生成するが、すべてのモダリティを共通の例に含める必要がある。
我々は、アンカーシフトの観点から、この問題に関する理論的洞察を提供する。
モーダルの欠如に起因する不完全なアライメントを校正するために,マルチモーダル表現学習のためのCalMRLを提案する。
論文 参考訳(メタデータ) (2025-11-15T05:01:43Z) - Beyond Reasoning Gains: Mitigating General Capabilities Forgetting in Large Reasoning Models [33.214586668992965]
検証可能な報酬(RLVR)による強化学習は、数学的およびマルチモーダル推論において驚くべき成果を上げている。
汎用知識のための動的客観的リウェイトを用いたRECAP-aリプレイ戦略を提案する。
本手法はエンド・ツー・エンドであり,既存のRLVRパイプラインに適用可能である。
論文 参考訳(メタデータ) (2025-10-24T19:08:48Z) - The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward [57.56453588632619]
Reinforcement Learning with Verifiable Reward (RLVR) を用いた細調整大型言語モデル(LLM)における中心的パラドックスは、多目的性能の頻繁な劣化である。
これはしばしば破滅的な忘れが伴い、モデルが以前獲得したスキルを失う。
我々は,標準RLVR目標には知識保持のための重要なメカニズムが欠如していると主張している。
論文 参考訳(メタデータ) (2025-09-09T06:34:32Z) - Risk Minimization from Adaptively Collected Data: Guarantees for
Supervised and Policy Learning [57.88785630755165]
経験的リスク最小化(Empirical Risk Minimization, ERM)は、機械学習のワークホースであるが、適応的に収集されたデータを使用すると、そのモデルに依存しない保証が失敗する可能性がある。
本研究では,仮説クラス上での損失関数の平均値を最小限に抑えるため,適応的に収集したデータを用いた一般的な重み付きERMアルゴリズムについて検討する。
政策学習では、探索がゼロになるたびに既存の文献のオープンギャップを埋める率-最適後悔保証を提供する。
論文 参考訳(メタデータ) (2021-06-03T09:50:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。