論文の概要: Spurious Rewards Paradox: Mechanistically Understanding How RLVR Activates Memorization Shortcuts in LLMs
- arxiv url: http://arxiv.org/abs/2601.11061v1
- Date: Fri, 16 Jan 2026 07:55:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.399424
- Title: Spurious Rewards Paradox: Mechanistically Understanding How RLVR Activates Memorization Shortcuts in LLMs
- Title(参考訳): RLVRがLLMの覚醒ショートカットをどのように活性化するかを機械的に理解する「Spurious Rewards Paradox」
- Authors: Lecheng Yan, Ruizhe Li, Guanhua Chen, Qing Li, Jiahui Geng, Wenxi Li, Vincent Wang, Chris Lee,
- Abstract要約: 最近の証拠は、Qwen 2.5のようなモデルは、急激な報酬や誤った報酬でも大きな利益を得られることを示している。
突発的なRLVRは、解答の難易度が低下し、プロンプト側コヒーレンスが低下する分岐を引き起こす。
我々はこのショートカットを容易にするアンカー・アダプタ回路を隠蔽した。
- 参考スコア(独自算出の注目度): 16.74831908818562
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) is highly effective for enhancing LLM reasoning, yet recent evidence shows models like Qwen 2.5 achieve significant gains even with spurious or incorrect rewards. We investigate this phenomenon and identify a "Perplexity Paradox": spurious RLVR triggers a divergence where answer-token perplexity drops while prompt-side coherence degrades, suggesting the model is bypassing reasoning in favor of memorization. Using Path Patching, Logit Lens, JSD analysis, and Neural Differential Equations, we uncover a hidden Anchor-Adapter circuit that facilitates this shortcut. We localize a Functional Anchor in the middle layers (L18-20) that triggers the retrieval of memorized solutions, followed by Structural Adapters in later layers (L21+) that transform representations to accommodate the shortcut signal. Finally, we demonstrate that scaling specific MLP keys within this circuit allows for bidirectional causal steering-artificially amplifying or suppressing contamination-driven performance. Our results provide a mechanistic roadmap for identifying and mitigating data contamination in RLVR-tuned models. Code is available at https://github.com/idwts/How-RLVR-Activates-Memorization-Shortcuts.
- Abstract(参考訳): RLVR(Reinforcement Learning with Verifiable Rewards)は、LLM推論の強化に非常に効果的であるが、最近の証拠は、Qwen 2.5のようなモデルが、刺激的あるいは誤った報酬であっても、大きな利益を得られることを示している。
突発性RLVRは解答・解答・解答・解答・解答・解答・解答・解答・解答・解答・解答・解答・解答・解答・解答・解答・解答・解答・解答・解答・解答・解答・解答・解答・解答・解答・解答・解答・解答・解答・解答・解答・解答・解答・解答・解答・解答・解答・解答解・解解答・解答・解答・解解答・解答・解答・解答・解答・解解解解解・解解解解・解解解解・解解解解解・解解解解解・解解解解解解・解解解解・解解解
Path Patching, Logit Lens, JSD Analysis, Neural Differential Equations を用いて, このショートカットを容易にする隠れアンカー・アダプタ回路を明らかにする。
中層(L18-20)に関数アンカーをローカライズし,次いで後層(L21+)に構造適応器を配置し,ショートカット信号に対応する。
最後に、この回路内で特定のMPPキーをスケーリングすることで、双方向因果操舵が汚染駆動性能を増幅または抑制できることを実証する。
この結果から,RLVR設計モデルにおけるデータ汚染の同定と緩和のためのメカニスティックなロードマップが得られた。
コードはhttps://github.com/idwts/How-RLVR-Activates-Memorization-Shortcutsで入手できる。
関連論文リスト
- Boosting Reasoning in Large Multimodal Models via Activation Replay [136.6522463570943]
RLVRは低エントロピーの活性化を予期せずシフトさせるが、高エントロピーの活性化は影響を受けないことを示す。
本稿では,学習後LMMのマルチモーダル推論を促進するトレーニングフリーアプローチであるActivation Replayを提案する。
論文 参考訳(メタデータ) (2025-11-25T06:31:57Z) - The Path Not Taken: RLVR Provably Learns Off the Principals [85.41043469428365]
スパーシティはモデル条件の最適化バイアスの表面積であることを示す。
我々はこれらの力学を三ゲージ理論で機械的に説明する。
本稿では,RLVRの学習力学のパラメータレベルの特徴付けを行う。
論文 参考訳(メタデータ) (2025-11-11T18:49:45Z) - Limits of Generalization in RLVR: Two Case Studies in Mathematical Reasoning [3.437656066916039]
Reinforcement with Verifiable Rewards (RLVR)は、そのような機能を強化するための有望なアプローチとして登場した。
完全検証解の2つの問題についてRLVRについて検討する。
RLVRは評価基準を改善するが、しばしば新たな推論戦略を得るよりも、表層学習指標を強化することで改善する。
論文 参考訳(メタデータ) (2025-10-30T23:16:02Z) - The Reasoning Boundary Paradox: How Reinforcement Learning Constrains Language Models [31.773914661815393]
RLVR(Reinforcement Learning with Verifiable Rewards)は,大規模言語モデルの推論能力向上のための重要な手法である。
最近の証拠は、拡張するのではなく、パラドックス的に推論境界を縮小する可能性があることを示唆している。
本稿では,RLVRの学習力学を解析することにより,RLVRの縮小問題を考察する。
論文 参考訳(メタデータ) (2025-10-02T17:17:27Z) - CDE: Curiosity-Driven Exploration for Efficient Reinforcement Learning in Large Language Models [85.315711639214]
モデル固有の好奇心を利用して探索をガイドするフレームワークであるCuriosity-Driven Exploration (CDE)を紹介した。
アクターに対しては、生成された応答に対してパープレキシティを使用し、批判に対しては、マルチヘッドアーキテクチャからの値推定のばらつきを利用する。
理論的分析により,アクターのボーナスは本質的に過度に信頼された誤りを罰し,正しい反応の多様性を促進することが示唆された。
論文 参考訳(メタデータ) (2025-09-11T17:59:17Z) - The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward [57.56453588632619]
Reinforcement Learning with Verifiable Reward (RLVR) を用いた細調整大型言語モデル(LLM)における中心的パラドックスは、多目的性能の頻繁な劣化である。
これはしばしば破滅的な忘れが伴い、モデルが以前獲得したスキルを失う。
我々は,標準RLVR目標には知識保持のための重要なメカニズムが欠如していると主張している。
論文 参考訳(メタデータ) (2025-09-09T06:34:32Z) - Stabilizing Knowledge, Promoting Reasoning: Dual-Token Constraints for RLVR [28.888781530351395]
本稿では,マルチトークン制約と同期更新を備えたエントロピー対応RLVRアプローチであるArcherを提案する。
いくつかの数学的推論およびコード生成ベンチマークの実験結果から,本手法が従来のRLVR法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2025-07-21T16:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。