論文の概要: Mechanistically Interpreting the Role of Sample Difficulty in RLVR for LLMs
- arxiv url: http://arxiv.org/abs/2605.28388v1
- Date: Wed, 27 May 2026 12:25:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.041198
- Title: Mechanistically Interpreting the Role of Sample Difficulty in RLVR for LLMs
- Title(参考訳): LLM用RLVRにおけるサンプル難読化の役割の機械論的解釈
- Authors: Yue Cheng, Jiajun Zhang, Xiaohui Gao, Weiwei Xing, Zheng Wang, Zhanxing Zhu,
- Abstract要約: サンプルの難易度はRLVRに非単調な影響を及ぼすことがわかった。
ハードサンプル利用のための難易度適応戦略を提案する。
- 参考スコア(独自算出の注目度): 31.936873332676743
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning with Verifiable Reward (RLVR) is empirically shown to notably enhance the reasoning performance of large language models (LLMs), particularly in mathematics and programming. However, the mechanistic role of Sample Difficulty in RLVR remains poorly understood. In this paper, we investigate RLVR through the lens of difficulty-wise and one-sample analysis. We find that sample difficulty has a non-monotonic effect on RLVR: easy and medium-difficulty problems yield the strongest and most stable reasoning improvements, whereas overly hard problems often provide weak learning signals, induce degenerate behaviors such as answer repetition or skipping necessary computation, and can ultimately degrade the model's pre-existing capabilities. Beyond the obverse of response, we further analyze the model's internal feature dynamics using Temporal Sparse Autoencoders (T-SAE). Easy problems mainly reinforce direct-answer and basic-computation features while suppressing deliberative-reasoning features; hard problems activate reasoning-related features but become useful only when successful trajectories are sampled; medium-difficulty problems provide a more balanced signal, strengthening both computation and multi-step reasoning features. Motivated by these findings, we propose difficulty-adaptive strategies for hard-sample utilization, using backward-reasoning reformulation and T-SAE-guided training signals to improve reward density and credit assignment during RLVR. Overall, our results identify sample difficulty as a key factor governing both the optimization dynamics and representation evolution of RLVR.
- Abstract(参考訳): Reinforcement Learning with Verifiable Reward (RLVR)は、特に数学やプログラミングにおいて、大規模言語モデル(LLM)の推論性能を顕著に向上するために実証的に示されている。
しかし、RLVRにおけるサンプル難読化の役割はいまだに理解されていない。
本稿では,難易度及び一サンプル分析のレンズを用いたRLVRについて検討する。
サンプルの難易度はRLVRに非単調な効果があることがわかった: 簡単で中分散性な問題は最強かつ最も安定な推論改善をもたらすが、過度に難しい問題はしばしば弱い学習信号を提供し、解答の繰り返しや必要な計算をスキップするといった退化的振る舞いを誘導し、最終的にモデルの既存能力の低下を招きかねない。
応答の傍ら、テンポラルスパースオートエンコーダ(T-SAE)を用いてモデルの内部特徴ダイナミクスを解析する。
難しい問題は推論関連の特徴を活性化するが、軌道のサンプリングが成功した場合にのみ有用になる; 中微分問題はよりバランスの取れた信号を提供し、計算と多段階推論の両方を強化する。
これらの知見により,RLVRにおける報酬密度とクレジット割当を改善するために,後方共振変換とT-SAE誘導訓練信号を用いたハードサンプル利用の難易度適応戦略を提案する。
以上の結果から,RLVRの最適化力学と表現進化を両立させる重要な要因として,サンプルの難易度を同定した。
関連論文リスト
- The Unlearnability Phenomenon in RLVR for Language Models [30.820807192628052]
Reinforcement Learning with Verifiable Reward (RLVR) は,Large Language Model's (LLM) 推論能力の向上に有効であることが証明されている。
モデルが当初は苦労していた厳しい例の中で、正確なロールアウトが存在する場合でも、実質的なサブセットはリリース不能のままである。
論文 参考訳(メタデータ) (2026-05-16T03:43:19Z) - On the Learning Dynamics of RLVR at the Edge of Competence [86.52481827737097]
検証可能な報酬(RLVR)による強化学習は、大規模な推論モデルにおける最近のブレークスルーの主要な要因である。
コンポジション推論タスクにおける変圧器のRLのトレーニング力学の理論を開発する。
論文 参考訳(メタデータ) (2026-02-16T16:03:08Z) - ARES: Multimodal Adaptive Reasoning via Difficulty-Aware Token-Level Entropy Shaping [54.37497695483689]
本稿では,タスクの難易度に基づいて探索作業を動的に割り当てる適応推論のための統合フレームワークであるARESを提案する。
単一トークンエントロピーはノイズが多いが,高いウィンドウエントロピー(HWE)トークンは推論クリティカルな瞬間を確実に捉えることができる。
In the Adaptive Cold-Start stage, we curate multimodal and textual data paired with reasoning traces of length proportional to problem difficulty。
第2段階では,HWEトークンを探索トリガとする適応エントロピーポリシー最適化(AEPO)を開発する。
論文 参考訳(メタデータ) (2025-10-09T17:03:28Z) - Making Mathematical Reasoning Adaptive [61.45161826629692]
大規模言語モデル(LLM)における適応推論を実現するためのAdaRフレームワークを提案する。
AdaRは可変値によって論理的に等価なクエリを合成し、これらのデータに基づいてRLVRでモデルを訓練し、スプリアス論理をペナルライズする。
実験により, AdaRはロバスト性や一般化を向上し, 数学的推論の大幅な改善を実現していることが示された。
論文 参考訳(メタデータ) (2025-10-06T09:30:05Z) - VCRL: Variance-based Curriculum Reinforcement Learning for Large Language Models [7.350120815363245]
既存のロールアウト型強化学習手法では, 難易度が異なるサンプルに対して, LLMの学習能力を明示的に考慮することができない。
グループ報酬の分散に基づくトレーニングサンプルの難易度を動的に制御するカリキュラム強化学習フレームワークであるVCRLを提案する。
論文 参考訳(メタデータ) (2025-09-24T06:38:58Z) - Staying in the Sweet Spot: Responsive Reasoning Evolution via Capability-Adaptive Hint Scaffolding [59.60915947702282]
検証可能な報酬(RLVR)による強化学習は,大規模言語モデル(LLM)の推論能力の向上に成功している。
既存のRLVR手法は、訓練データの困難さとモデルの能力のミスマッチにより、探索の非効率に悩まされることが多い。
本稿では,高効率領域に留まることの難易度を動的に調整する新しい監視支援RLVRフレームワークであるSEELEを提案する。
論文 参考訳(メタデータ) (2025-09-08T17:36:21Z) - SwS: Self-aware Weakness-driven Problem Synthesis in Reinforcement Learning for LLM Reasoning [95.28059121743831]
RLVR(Reinforcement Learning with Verifiable Rewards)は、複雑な推論タスクにおいて、大規模言語モデル(LLM)のトレーニングに有効であることが証明されている。
本稿では、モデル欠陥を体系的に識別し、それらを問題解決に活用する自己認識弱さ駆動型問題合成フレームワーク(SwS)を提案する。
SwSはモデルを自己識別し、RLの弱点に対処することで堅牢な一般化を可能にし、7Bモデルと32Bモデルで平均パフォーマンスが10.0%と7.7%向上した。
論文 参考訳(メタデータ) (2025-06-10T17:02:00Z) - TACO: Think-Answer Consistency for Optimized Long-Chain Reasoning and Efficient Data Learning via Reinforcement Learning in LVLMs [50.820065021136024]
DeepSeek R1には、大規模言語モデル(LLM)のためのかなり高度な複雑な推論がある。
最近の手法は、R1の推論能力をマルチモーダルな設定で再現しようと試みている。
視覚推論のための新しい強化学習アルゴリズムTACOを提案する。
論文 参考訳(メタデータ) (2025-05-27T06:30:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。