論文の概要: The Unlearnability Phenomenon in RLVR for Language Models
- arxiv url: http://arxiv.org/abs/2605.16787v1
- Date: Sat, 16 May 2026 03:43:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 23:51:08.336882
- Title: The Unlearnability Phenomenon in RLVR for Language Models
- Title(参考訳): 言語モデルのためのRLVRにおける非学習性現象
- Authors: Yulin Chen, He He, Chen Zhao,
- Abstract要約: Reinforcement Learning with Verifiable Reward (RLVR) は,Large Language Model's (LLM) 推論能力の向上に有効であることが証明されている。
モデルが当初は苦労していた厳しい例の中で、正確なロールアウトが存在する場合でも、実質的なサブセットはリリース不能のままである。
- 参考スコア(独自算出の注目度): 30.820807192628052
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning with Verifiable Reward (RLVR) has proven effective in improving Large Language Model's (LLM) reasoning ability. However, the learning dynamics of RLVR remain underexplored. In this paper, we reveal a counterintuitive phenomenon: among hard examples that the model initially struggles with, a substantial subset remains unlearnable even when correct rollouts are present. To understand the phenomenon, we first demonstrate that existing optimization and sampling techniques fail to resolve unlearnability. With cross-example gradient analysis, we show that unlearnable examples have fundamental representation issue, characterized by low gradient similarity with the rest of the examples and ungeneralizable reasoning patterns. We further show that representation flaws are difficult to mitigate in RL, as data augmentation does not improve gradient similarity. Our study provides the first systematic characterization of unlearnable data in RLVR training and reveals fundamental limitations in current RL approaches for reasoning tasks. Code and data are available at \url{https://github.com/yulinchen99/unlearnability-rlvr}.
- Abstract(参考訳): Reinforcement Learning with Verifiable Reward (RLVR) は,Large Language Model's (LLM) 推論能力の向上に有効であることが証明されている。
しかし、RLVRの学習力学はいまだ解明されていない。
本稿では,モデルが当初は苦戦していた厳しい例の中で,正確なロールアウトが存在する場合でも,実質的なサブセットは未学習のままである,という反直観的現象を明らかにする。
この現象を理解するために、我々はまず既存の最適化とサンプリング技術が未解決の解決に失敗することを実証した。
クロスサンプル勾配解析により、学習不可能な例は、他の例と低勾配の類似性や一般化不可能な推論パターンを特徴とする、基本的な表現問題を持つことを示した。
さらに、データの増大は勾配類似性を改善することができないため、表現欠陥をRLで緩和することは困難であることを示す。
本研究は、RLVRトレーニングにおける学習不可能なデータの体系的特徴を初めて提供し、推論タスクに対する現在のRLアプローチの基本的な制限を明らかにする。
コードとデータは \url{https://github.com/yulinchen99/unlearnability-rlvr} で公開されている。
関連論文リスト
- On the Implicit Reward Overfitting and the Low-rank Dynamics in RLVR [51.935533482549545]
RLVRはトレーニングデータセットに過度に適合する暗黙の報酬を示す可能性がある。
モデルは、トレーニングプロセス中に報酬が比較的低いままであっても、テストセット上で満足なパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2026-05-07T16:30:28Z) - On the Learning Dynamics of RLVR at the Edge of Competence [86.52481827737097]
検証可能な報酬(RLVR)による強化学習は、大規模な推論モデルにおける最近のブレークスルーの主要な要因である。
コンポジション推論タスクにおける変圧器のRLのトレーニング力学の理論を開発する。
論文 参考訳(メタデータ) (2026-02-16T16:03:08Z) - Adaptive Ability Decomposing for Unlocking Large Reasoning Model Effective Reinforcement Learning [82.91265691530351]
A$2$Dは、検証可能な報酬による強化学習の有効性を高めるための適応能力分解手法である。
まず、蒸留なしでRLVRを介して分解器を訓練し、複雑な質問を単純なサブクエストの集合に分解する。
次に、このデコンパイラを使用して、トレーニングデータセットの各質問に対するサブクエストをアノテートし、サブクエストガイダンスを用いてRLVR下での推論をトレーニングする。
論文 参考訳(メタデータ) (2026-01-31T14:48:23Z) - When Sharpening Becomes Collapse: Sampling Bias and Semantic Coupling in RL with Verifiable Rewards [20.896576101848655]
本稿では,既存の知識を応用した強化学習が,新たな能力を引き出すのか,それとも単に知識の分布を絞るだけなのかを考察する。
本稿では,メモリネットワークを介したサンプリングの多様化を図るために,難解なクエリと分散レベルのキャリブレーションを優先する逆サクセス・アドバンス・キャリブレーションを提案する。
論文 参考訳(メタデータ) (2026-01-22T03:15:57Z) - Efficient Reinforcement Learning for Large Language Models with Intrinsic Exploration [33.02780998281276]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデルの推論能力を改善した。
本研究は,RLVRにおけるデータ効率の向上に本質的なデータ特性の活用,すなわちトレーニング中のほぼ自由な利益をいかに生かすかを検討する。
論文 参考訳(メタデータ) (2025-11-02T04:16:47Z) - The Reasoning Boundary Paradox: How Reinforcement Learning Constrains Language Models [31.773914661815393]
RLVR(Reinforcement Learning with Verifiable Rewards)は,大規模言語モデルの推論能力向上のための重要な手法である。
最近の証拠は、拡張するのではなく、パラドックス的に推論境界を縮小する可能性があることを示唆している。
本稿では,RLVRの学習力学を解析することにより,RLVRの縮小問題を考察する。
論文 参考訳(メタデータ) (2025-10-02T17:17:27Z) - Functional Scaling Laws in Kernel Regression: Loss Dynamics and Learning Rate Schedules [9.332823269318842]
スケーリング法則は、大きな言語モデルのトレーニングを理解し、導くための統一レンズとして登場した。
我々は任意のLSSの下で全損失軌跡を捕捉する機能スケーリング法を確立した。
データ制限と計算制限の両方で明示的なスケーリング関係を導出する。
論文 参考訳(メタデータ) (2025-09-23T16:05:16Z) - Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? [66.61292196146016]
RLVR(Reinforcement Learning with Verifiable Rewards)は近年,大規模言語モデル(LLM)の推論性能の向上に成功している。
本研究はRLVRの現状を批判的に考察する。
現在のトレーニング設定では、根本的な新しい推論パターンが生まれていないことが分かりました。
論文 参考訳(メタデータ) (2025-04-18T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。