論文の概要: Limits of Generalization in RLVR: Two Case Studies in Mathematical Reasoning
- arxiv url: http://arxiv.org/abs/2510.27044v1
- Date: Thu, 30 Oct 2025 23:16:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 19:57:09.738027
- Title: Limits of Generalization in RLVR: Two Case Studies in Mathematical Reasoning
- Title(参考訳): RLVRにおける一般化の限界:数学的推論における2つの事例
- Authors: Md Tanvirul Alam, Nidhi Rastogi,
- Abstract要約: Reinforcement with Verifiable Rewards (RLVR)は、そのような機能を強化するための有望なアプローチとして登場した。
完全検証解の2つの問題についてRLVRについて検討する。
RLVRは評価基準を改善するが、しばしば新たな推論戦略を得るよりも、表層学習指標を強化することで改善する。
- 参考スコア(独自算出の注目度): 3.437656066916039
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Mathematical reasoning is a central challenge for large language models (LLMs), requiring not only correct answers but also faithful reasoning processes. Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as a promising approach for enhancing such capabilities; however, its ability to foster genuine reasoning remains unclear. We investigate RLVR on two combinatorial problems with fully verifiable solutions: \emph{Activity Scheduling} and the \emph{Longest Increasing Subsequence}, using carefully curated datasets with unique optima. Across multiple reward designs, we find that RLVR improves evaluation metrics but often by reinforcing superficial heuristics rather than acquiring new reasoning strategies. These findings highlight the limits of RLVR generalization, emphasizing the importance of benchmarks that disentangle genuine mathematical reasoning from shortcut exploitation and provide faithful measures of progress. Code available at https://github.com/xashru/rlvr-seq-generalization.
- Abstract(参考訳): 数学的推論は、大きな言語モデル(LLM)において中心的な課題であり、正しい答えだけでなく、忠実な推論プロセスも必要である。
RLVR(Reinforcement Learning with Verifiable Rewards)は、そのような能力を高めるための有望なアプローチとして登場したが、真の推論を育む能力は未だ不明である。
本稿では,完全検証可能な2つの組合せ問題である \emph{Activity Scheduling} と \emph{Longest Increasing Subsequence} について検討する。
複数の報酬設計において、RLVRは評価基準を改善するが、しばしば新しい推論戦略を得るよりも表面的ヒューリスティックを補強することで改善する。
これらの知見は、RLVRの一般化の限界を強調し、真の数学的推論をショートカットの活用から切り離し、進歩の忠実な尺度を提供するベンチマークの重要性を強調した。
コードはhttps://github.com/xashru/rlvr-seq- generalizationで公開されている。
関連論文リスト
- The Reasoning Boundary Paradox: How Reinforcement Learning Constrains Language Models [31.773914661815393]
RLVR(Reinforcement Learning with Verifiable Rewards)は,大規模言語モデルの推論能力向上のための重要な手法である。
最近の証拠は、拡張するのではなく、パラドックス的に推論境界を縮小する可能性があることを示唆している。
本稿では,RLVRの学習力学を解析することにより,RLVRの縮小問題を考察する。
論文 参考訳(メタデータ) (2025-10-02T17:17:27Z) - CDE: Curiosity-Driven Exploration for Efficient Reinforcement Learning in Large Language Models [85.315711639214]
モデル固有の好奇心を利用して探索をガイドするフレームワークであるCuriosity-Driven Exploration (CDE)を紹介した。
アクターに対しては、生成された応答に対してパープレキシティを使用し、批判に対しては、マルチヘッドアーキテクチャからの値推定のばらつきを利用する。
理論的分析により,アクターのボーナスは本質的に過度に信頼された誤りを罰し,正しい反応の多様性を促進することが示唆された。
論文 参考訳(メタデータ) (2025-09-11T17:59:17Z) - The Invisible Leash: Why RLVR May or May Not Escape Its Origin [47.488691410579925]
RLVRの現在の実践がモデルの推論境界を真に拡張するかどうかは不明である。
現在の訓練条件下では、RLVRはサポート制約付き最適化メカニズムとして動作することができる。
RLVRは精度を確実に向上させるが、探索は徐々に狭くなり、正しく表現されていない解を見落としてしまう可能性がある。
論文 参考訳(メタデータ) (2025-07-20T07:04:08Z) - RLPR: Extrapolating RLVR to General Domains without Verifiers [103.14103272635893]
本稿では,RLVRを汎用ドメインに外挿するシンプルな検証不要なフレームワークであるRLPRを提案する。
このノイズの多い確率報酬の高分散に対処することが、それを機能させるためには不可欠である。
RLPRはGemma、Llama、Qwenベースのモデルの両方の領域における推論機能の改善を一貫して行っている。
論文 参考訳(メタデータ) (2025-06-23T02:56:36Z) - Reinforcement Learning with Verifiable Rewards Implicitly Incentivizes Correct Reasoning in Base LLMs [35.27561531876348]
本稿では,LLVRを用いた強化学習が大規模言語モデル(LLM)に及ぼす影響を体系的に検討する。
RLVRは数学的タスクとコーディングタスクの両方の推論境界を拡張可能であることを示す。
本稿では,RLVRのインセンティブメカニズムを説明する理論的枠組みについて述べる。
論文 参考訳(メタデータ) (2025-06-17T07:06:56Z) - Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? [66.61292196146016]
RLVR(Reinforcement Learning with Verifiable Rewards)は近年,大規模言語モデル(LLM)の推論性能の向上に成功している。
本研究はRLVRの現状を批判的に考察する。
現在のトレーニング設定では、根本的な新しい推論パターンが生まれていないことが分かりました。
論文 参考訳(メタデータ) (2025-04-18T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。