論文の概要: The Invisible Leash: Why RLVR May Not Escape Its Origin
- arxiv url: http://arxiv.org/abs/2507.14843v1
- Date: Sun, 20 Jul 2025 07:04:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.085287
- Title: The Invisible Leash: Why RLVR May Not Escape Its Origin
- Title(参考訳): RLVRはなぜ起源を隠さないのか?
- Authors: Fang Wu, Weihao Xuan, Ximing Lu, Zaid Harchaoui, Yejin Choi,
- Abstract要約: 大規模推論モデルの最近の進歩は、AI能力を向上するための有望な方法として、Reinforcement Learning with Verifiable Rewards(RLVR)を強調している。
本研究は,RLVRの潜在的な限界に対する新たな洞察を提供する理論的,実証的研究である。
エントロピー・リワードのトレードオフは、RLVRが精度を確実に向上させる一方で、探索が徐々に狭くなり、正しく表現されていない解を見落としてしまう可能性がある。
- 参考スコア(独自算出の注目度): 48.915013455847856
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large reasoning models highlight Reinforcement Learning with Verifiable Rewards (RLVR) as a promising method for enhancing AI's capabilities, particularly in solving complex logical tasks. However, it remains unclear whether RLVR truly expands a model's reasoning boundary or merely amplifies high-reward outputs that the base model already knows for improved precision. This study presents a theoretical and empirical investigation that provides fresh insights into the potential limits of RLVR. First, we offer a new theoretical perspective that RLVR is constrained by the base model's support-unable to sample solutions with zero initial probability-and operates as a conservative reweighting mechanism that may restrict the discovery of entirely original solutions. We also identify an entropy-reward tradeoff: while RLVR reliably enhances precision, it may progressively narrow exploration and potentially overlook correct yet underrepresented solutions. Extensive empirical experiments validate that while RLVR consistently improves pass@1, the shrinkage of empirical support generally outweighs the expansion of empirical support under larger sampling budgets, failing to recover correct answers that were previously accessible to the base model. Interestingly, we also observe that while RLVR sometimes increases token-level entropy, resulting in greater uncertainty at each generation step, answer-level entropy declines, indicating that these seemingly more uncertain paths ultimately converge onto a smaller set of distinct answers. Taken together, these findings reveal potential limits of RLVR in extending reasoning horizons. Breaking this invisible leash may require future algorithmic innovations such as explicit exploration mechanisms or hybrid strategies that seed probability mass into underrepresented solution regions.
- Abstract(参考訳): 大規模推論モデルの最近の進歩は、AI能力、特に複雑な論理的タスクを解くための有望な方法として、Reinforcement Learning with Verifiable Rewards(RLVR)を強調している。
しかし、RLVRがモデルの推論境界を真に拡張するか、あるいはベースモデルが既に精度の向上のために知っている高逆出力を単に増幅するかは、まだ不明である。
本研究は,RLVRの潜在的な限界に対する新たな洞察を提供する理論的,実証的研究である。
まず、RLVRは、初期確率ゼロのサンプル解に対して、ベースモデルのサポート不能により制約され、完全に元の解の発見を制限する保守的な再重み付け機構として機能する、という新しい理論的視点を提供する。
RLVRは精度を確実に向上させるが、徐々に探究が狭くなり、正しく表現されていない解を見落としてしまう可能性がある。
大規模な実証実験では、RLVRはパス@1を一貫して改善するが、経験的サポートの縮小は、より大きなサンプリング予算の下での経験的サポートの拡大を上回り、これまでベースモデルでアクセス可能であった正しい回答の回復に失敗する。
興味深いことに、RLVRは時々トークンレベルのエントロピーを増大させ、それぞれの生成ステップにおいて大きな不確実性をもたらすが、回答レベルのエントロピーは減少し、これらより不確実な経路が最終的により小さな解の集合に収束することを示す。
これらの知見を総合すると、推論の地平線を延ばす際のRLVRの潜在的な限界が明らかになる。
この目に見えない鎖を破るには、明示的な探索機構や、未表現の解領域に確率質量をシードするハイブリッド戦略のような、将来のアルゴリズム的な革新が必要になるかもしれない。
関連論文リスト
- RLPR: Extrapolating RLVR to General Domains without Verifiers [103.14103272635893]
本稿では,RLVRを汎用ドメインに外挿するシンプルな検証不要なフレームワークであるRLPRを提案する。
このノイズの多い確率報酬の高分散に対処することが、それを機能させるためには不可欠である。
RLPRはGemma、Llama、Qwenベースのモデルの両方の領域における推論機能の改善を一貫して行っている。
論文 参考訳(メタデータ) (2025-06-23T02:56:36Z) - Reinforcement Learning with Verifiable Rewards Implicitly Incentivizes Correct Reasoning in Base LLMs [32.99709073885827]
RLVR(Reinforcement Learning with Verifiable Rewards)は,Large Language Models(LLM)の推論能力向上のための,有望なパラダイムとして登場した。
しかしながら、RLVRで調整されたモデルは、ソリューションフィリングのための$Pass@K$メトリックでベースモデルよりもパフォーマンスが低いことが多い。
より正確な評価基準である$CoT$-$Pass@K$を導入する。
論文 参考訳(メタデータ) (2025-06-17T07:06:56Z) - On the Mechanism of Reasoning Pattern Selection in Reinforcement Learning for Language Models [17.36077163968198]
検証リワード(RLVR)を用いた強化学習の体系的研究について述べる。
RLVR学習モデルでは,高精度推論パターンが優先的に採用されている。
我々はRLVRの収束とトレーニングのダイナミクスに関する理論的解析を開発する。
論文 参考訳(メタデータ) (2025-06-05T07:17:04Z) - Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? [67.30809748319486]
RLVR(Reinforcement Learning with Verifiable Rewards)は近年,大規模言語モデル(LLM)の推論性能の向上に成功している。
本研究はRLVRの現状を批判的に考察する。
現在のトレーニング設定では、根本的な新しい推論パターンが生まれていないことが分かりました。
論文 参考訳(メタデータ) (2025-04-18T17:59:56Z) - Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains [92.36624674516553]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の数学的推論と符号化性能の向上に成功している。
本稿では,医学,化学,心理学,経済学,教育など,さまざまな現実世界領域におけるRLVRの有効性と拡張性について検討する。
我々は,2値検証による制限を克服するために,ソフトなモデルに基づく報酬信号を生成する生成的スコアリング手法を利用する。
論文 参考訳(メタデータ) (2025-03-31T08:22:49Z) - Med-RLVR: Emerging Medical Reasoning from a 3B base model via reinforcement Learning [19.064630697040055]
検証可能な報酬 (RLVR) からの強化学習は, 明確な推論監督なしに, ベース言語モデルから自己進化推論を引き出す能力に注目が集まっている。
医療領域におけるRLVRの初期研究として,MCQA(Med-RLVR)データを検証ラベルとして活用したMed-RLVRを紹介した。
以上の結果から,RLVRは数学やコーディングに有効であるだけでなく,医学的質問応答にも有効であることが示された。
論文 参考訳(メタデータ) (2025-02-27T00:54:38Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - Principled Knowledge Extrapolation with GANs [92.62635018136476]
我々は,知識外挿の新たな視点から,対実合成を研究する。
本稿では, 知識外挿問題に対処するために, クローズド形式判別器を用いた対角ゲームが利用可能であることを示す。
提案手法は,多くのシナリオにおいて,エレガントな理論的保証と優れた性能の両方を享受する。
論文 参考訳(メタデータ) (2022-05-21T08:39:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。