論文の概要: When Is Compositional Reasoning Learnable from Verifiable Rewards?
- arxiv url: http://arxiv.org/abs/2602.07992v1
- Date: Sun, 08 Feb 2026 14:31:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.909233
- Title: When Is Compositional Reasoning Learnable from Verifiable Rewards?
- Title(参考訳): 構成推論はいつ、検証可能なリワードから学習できるのか?
- Authors: Daniel Barzilai, Yotam Wolf, Ronen Basri,
- Abstract要約: RLVRトレーニングにおける自己回帰モデルにおける構成問題の学習可能性について検討する。
RLVRでは,適切な中間段階が明確な優位性をもたらす構成上の問題が効率的に学習可能であることを示す。
負の面では、構造上の利点が存在しない場合、RLVRは準最適組成に収束する。
- 参考スコア(独自算出の注目度): 10.475998113861896
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The emergence of compositional reasoning in large language models through reinforcement learning with verifiable rewards (RLVR) has been a key driver of recent empirical successes. Despite this progress, it remains unclear which compositional problems are learnable in this setting using outcome-level feedback alone. In this work, we theoretically study the learnability of compositional problems in autoregressive models under RLVR training. We identify a quantity that we call the task-advantage ratio, a joint property of the compositional problem and the base model, that characterizes which tasks and compositions are learnable from outcome-level feedback. On the positive side, using this characterization, we show that compositional problems where correct intermediate steps provide a clear advantage are efficiently learnable with RLVR. We also analyze how such an advantage naturally arises in different problems. On the negative side, when the structural advantage is not present, RLVR may converge to suboptimal compositions. We prove that, in some cases, the quality of the base model determines if such an advantage exists and whether RLVR will converge to a suboptimal solution. We hope our analysis can provide a principled theoretical understanding of when and why RLVR succeeds and when it does not.
- Abstract(参考訳): 検証可能な報酬を伴う強化学習(RLVR)による大規模言語モデルにおける構成的推論の出現は、近年の実証的成功の鍵となる要因である。
このような進展にもかかわらず、この設定では、結果レベルのフィードバックだけで構成上の問題がどのように学習できるかは、いまだ不明である。
本研究では,RLVR学習下での自己回帰モデルにおける構成問題の学習可能性について理論的に検討する。
我々は,タスク・アドバンテージ比,構成問題の結合特性,基本モデルという,結果レベルのフィードバックからどのタスクや構成を学習できるかを特徴付ける量を特定する。
また, この特徴から, RLVRでは, 適切な中間段階が明確な優位性をもたらす構成上の問題を効率的に学習できることが示唆された。
また、このような利点が自然に異なる問題にどのように現れるかを分析する。
負の面では、構造上の利点が存在しない場合、RLVRは準最適組成に収束する。
いくつかのケースでは、ベースモデルの品質がそのような利点が存在するかどうか、RLVRが準最適解に収束するかどうかを決定する。
我々の分析は、RLVRがいつ、なぜ成功し、いつ成功しないのかを理論的に理解できることを願っている。
関連論文リスト
- Adaptive Ability Decomposing for Unlocking Large Reasoning Model Effective Reinforcement Learning [82.91265691530351]
A$2$Dは、検証可能な報酬による強化学習の有効性を高めるための適応能力分解手法である。
まず、蒸留なしでRLVRを介して分解器を訓練し、複雑な質問を単純なサブクエストの集合に分解する。
次に、このデコンパイラを使用して、トレーニングデータセットの各質問に対するサブクエストをアノテートし、サブクエストガイダンスを用いてRLVR下での推論をトレーニングする。
論文 参考訳(メタデータ) (2026-01-31T14:48:23Z) - Generalization of RLVR Using Causal Reasoning as a Testbed [20.97376329817835]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデルの訓練後において有望なパラダイムとして登場した。
本稿では,因果モデルに対する確率的推論の設定におけるRLVR一般化の実証的研究について述べる。
論文 参考訳(メタデータ) (2025-12-23T20:45:31Z) - Efficient Reinforcement Learning for Large Language Models with Intrinsic Exploration [33.02780998281276]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデルの推論能力を改善した。
本研究は,RLVRにおけるデータ効率の向上に本質的なデータ特性の活用,すなわちトレーニング中のほぼ自由な利益をいかに生かすかを検討する。
論文 参考訳(メタデータ) (2025-11-02T04:16:47Z) - Making Mathematical Reasoning Adaptive [61.45161826629692]
大規模言語モデル(LLM)における適応推論を実現するためのAdaRフレームワークを提案する。
AdaRは可変値によって論理的に等価なクエリを合成し、これらのデータに基づいてRLVRでモデルを訓練し、スプリアス論理をペナルライズする。
実験により, AdaRはロバスト性や一般化を向上し, 数学的推論の大幅な改善を実現していることが示された。
論文 参考訳(メタデータ) (2025-10-06T09:30:05Z) - SwS: Self-aware Weakness-driven Problem Synthesis in Reinforcement Learning for LLM Reasoning [95.28059121743831]
RLVR(Reinforcement Learning with Verifiable Rewards)は、複雑な推論タスクにおいて、大規模言語モデル(LLM)のトレーニングに有効であることが証明されている。
本稿では、モデル欠陥を体系的に識別し、それらを問題解決に活用する自己認識弱さ駆動型問題合成フレームワーク(SwS)を提案する。
SwSはモデルを自己識別し、RLの弱点に対処することで堅牢な一般化を可能にし、7Bモデルと32Bモデルで平均パフォーマンスが10.0%と7.7%向上した。
論文 参考訳(メタデータ) (2025-06-10T17:02:00Z) - Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? [66.61292196146016]
RLVR(Reinforcement Learning with Verifiable Rewards)は近年,大規模言語モデル(LLM)の推論性能の向上に成功している。
本研究はRLVRの現状を批判的に考察する。
現在のトレーニング設定では、根本的な新しい推論パターンが生まれていないことが分かりました。
論文 参考訳(メタデータ) (2025-04-18T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。