論文の概要: Generalization of RLVR Using Causal Reasoning as a Testbed
- arxiv url: http://arxiv.org/abs/2512.20760v1
- Date: Tue, 23 Dec 2025 20:45:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.59594
- Title: Generalization of RLVR Using Causal Reasoning as a Testbed
- Title(参考訳): 因果推論をテストベッドとしたRLVRの一般化
- Authors: Brian Lu, Hongyu Zhao, Shuo Sun, Hao Peng, Rui Ding, Hongyuan Mei,
- Abstract要約: 検証可能な報酬付き強化学習(RLVR)は、大規模言語モデルの訓練後において有望なパラダイムとして登場した。
本稿では,因果モデルに対する確率的推論の設定におけるRLVR一般化の実証的研究について述べる。
- 参考スコア(独自算出の注目度): 20.97376329817835
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) has emerged as a promising paradigm for post-training large language models (LLMs) on complex reasoning tasks. Yet, the conditions under which RLVR yields robust generalization remain poorly understood. This paper provides an empirical study of RLVR generalization in the setting of probabilistic inference over causal graphical models. This setting offers two natural axes along which to examine generalization: (i) the level of the probabilistic query -- associational, interventional, or counterfactual -- and (ii) the structural complexity of the query, measured by the size of its relevant subgraph. We construct datasets of causal graphs and queries spanning these difficulty axes and fine-tune Qwen-2.5-Instruct models using RLVR or supervised fine-tuning (SFT). We vary both the model scale (3B-32B) and the query level included in training. We find that RLVR yields stronger within-level and across-level generalization than SFT, but only for specific combinations of model size and training query level. Further analysis shows that RLVR's effectiveness depends on the model's initial reasoning competence. With sufficient initial competence, RLVR improves an LLM's marginalization strategy and reduces errors in intermediate probability calculations, producing substantial accuracy gains, particularly on more complex queries. These findings show that RLVR can improve specific causal reasoning subskills, with its benefits emerging only when the model has sufficient initial competence.
- Abstract(参考訳): 検証可能な報酬付き強化学習(RLVR)は、複雑な推論タスクにおいて、大規模言語モデル(LLM)を後学習する上で有望なパラダイムとして登場した。
しかし、RLVRが堅牢な一般化をもたらす条件はいまだに理解されていない。
本稿では,因果図形モデルに対する確率的推論の設定におけるRLVR一般化の実証的研究について述べる。
この設定は、一般化を調べるために2つの自然な軸を与える。
一 確率的照会のレベル --関係性、介入性、又は反事実性 -- 及び
(ii)関連する部分グラフのサイズによって測定されたクエリの構造的複雑さ。
本研究では,これらの難易度軸にまたがる因果グラフとクエリのデータセットを構築し,RLVRや教師付き微調整(SFT)を用いた細管Qwen-2.5-インストラクトモデルを構築した。
モデルスケール(3B-32B)と、トレーニングに含まれるクエリレベルの両方を変えます。
RLVR は SFT よりも内面および外面の一般化が強いが, モデルサイズと訓練クエリの特定の組み合わせに限られる。
さらなる分析により、RLVRの有効性はモデルの初期推論能力に依存することが示された。
十分な初期能力で、RLVRはLLMの限界化戦略を改善し、中間確率計算における誤差を低減し、特により複雑なクエリにおいてかなりの精度のゲインを生み出す。
以上の結果から,RLVRは特定の因果推論サブスキルを改善することができることが示唆された。
関連論文リスト
- Efficient Reinforcement Learning for Large Language Models with Intrinsic Exploration [33.02780998281276]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデルの推論能力を改善した。
本研究は,RLVRにおけるデータ効率の向上に本質的なデータ特性の活用,すなわちトレーニング中のほぼ自由な利益をいかに生かすかを検討する。
論文 参考訳(メタデータ) (2025-11-02T04:16:47Z) - Limits of Generalization in RLVR: Two Case Studies in Mathematical Reasoning [3.437656066916039]
Reinforcement with Verifiable Rewards (RLVR)は、そのような機能を強化するための有望なアプローチとして登場した。
完全検証解の2つの問題についてRLVRについて検討する。
RLVRは評価基準を改善するが、しばしば新たな推論戦略を得るよりも、表層学習指標を強化することで改善する。
論文 参考訳(メタデータ) (2025-10-30T23:16:02Z) - Making Mathematical Reasoning Adaptive [61.45161826629692]
大規模言語モデル(LLM)における適応推論を実現するためのAdaRフレームワークを提案する。
AdaRは可変値によって論理的に等価なクエリを合成し、これらのデータに基づいてRLVRでモデルを訓練し、スプリアス論理をペナルライズする。
実験により, AdaRはロバスト性や一般化を向上し, 数学的推論の大幅な改善を実現していることが示された。
論文 参考訳(メタデータ) (2025-10-06T09:30:05Z) - RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization [111.1749164063616]
大規模言語モデル(LLM)のための新しいハイブリッド政治最適化手法RL-PLUSを提案する。
RL-PLUSは、外部データと内部エクスプロイトを相乗化して、より強力な推論能力を達成し、ベースモデルのバウンダリを超える。
提案手法の優位性と一般化性を示すため,理論解析と広範な実験を行った。
論文 参考訳(メタデータ) (2025-07-31T23:55:29Z) - Reshaping Reasoning in LLMs: A Theoretical Analysis of RL Training Dynamics through Pattern Selection [35.268183415853976]
本稿では,実験解析と厳密な理論的モデリングによるRL学習プロセスの説明を行う。
我々は、報酬(RLVR)とモデルの内部フィードバック(RLIF)という2つの典型的な報酬を用いて、RLのトレーニングダイナミクスを理解するための理論的枠組みを開発する。
論文 参考訳(メタデータ) (2025-06-05T07:17:04Z) - Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? [66.61292196146016]
RLVR(Reinforcement Learning with Verifiable Rewards)は近年,大規模言語モデル(LLM)の推論性能の向上に成功している。
本研究はRLVRの現状を批判的に考察する。
現在のトレーニング設定では、根本的な新しい推論パターンが生まれていないことが分かりました。
論文 参考訳(メタデータ) (2025-04-18T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。