論文の概要: Reasoning Depth and Environment Complexity: A Controlled Study of RLVR Data Allocation across Logical Reasoning Tasks
- arxiv url: http://arxiv.org/abs/2605.26934v1
- Date: Tue, 26 May 2026 12:28:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:42.081188
- Title: Reasoning Depth and Environment Complexity: A Controlled Study of RLVR Data Allocation across Logical Reasoning Tasks
- Title(参考訳): 推論深さと環境複雑性:論理的推論課題におけるRLVRデータ配置の制御に関する研究
- Authors: Yihua Zhu, Qianying Liu, Fei Cheng, Jiaxin Wang, Akiko Aizawa, Sadao Kurohashi, Hidetoshi Shimodaira,
- Abstract要約: 検証可能な報酬(RLVR)による強化学習は、訓練後の推論モデルの中心となっている。
我々は2次元の推論空間を特徴づける。
実世界の推論の核となる4つの能力について考察する: 帰納的状態追跡、隠された事象や事実の帰納的回復、帰納的規則誘導、類推的伝達である。
- 参考スコア(独自算出の注目度): 43.28656684175735
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) has become central to post-training reasoning models, yet a key limitation of existing studies is their narrow view of the reasoning space: difficulty is treated as reasoning depth alone, and reward is concentrated on forward deductive state tracking. We instead characterize the reasoning space along two dimensions. Difficulty. Beyond reasoning depth, we study environment complexity, where models must identify the correct path amid distractors and interacting structures. Rewarded reasoning form. We consider four abilities core to real-world reasoning: deductive state tracking, abductive recovery of hidden events or facts, inductive rule induction, and analogical transfer. To disentangle these factors, we construct a synthetic knowledge-graph environment with controlled pre- and post-training distributions, where each instance varies along depth, complexity, and task family. Three findings emerge: joint depth-complexity coverage outperforms single-axis recipes; reasoning families respond non-uniformly, with abductive reasoning degrading outside the RL-covered region and task correlations clustering into deductive-abductive and inductive-analogy pairs; and uniform mixing outperforms staged curricula under a fixed budget. We also find that recent off-the-shelf models exhibit the same deductive-over-abductive asymmetry, suggesting that this gap is not merely an artifact of our controlled setup.
- Abstract(参考訳): 検証可能な報酬付き強化学習(RLVR)は、訓練後の推論モデルの中心となっているが、既存の研究の重要な制限は、推論空間の狭い視点である。
代わりに、二つの次元に沿って推論空間を特徴づける。
難しい。
推論の深みを超えて、モデルが気晴らしや相互作用する構造の中で正しい経路を識別しなければならない環境の複雑さについて研究する。
逆推論形式。
実世界の推論の核となる4つの能力について考察する: 帰納的状態追跡、隠された事象や事実の帰納的回復、帰納的規則誘導、類推的伝達である。
これらの要因を解消するために、各インスタンスが深度、複雑さ、タスクファミリーに沿って変化する事前学習と後学習の分布を制御した合成知識グラフ環境を構築した。
共同深度・複雑度は単一軸のレシピよりも優れており,家族の推論は不均一に反応し,RL被覆領域の外では誘導的推論が低下し,タスク相関は誘導的・誘導的・誘導的・分析的ペアに集約され,均一な混合は一定の予算下で進行したキュリキュラを均一に混合する。
また、最近のオフ・ザ・シェルフモデルでは、このギャップは単なる制御されたセットアップの人工物ではないことを示唆している。
関連論文リスト
- Compliance versus Sensibility: On the Reasoning Controllability in Large Language Models [46.26628756478016]
大規模言語モデル(LLM)は、事前学習データにおける共用推論パターンを通じて推論能力を取得することが知られている。
コンフリクト中に信頼性スコアが著しく低下するため、推論競合は内部で検出可能であることを示す。
その結果, LLM推論は具体例に固定されているものの, アクティブな機械的介入は論理的スキーマをデータから効果的に切り離すことができることがわかった。
論文 参考訳(メタデータ) (2026-04-29T22:55:40Z) - Stabilizing Reinforcement Learning for Honesty Alignment in Language Models on Deductive Reasoning [27.42733470720954]
本研究では,地上の真実軌道をロールアウトに注入し,早期の訓練崩壊を防ぐ強化学習手法を提案する。
その結果,本手法は学習を安定させ,全体の推論性能を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2025-11-12T11:34:19Z) - Provable Benefit of Curriculum in Transformer Tree-Reasoning Post-Training [76.12556589212666]
学習後のカリキュラムは指数関数的複雑性のボトルネックを回避していることを示す。
結果のみの報酬信号の下では、強化学習の微調整は、サンプルの複雑さを高い精度で達成する。
カリキュラムを意識したクエリにより、報奨託書の呼び出しとサンプリングコストの両方を指数関数的に削減するテストタイムスケーリングの保証を確立する。
論文 参考訳(メタデータ) (2025-11-10T18:29:54Z) - Consistency Is Not Always Correct: Towards Understanding the Role of Exploration in Post-Training Reasoning [75.79451512757844]
基礎モデルは幅広い知識を示すが、タスク固有の推論は限定的である。
RLVRと推論スケーリングは、RLVRや推論スケーリングのようなトレーニング後の戦略を動機付けます。
RLVRはスキューズ効果を誘発し,推論エントロピーを減少させ,正しい経路を忘れることを示した。
論文 参考訳(メタデータ) (2025-11-10T18:25:26Z) - Unifying Deductive and Abductive Reasoning in Knowledge Graphs with Masked Diffusion Model [64.31242163019242]
帰納的推論と帰納的推論は知識グラフを解析するための重要なパラダイムである。
DARKと呼ばれる知識グラフにおける帰納的・帰納的推論のための統一的なフレームワークを提案する。
DARKは, 帰納的推論タスクと帰納的推論タスクの両方において, 最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-10-13T14:34:57Z) - Controllable Logical Hypothesis Generation for Abductive Reasoning in Knowledge Graphs [54.596180382762036]
知識グラフの帰納的推論は、観測された実体からもっともらしい論理的仮説を生成することを目的としている。
可制御性の欠如により、単一の観測は、多くの妥当だが冗長あるいは無関係な仮説をもたらす可能性がある。
帰納的推論の実用性を改善するために,制御可能な仮説生成タスクを導入する。
論文 参考訳(メタデータ) (2025-05-27T09:36:47Z) - Failure Modes of LLMs for Causal Reasoning on Narratives [51.19592551510628]
世界の知識と論理的推論の相互作用について検討する。
最先端の大規模言語モデル(LLM)は、しばしば表面的な一般化に依存している。
タスクの単純な再構成により、より堅牢な推論行動が引き起こされることを示す。
論文 参考訳(メタデータ) (2024-10-31T12:48:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。