論文の概要: From Atomic to Composite: Reinforcement Learning Enables Generalization in Complementary Reasoning
- arxiv url: http://arxiv.org/abs/2512.01970v1
- Date: Mon, 01 Dec 2025 18:27:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:35.013442
- Title: From Atomic to Composite: Reinforcement Learning Enables Generalization in Complementary Reasoning
- Title(参考訳): 原子から複合へ:補間推論における一般化を可能にする強化学習
- Authors: Sitao Cheng, Xunjian Yin, Ruiwen Zhou, Yuxuan Li, Xinyi Wang, Liangming Pan, William Yang Wang, Victor Zhong,
- Abstract要約: 本研究では、内部パラメトリック知識と外部コンテキスト情報の統合を必要とする複雑なタスクである補完的推論について検討する。
RLは確率増幅器ではなく推論合成器として機能する。
- 参考スコア(独自算出の注目度): 83.94543243783285
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The mechanism by which RL contributes to reasoning capabilities-whether it incentivizes the synthesis of new skills or merely amplifies existing behaviors-remains a subject of intense debate. In this work, we investigate this question through the lens of Complementary Reasoning, a complex task that requires integrating internal parametric knowledge with external contextual information. Using a controlled synthetic dataset of human biographies, we strictly decouple this ability into two atomic skills: Parametric Reasoning (relying on internal knowledge) and Contextual Reasoning (depending on external information). To rigorously assess capability boundaries, we evaluate generalization across three distinct levels of difficulty: I.I.D., Composition, and Zero-shot settings. We find that while SFT is sufficient for in-distribution performance, it struggles with O.O.D. generalization, particularly in Zero-shot settings where relational combinations are novel. Crucially, we identify the SFT Generalization Paradox: Models supervised solely on the composite task achieve near-perfect in-distribution accuracy but collapse on out-of-distribution generalization, indicating their reliance on rote memorization of path shortcuts. In contrast, we find that RL acts as a reasoning synthesizer rather than a probability amplifier. However, we uncover a strict atomic prerequisite: RL can only synthesize these complex strategies if the base model has first mastered the independent atomic skills (Parametric and Contextual) via SFT. These findings challenge the view of RL as a mere amplifier, suggesting that given sufficient atomic foundations, RL can actively synthesize complex reasoning strategies from learned primitives without explicit supervision on such complex strategies. This indicates that decoupled atomic training followed by RL offers a scalable path to generalization for complex reasoning tasks.
- Abstract(参考訳): RLが推論能力に寄与するメカニズム - 新たなスキルの合成を動機付けるか、あるいは単に既存の振る舞いを増幅するだけなのか - は、激しい議論の対象として残されている。
本研究では,内部パラメトリック知識と外部コンテキスト情報を統合する複雑なタスクであるComplementary Reasoningのレンズを用いて,この問題を考察する。
人間のバイオグラフィーの制御された合成データセットを用いて、我々はこの能力を、パラメトリック推論(内部知識に基づく)とコンテキスト推論(外部情報に依存する)の2つのアトミックスキルに厳密に分離する。
機能境界を厳密に評価するために、I.I.D.、コンポジション、ゼロショット設定の3つの難易度で一般化を評価する。
SFTは分配性能に十分であるにもかかわらず、O.O.D.の一般化に苦慮している。
SFT一般化パラドックス: 合成タスクのみを監督するモデルは, ほぼ完全な分布精度を実現するが, 分布外一般化により崩壊し, 経路ショートカットのロート記憶に依存していることを示す。
対照的に、RLは確率増幅器ではなく推論合成器として機能する。
しかし、厳密な原子前提条件を明らかにする:RLは、ベースモデルが最初にSFTを介して独立した原子スキル(パラメトリックとコンテキスト)を習得した場合にのみ、これらの複雑な戦略を合成できる。
これらの知見は、RLを単なる増幅器として捉えることに挑戦し、十分な原子基盤が与えられた場合、RLは、そのような複雑な戦略を明示的に監督することなく、学習プリミティブから複雑な推論戦略を積極的に合成できることを示唆した。
これは、切り離された原子のトレーニングに続き、RLは複雑な推論タスクを一般化するためのスケーラブルなパスを提供することを示している。
関連論文リスト
- RL for Reasoning by Adaptively Revealing Rationales [36.50924054394857]
監督された微調整(SFT)は密度の高い地下構造ラベルに依存しており、シーケンスの長さが大きくなるにつれてコストが増大する。
AdaBack(アダプティブ・バックトラック)は,学習中の目標出力の部分的なプレフィックスのみを明らかにする,サンプルごとのカリキュラム学習アルゴリズムである。
部分解に対する適応的なカリキュラムは、そうでなければ難解な問題を確実に解決することを示します。
論文 参考訳(メタデータ) (2025-06-22T17:46:14Z) - Generalization or Hallucination? Understanding Out-of-Context Reasoning in Transformers [80.70134000599391]
我々は、両方の行動は、アウト・オブ・コンテクスト推論(OCR)として知られる単一のメカニズムに由来すると論じる。
OCRは、関連する概念が因果関係であるかによって、一般化と幻覚の両方を駆動する。
我々の研究は、OCR現象を理解するための理論的基盤を提供し、知識注入から望ましくない行動を分析し緩和するための新しいレンズを提供する。
論文 参考訳(メタデータ) (2025-06-12T16:50:45Z) - AtomR: Atomic Operator-Empowered Large Language Models for Heterogeneous Knowledge Reasoning [49.24235059299745]
我々は、原子レベルで正確な異種知識推論を行うための大規模な言語モデルのためのフレームワークAtomRを紹介する。
AtomRは複雑な質問を、各葉ノードが原子知識演算子に対応する推論木に分解する。
推論実行段階では、AtomRは各原子知識演算子を実行し、弾力的に異種源から原子レベルの知識を選択し、取得し、操作する。
論文 参考訳(メタデータ) (2024-11-25T15:35:51Z) - Sparse Mixture-of-Experts for Compositional Generalization: Empirical Evidence and Theoretical Foundations of Optimal Sparsity [89.81738321188391]
本研究では,SMoEモデルにおけるタスク複雑性と最適空間の関係について検討する。
最適な間隔は、最小限のアクティベーション(1-2専門家)とフルアクティベーションの間にあり、その正確な数はタスクの複雑さに比例する。
論文 参考訳(メタデータ) (2024-10-17T18:40:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。