論文の概要: From Atomic to Composite: Reinforcement Learning Enables Generalization in Complementary Reasoning
- arxiv url: http://arxiv.org/abs/2512.01970v1
- Date: Mon, 01 Dec 2025 18:27:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:35.013442
- Title: From Atomic to Composite: Reinforcement Learning Enables Generalization in Complementary Reasoning
- Title(参考訳): 原子から複合へ:補間推論における一般化を可能にする強化学習
- Authors: Sitao Cheng, Xunjian Yin, Ruiwen Zhou, Yuxuan Li, Xinyi Wang, Liangming Pan, William Yang Wang, Victor Zhong,
- Abstract要約: 本研究では、内部パラメトリック知識と外部コンテキスト情報の統合を必要とする複雑なタスクである補完的推論について検討する。
RLは確率増幅器ではなく推論合成器として機能する。
- 参考スコア(独自算出の注目度): 83.94543243783285
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The mechanism by which RL contributes to reasoning capabilities-whether it incentivizes the synthesis of new skills or merely amplifies existing behaviors-remains a subject of intense debate. In this work, we investigate this question through the lens of Complementary Reasoning, a complex task that requires integrating internal parametric knowledge with external contextual information. Using a controlled synthetic dataset of human biographies, we strictly decouple this ability into two atomic skills: Parametric Reasoning (relying on internal knowledge) and Contextual Reasoning (depending on external information). To rigorously assess capability boundaries, we evaluate generalization across three distinct levels of difficulty: I.I.D., Composition, and Zero-shot settings. We find that while SFT is sufficient for in-distribution performance, it struggles with O.O.D. generalization, particularly in Zero-shot settings where relational combinations are novel. Crucially, we identify the SFT Generalization Paradox: Models supervised solely on the composite task achieve near-perfect in-distribution accuracy but collapse on out-of-distribution generalization, indicating their reliance on rote memorization of path shortcuts. In contrast, we find that RL acts as a reasoning synthesizer rather than a probability amplifier. However, we uncover a strict atomic prerequisite: RL can only synthesize these complex strategies if the base model has first mastered the independent atomic skills (Parametric and Contextual) via SFT. These findings challenge the view of RL as a mere amplifier, suggesting that given sufficient atomic foundations, RL can actively synthesize complex reasoning strategies from learned primitives without explicit supervision on such complex strategies. This indicates that decoupled atomic training followed by RL offers a scalable path to generalization for complex reasoning tasks.
- Abstract(参考訳): RLが推論能力に寄与するメカニズム - 新たなスキルの合成を動機付けるか、あるいは単に既存の振る舞いを増幅するだけなのか - は、激しい議論の対象として残されている。
本研究では,内部パラメトリック知識と外部コンテキスト情報を統合する複雑なタスクであるComplementary Reasoningのレンズを用いて,この問題を考察する。
人間のバイオグラフィーの制御された合成データセットを用いて、我々はこの能力を、パラメトリック推論(内部知識に基づく)とコンテキスト推論(外部情報に依存する)の2つのアトミックスキルに厳密に分離する。
機能境界を厳密に評価するために、I.I.D.、コンポジション、ゼロショット設定の3つの難易度で一般化を評価する。
SFTは分配性能に十分であるにもかかわらず、O.O.D.の一般化に苦慮している。
SFT一般化パラドックス: 合成タスクのみを監督するモデルは, ほぼ完全な分布精度を実現するが, 分布外一般化により崩壊し, 経路ショートカットのロート記憶に依存していることを示す。
対照的に、RLは確率増幅器ではなく推論合成器として機能する。
しかし、厳密な原子前提条件を明らかにする:RLは、ベースモデルが最初にSFTを介して独立した原子スキル(パラメトリックとコンテキスト)を習得した場合にのみ、これらの複雑な戦略を合成できる。
これらの知見は、RLを単なる増幅器として捉えることに挑戦し、十分な原子基盤が与えられた場合、RLは、そのような複雑な戦略を明示的に監督することなく、学習プリミティブから複雑な推論戦略を積極的に合成できることを示唆した。
これは、切り離された原子のトレーニングに続き、RLは複雑な推論タスクを一般化するためのスケーラブルなパスを提供することを示している。
関連論文リスト
- Issues with Measuring Task Complexity via Random Policies in Robotic Tasks [0.005771104869225669]
強化学習(RL)の主な課題は、タスクの複雑さを測定することである。
非タブラル領域におけるタスクの複雑さを評価するための指標はほとんどない。
論文 参考訳(メタデータ) (2026-02-21T14:38:02Z) - Sample-Efficient Neurosymbolic Deep Reinforcement Learning [49.60927398960061]
本稿では,背景記号知識を統合し,サンプル効率を向上させるニューロシンボリックディープRL手法を提案する。
オンライン推論は2つのメカニズムを通じてトレーニングプロセスのガイドを行う。
我々は、最先端の報奨機ベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2026-01-06T09:28:53Z) - RL for Reasoning by Adaptively Revealing Rationales [36.50924054394857]
監督された微調整(SFT)は密度の高い地下構造ラベルに依存しており、シーケンスの長さが大きくなるにつれてコストが増大する。
AdaBack(アダプティブ・バックトラック)は,学習中の目標出力の部分的なプレフィックスのみを明らかにする,サンプルごとのカリキュラム学習アルゴリズムである。
部分解に対する適応的なカリキュラムは、そうでなければ難解な問題を確実に解決することを示します。
論文 参考訳(メタデータ) (2025-06-22T17:46:14Z) - Generalization or Hallucination? Understanding Out-of-Context Reasoning in Transformers [80.70134000599391]
我々は、両方の行動は、アウト・オブ・コンテクスト推論(OCR)として知られる単一のメカニズムに由来すると論じる。
OCRは、関連する概念が因果関係であるかによって、一般化と幻覚の両方を駆動する。
我々の研究は、OCR現象を理解するための理論的基盤を提供し、知識注入から望ましくない行動を分析し緩和するための新しいレンズを提供する。
論文 参考訳(メタデータ) (2025-06-12T16:50:45Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [93.00629872970364]
強化学習(Reinforcement Learning, RL)は, 複雑な推論タスクにおいて, 言語モデルの性能向上のための主要なパラダイムとなっている。
SPARKLE(SPARKLE)は、3つの重要な次元にわたるRLの効果を詳細に解析するフレームワークである。
我々は、RL信号と混合品質の推論トレースを産出しない難題が、依然としてトレーニングに有効であるかどうかを調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - AtomR: Atomic Operator-Empowered Large Language Models for Heterogeneous Knowledge Reasoning [49.24235059299745]
我々は、原子レベルで正確な異種知識推論を行うための大規模な言語モデルのためのフレームワークAtomRを紹介する。
AtomRは複雑な質問を、各葉ノードが原子知識演算子に対応する推論木に分解する。
推論実行段階では、AtomRは各原子知識演算子を実行し、弾力的に異種源から原子レベルの知識を選択し、取得し、操作する。
論文 参考訳(メタデータ) (2024-11-25T15:35:51Z) - Sparse Mixture-of-Experts for Compositional Generalization: Empirical Evidence and Theoretical Foundations of Optimal Sparsity [89.81738321188391]
本研究では,SMoEモデルにおけるタスク複雑性と最適空間の関係について検討する。
最適な間隔は、最小限のアクティベーション(1-2専門家)とフルアクティベーションの間にあり、その正確な数はタスクの複雑さに比例する。
論文 参考訳(メタデータ) (2024-10-17T18:40:48Z) - Unlock the Correlation between Supervised Fine-Tuning and Reinforcement Learning in Training Code Large Language Models [12.656574142412484]
本研究では,教師付き微調整と強化学習の相関関係の解明を試みる。
SFTの一般化には原子関数と合成関数の両方が不可欠である。
論文 参考訳(メタデータ) (2024-06-14T03:39:01Z) - Laying the Foundation First? Investigating the Generalization from Atomic Skills to Complex Reasoning Tasks [40.7766635942194]
本稿では,原子スキルが複雑な推論タスクに自然に一般化できるかどうかを探索する枠組みを提案する。
次に、より優れたスキルの一般化を実現するために、階層的なカリキュラム学習訓練戦略を導入する。
階層的なカリキュラム学習を活用することで、一般化を成功させ、複雑な推論タスクにおけるオープンソースのLMの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-14T15:20:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。