論文の概要: How Does RL Post-training Induce Skill Composition? A Case Study on Countdown
- arxiv url: http://arxiv.org/abs/2512.01775v1
- Date: Mon, 01 Dec 2025 15:17:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.917227
- Title: How Does RL Post-training Induce Skill Composition? A Case Study on Countdown
- Title(参考訳): RL後トレーニングはどのようにスキル構成を誘導するか? : カウントダウンを事例として
- Authors: Simon Park, Simran Kaur, Sanjeev Arora,
- Abstract要約: 本研究では,強化学習がスキル構成について教えることと,その構成構造がスキル伝達に与える影響について検討する。
木形状の追跡とトレーニングによる成功率から, (i) より大きい n と見えない木形状への分布外一般化, サブタスクの構成的再利用を示す。
我々の診断では、どの順で、どの順で、どの一般化が失敗しているかを明らかにし、RLのみのポストトレーニングが、pass@kのような標準メトリクス以上のOOD一般化を誘導するかを明確にしている。
- 参考スコア(独自算出の注目度): 27.950240848542645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While reinforcement learning (RL) successfully enhances reasoning in large language models, its role in fostering compositional generalization (the ability to synthesize novel skills from known components) is often conflated with mere length generalization. To this end, we study what RL post-training teaches about skill composition and how the structure of the composition affects the skill transfer. We focus on the Countdown task (given n numbers and a target, form an expression that evaluates to the target) and analyze model solutions as expression trees, where each subtree corresponds to a reusable subtask and thus can be viewed as a ``skill.'' Tracking tree shapes and their success rates over training, we find: (i) out-of-distribution (OOD) generalization to larger n and to unseen tree shapes, indicating compositional reuse of subtasks; (ii) a structure-dependent hierarchy of learnability -- models master shallow balanced trees (workload is balanced between subtasks) before deep unbalanced ones, with persistent fragility on right-heavy structures (even when the composition depth is the same as some left-heavy structures). Our diagnostic reveals what is learned, in what order, and where generalization fails, clarifying how RL-only post-training induces OOD generalization beyond what standard metrics such as pass@k reveal.
- Abstract(参考訳): 強化学習(RL)は、大規模言語モデルにおける推論をうまく強化する一方で、構成的一般化(既知の構成要素から新しいスキルを合成する能力)を促進する役割は、単に長さの一般化と混同されることも多い。
そこで本研究では,RLポストトレーニングがスキル構成について教えていることと,その構成構造がスキル伝達に与える影響について検討する。
ここでは,各サブツリーが再利用可能なサブタスクに対応し, ``skill' とみなすことができるように,Countdownタスク(n 個の数値とターゲットを指定し,対象に対して評価する式を生成する)に着目し,モデルソリューションを式ツリーとして解析する。
「'木形追跡と修業成功率」が分かる。
i) アウト・オブ・ディストリビューション(OOD) より大きい n と見えない木の形への一般化であって,サブタスクの構成的再利用を示すもの。
(II) 学習可能性の構造に依存した階層 -- 右重構造(構成深度が左重構造と同じであっても)に永続的な脆弱さを持つ、浅いバランス木(サブタスク間での作業負荷)をマスターする。
我々の診断では、どの順で、どの順で、どの一般化が失敗しているかを明らかにし、RLのみのポストトレーニングが、pass@kのような標準メトリクス以上のOOD一般化を誘導するかを明らかにした。
関連論文リスト
- From Atomic to Composite: Reinforcement Learning Enables Generalization in Complementary Reasoning [83.94543243783285]
本研究では、内部パラメトリック知識と外部コンテキスト情報の統合を必要とする複雑なタスクである補完的推論について検討する。
RLは確率増幅器ではなく推論合成器として機能する。
論文 参考訳(メタデータ) (2025-12-01T18:27:25Z) - When does compositional structure yield compositional generalization? A kernel theory [0.0]
固定された構成的表現を持つカーネルモデルにおける合成一般化の理論を示す。
学習データのバイアスから生じる合成一般化における新しい障害モードを同定する。
本研究は, 学習データの統計的構造が構成一般化にどのように影響するかを考察する。
論文 参考訳(メタデータ) (2024-05-26T00:50:11Z) - A Theory for Emergence of Complex Skills in Language Models [56.947273387302616]
今日のAI製品の主要な要因は、パラメータセットとトレーニングコーパスのスケールアップ時に、言語モデルに新たなスキルが現れることだ。
本稿では,LSMの有名な(かつ実証的な)スケーリング法則と単純な統計的枠組みを用いて,その出現を解析する。
論文 参考訳(メタデータ) (2023-07-29T09:22:54Z) - How Do In-Context Examples Affect Compositional Generalization? [86.57079616209474]
本稿では,コンテクスト内構成一般化を検証するためのテストスイートであるCoFeを提案する。
構成一般化性能は、文脈内例の選択によって容易に影響を受けることが判明した。
我々の系統実験は、文脈内サンプルは、テストケースと構造的に似ており、互いに異なっており、個別に単純であることを示します。
論文 参考訳(メタデータ) (2023-05-08T16:32:18Z) - RLET: A Reinforcement Learning Based Approach for Explainable QA with
Entailment Trees [47.745218107037786]
本稿では,強化学習に基づくEntailment Tree生成フレームワークであるRLETを提案する。
RLETは文の選択と推論生成モジュールによる単一ステップ推論を反復的に行う。
EntailmentBankデータセットの3つの設定の実験では、RLフレームワークを使用することの強みが示されている。
論文 参考訳(メタデータ) (2022-10-31T06:45:05Z) - Compositional Generalization Requires Compositional Parsers [69.77216620997305]
直近のCOGSコーパスにおける構成原理によって導かれるシーケンス・ツー・シーケンスモデルとモデルを比較した。
構造一般化は構成一般化の重要な尺度であり、複雑な構造を認識するモデルを必要とする。
論文 参考訳(メタデータ) (2022-02-24T07:36:35Z) - Interpretable Preference-based Reinforcement Learning with
Tree-Structured Reward Functions [2.741266294612776]
本稿では,木の構造を内在的に解釈して報酬関数を構成するオンライン能動的選好学習アルゴリズムを提案する。
いくつかの環境において,木構造報酬関数のサンプル効率学習を実演し,改良された解釈可能性を活用して,アライメントの探索とデバッグを行う。
論文 参考訳(メタデータ) (2021-12-20T09:53:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。