論文の概要: Beyond Scaling Law: A Data-Efficient Distillation Framework for Reasoning
- arxiv url: http://arxiv.org/abs/2508.09883v1
- Date: Wed, 13 Aug 2025 15:32:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.943645
- Title: Beyond Scaling Law: A Data-Efficient Distillation Framework for Reasoning
- Title(参考訳): スケーリング法を越えて - 推論のためのデータ効率の良い蒸留フレームワーク
- Authors: Xiaojun Wu, Xiaoguang Jiang, Huiyang Li, Jucai Zhai, Dengfeng Liu, Qiaobo Hao, Huang Liu, Zhiguo Yang, Ji Xie, Ninglun Gu, Jin Yang, Kailai Zhang, Yelun Bao, Jun Wang,
- Abstract要約: 大規模言語モデル(LLM)は、アルゴリズムコーディングや数学的問題解決といったタスクにおいて顕著な推論能力を示す。
近年の手法では,強化学習と教師付き微調整を組み合わせた多段階学習による推論が改良されている。
- 参考スコア(独自算出の注目度): 10.186434946738201
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) demonstrate remarkable reasoning capabilities in tasks such as algorithmic coding and mathematical problem-solving. Recent methods have improved reasoning through expanded corpus and multistage training combining reinforcement learning and supervised fine-tuning. Although some methods suggest that small but targeted dataset can incentivize reasoning via only distillation, a reasoning scaling laws is still taking shape, increasing computational costs. To address this, we propose a data-efficient distillation framework (DED) that optimizes the Pareto frontier of reasoning distillation. Inspired by the on-policy learning and diverse roll-out strategies of reinforcement learning, the key idea of our approach is threefold: (1) We identify that benchmark scores alone do not determine an effective teacher model. Through comprehensive comparisons of leading reasoning LLMs, we develop a method to select an optimal teacher model. (2) While scaling distillation can enhance reasoning, it often degrades out-of-domain performance. A carefully curated, smaller corpus achieves a balanced trade-off between in-domain and out-of-domain capabilities. (3) Diverse reasoning trajectories encourage the student model to develop robust reasoning skills. We validate our method through evaluations on mathematical reasoning (AIME 2024/2025, MATH-500) and code generation (LiveCodeBench), achieving state-of-the-art results with only 0.8k carefully curated examples, bypassing the need for extensive scaling. Our systematic analysis demonstrates that DED outperforms existing methods by considering factors beyond superficial hardness, token length, or teacher model capability. This work offers a practical and efficient pathway to advanced reasoning while preserving general capabilities.
- Abstract(参考訳): 大規模言語モデル(LLM)は、アルゴリズムコーディングや数学的問題解決といったタスクにおいて顕著な推論能力を示す。
近年の手法では,強化学習と教師付き微調整を組み合わせた多段階学習による推論が改良されている。
一部の方法は、小さいがターゲットとするデータセットは蒸留だけで推論を動機付けることができることを示唆しているが、推論スケーリング法則はまだ形を採っており、計算コストが増大している。
そこで本研究では, 推論蒸留のパレートフロンティアを最適化するデータ効率蒸留フレームワーク(DED)を提案する。
強化学習のオンライン学習と多様なロールアウト戦略にインスパイアされたアプローチの鍵となる考え方は3つある:(1) ベンチマークスコアだけでは効果的な教師モデルが決定できないと認識する。
指導的推論 LLM の総合的な比較を通じて,最適な教師モデルを選択する方法を開発した。
2) 蒸留のスケーリングにより推論が向上するが, ドメイン外の性能は低下することが多い。
慎重にキュレートされた小さなコーパスは、ドメイン内機能とドメイン外機能の間のバランスのとれたトレードオフを実現する。
3) 多様な推論の軌跡は,学生モデルに頑健な推論スキルを発達させるよう促す。
数学的推論 (AIME 2024/2025, MATH-500) とコード生成 (LiveCodeBench) による評価により本手法の有効性を検証する。
我々の系統的分析は,DEDが表面硬度,トークン長,教師モデル能力を超えた要因を考慮し,既存の手法よりも優れていることを示す。
この研究は、一般的な能力を保ちながら、先進的推論への実践的で効率的な経路を提供する。
関連論文リスト
- Encode, Think, Decode: Scaling test-time reasoning with recursive latent thoughts [19.518525241726916]
Encode-Think-Decode (ETD) は、トレーニング中の推論関連レイヤの小さなサブセットを反復するようにトレーニングすることで、ベースモデルの推論能力を向上する手法である。
ETDモデルは、GSM8Kで+28.4%、OLMo-2 1Bベースモデルで+36%の相対精度の改善を含む17の推論ベンチマークで大幅に向上した。
論文 参考訳(メタデータ) (2025-10-08T15:58:35Z) - Adaptive Test-Time Reasoning via Reward-Guided Dual-Phase Search [62.1546099504045]
本稿では、推論を計画と実行に分離する二相テストタイムスケーリングフレームワークを提案する。
具体的には、推論軌跡を分解し、各フェーズの報酬モデルを構築し、探索者が個別に計画と実行を探索、実行できるようにする。
数学的推論とコード生成ベンチマークの両方の実験により、我々の手法は計算の冗長性を低減しつつ、常に精度を向上することを示した。
論文 参考訳(メタデータ) (2025-09-29T19:27:23Z) - Teaching LLM to Reason: Reinforcement Learning from Algorithmic Problems without Code [76.80306464249217]
本稿では,LLMにより良い理性を教えることを目的としたTeaRを提案する。
TeaRは、注意深いデータキュレーションと強化学習を活用して、コード関連のタスクを通じて最適な推論パスを発見するモデルをガイドする。
我々は、2つのベースモデルと3つの長いCoT蒸留モデルを用いて広範な実験を行い、モデルのサイズは15億から32億のパラメータから、Math、Knowledge、Code、Logical Reasoningにまたがる17のベンチマークにまたがる。
論文 参考訳(メタデータ) (2025-07-10T07:34:05Z) - NaturalThoughts: Selecting and Distilling Reasoning Traces for General Reasoning Tasks [65.70224757972068]
本研究では,NaturalReasoningからの質問のプールに基づいて,強力な教師モデルから推論トレースを選択する。
データサイズをランダムサンプリングでスケールアップすることは、安定したパフォーマンス向上を伴う強力なベースラインであることに気付きました。
より多様な推論戦略を必要とする難しい事例を選択することは、教師モデルの推論スキルを伝達するよりサンプル効率が高いことが判明した。
論文 参考訳(メタデータ) (2025-07-02T17:30:24Z) - Interleaved Reasoning for Large Language Models via Reinforcement Learning [22.403928213802036]
ロングチェーン・オブ・シント(CoT)は、大規模言語モデル(LLM)推論能力を向上する。
本稿では、強化学習(RL)を用いてLLMを指導し、マルチホップ質問に対する思考と回答をインターリーブする新しい学習パラダイムを提案する。
論文 参考訳(メタデータ) (2025-05-26T07:58:17Z) - Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [54.04678363287392]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。
OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
論文 参考訳(メタデータ) (2025-03-20T17:59:38Z) - BRiTE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning [78.63421517563056]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な機能を示した。
本稿では,新しいグラフィカルモデルを用いてLLM推論を定式化する統一確率的フレームワークを提案する。
本稿では,Bootstrapping Reinforced Thinking Process (BRiTE)アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2025-01-31T02:39:07Z) - TinyThinker: Distilling Reasoning through Coarse-to-Fine Knowledge Internalization with Self-Reflection [2.379928855453728]
大規模言語モデルは、様々なタスクにまたがる印象的な推論能力を示す。
これらの機能を、生成された推論データを通じてより小さなモデルに蒸留する試みは、推論プロセスの表面的な模倣につながる可能性がある。
2つの新しいアプローチを紹介するフレームワークであるTinyThinkerを提案する。
論文 参考訳(メタデータ) (2024-12-11T02:05:42Z) - SCOTT: Self-Consistent Chain-of-Thought Distillation [68.40232422158569]
大規模言語モデル(LM)は、チェーン・オブ・シークレット・プロンプトを通じて予測のための自由テキスト論理を生成する。
そこで本研究では,教師モデルから,小規模で自己整合的なCoTモデルを学習するための忠実な知識蒸留法を提案する。
忠実蒸留を確実にするために,教師生成の合理性を用いて,反実的推論目的の学生LMを学習する。
論文 参考訳(メタデータ) (2023-05-03T03:47:00Z) - Efficient Performance Bounds for Primal-Dual Reinforcement Learning from
Demonstrations [1.0609815608017066]
本稿では,コスト関数の不明な大規模マルコフ決定プロセスについて考察し,限られた専門家による実証から政策を学習する問題に対処する。
既存の逆強化学習法には強力な理論的保証があるが、計算上は高価である。
ラグランジアン双対性を利用して理論と実践のギャップを埋める新しい双線型サドルポイントフレームワークを導入する。
論文 参考訳(メタデータ) (2021-12-28T05:47:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。