論文の概要: Distilling the Essence: Efficient Reasoning Distillation via Sequence Truncation
- arxiv url: http://arxiv.org/abs/2512.21002v1
- Date: Wed, 24 Dec 2025 06:57:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.706576
- Title: Distilling the Essence: Efficient Reasoning Distillation via Sequence Truncation
- Title(参考訳): エッセンスの蒸留:シークエンス・トランニケーションによる効率的な蒸留
- Authors: Wei-Rui Chen, Vignesh Kothapalli, Ata Fatahibaarzi, Hejian Sang, Shao Tang, Qingquan Song, Zhipeng Wang, Muhammad Abdul-Mageed,
- Abstract要約: 大きな言語モデルからより小さな学生モデルへの推論能力を希釈するには、かなりの量の推論データのトレーニングが必要となることが多い。
異なるセグメント(P, CoT, A)にまたがる監督の割り当てが学生のパフォーマンスにどのように影響するかを検討する。
各トレーニングシーケンスの最初の50%ドルのトークンのみのトレーニングは、平均して$approx94%のフルシーケンスパフォーマンスを保持することができる。
- 参考スコア(独自算出の注目度): 27.167625134416156
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Distilling the reasoning capabilities from a large language model (LLM) to a smaller student model often involves training on substantial amounts of reasoning data. However, distillation over lengthy sequences with prompt (P), chain-of-thought (CoT), and answer (A) segments makes the process computationally expensive. In this work, we investigate how the allocation of supervision across different segments (P, CoT, A) affects student performance. Our analysis shows that selective knowledge distillation over only the CoT tokens can be effective when the prompt and answer information is encompassed by it. Building on this insight, we establish a truncation protocol to quantify computation-quality tradeoffs as a function of sequence length. We observe that training on only the first $50\%$ of tokens of every training sequence can retain, on average, $\approx94\%$ of full-sequence performance on math benchmarks while reducing training time, memory usage, and FLOPs by about $50\%$ each. These findings suggest that reasoning distillation benefits from prioritizing early reasoning tokens and provides a simple lever for computation-quality tradeoffs. Codes are available at https://github.com/weiruichen01/distilling-the-essence.
- Abstract(参考訳): 大きな言語モデル(LLM)からより小さな学生モデルへの推論能力の希釈には、かなりの量の推論データのトレーニングが伴うことが多い。
しかしながら、プロンプト(P)、チェーン・オブ・シント(CoT)、および応答(A)セグメントによる長い配列の蒸留は、この過程を計算的に高価にする。
本研究では,異なるセグメント(P, CoT, A)における監督の割り当てが,学生のパフォーマンスに与える影響について検討する。
分析の結果,CoTトークンのみに対する選択的知識蒸留は,プロンプト情報と応答情報が包含されている場合に有効であることが示唆された。
この知見に基づいて、列長の関数として計算品質のトレードオフを定量化するためのトランケーションプロトコルを確立する。
各トレーニングシーケンスの最初の50\%のトークンに対するトレーニングは、平均で$\approx94\%のトレーニング時間、メモリ使用量、FLOPのトレーニング時間を約50\%の削減で、数学ベンチマーク上でのフルシーケンスパフォーマンスを維持できる。
これらの結果から, 蒸留法は早期の推理トークンの優先順位付けに有効であり, 計算品質のトレードオフに簡単なレバーを提供することが示唆された。
コードはhttps://github.com/weiruichen01/distilling-the-essence.comで公開されている。
関連論文リスト
- Rethinking Thinking Tokens: LLMs as Improvement Operators [80.12087211785949]
推論トレーニングは、LLMに長い思考の連鎖(長いCoT)を生み出す動機を与え、自己チェックによるソリューション戦略を探索することを可能にする。
これにより、精度が高くなりますが、コンテキストの長さ、トークン/計算コスト、応答レイテンシが膨らみます。
現在のモデルはメタ認知を活用して、このParetoフロンティアで他の組み合わせを提供できるのでしょうか?
i) 多様なドラフトを並列に生成し、(ii) それらを有界なテキストワークスペースに蒸留し、(iii) このワークスペース上に条件付き精製する。
論文 参考訳(メタデータ) (2025-10-01T17:08:59Z) - Train Long, Think Short: Curriculum Learning for Efficient Reasoning [51.506559652495476]
長さ制御推論のためのカリキュラム学習戦略を提案する。
当社の手法は寛大なトークン予算から始まり、トレーニングをしながら徐々に厳格化します。
GSM8K、MATH500、SVAMP、College Math、GSM+の実験は、カリキュラムベースのトレーニングが固定予算ベースラインを一貫して上回ることを示した。
論文 参考訳(メタデータ) (2025-08-12T13:48:03Z) - Knowing Before Saying: LLM Representations Encode Information About Chain-of-Thought Success Before Completion [34.582439587552656]
ゼロショット・チェーン・オブ・サート・プロセスの成功を完了前に予測できるかどうかを検討する。
LLM表現に基づく探索分類器は,単一トークンが生成される前にも良好に動作することがわかった。
論文 参考訳(メタデータ) (2025-05-30T08:54:28Z) - Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。
フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-05-19T11:30:41Z) - Investigating Mysteries of CoT-Augmented Distillation [24.33660998599006]
思考の連鎖(CoT)の合理化は、質問応答のようなタスクにおいて、LLMのパフォーマンスを継続的に改善することが示されている。
なぜ、この追加の訓練信号がモデルの蒸留にどのように役立つのか?
論文 参考訳(メタデータ) (2024-06-20T17:15:46Z) - AdapLeR: Speeding up Inference by Adaptive Length Reduction [15.57872065467772]
本稿では,下流性能の低下を最小限に抑えながら,BERTの計算コストを削減する手法を提案する。
提案手法は,レイヤ間のコントリビューションの少ないトークンを動的に除去し,結果として長さが短くなり,計算コストが低下する。
様々な分類タスクに関する実験では、性能の犠牲を伴わずに、推論時間中に最大22倍のスピードアップを示す。
論文 参考訳(メタデータ) (2022-03-16T23:41:38Z) - You Only Need End-to-End Training for Long-Tailed Recognition [8.789819609485225]
クロスエントロピー損失は、不均衡なデータに非常に相関した特徴をもたらす傾向にある。
ブロックベース相対平衡バッチサンプリング(B3RS)とバッチ埋め込みトレーニング(BET)の2つの新しいモジュールを提案する。
CIFAR-LT と ImageNet-LT の長期分類ベンチマークによる実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2021-12-11T11:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。