論文の概要: Compress-Distill: Reasoning Trace Compression for Efficient Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2606.05988v1
- Date: Thu, 04 Jun 2026 10:30:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.726551
- Title: Compress-Distill: Reasoning Trace Compression for Efficient Knowledge Distillation
- Title(参考訳): 圧縮蒸留:効率的な知識蒸留のための微量圧縮の推論
- Authors: Maxime Griot, Paul Steven Scotti, Tanishq Mathew Abraham,
- Abstract要約: 推論モデルは、冗長な学生の出力を蒸留し奨励するのにコストがかかる長い思考の痕跡を生成する。
本研究は,知識蒸留に先立ち,これらの痕跡のポストホック圧縮について検討する。
学生は生のトレース精度の96%を保ち、トーケン毎の効率は最大18倍に向上する。
- 参考スコア(独自算出の注目度): 2.6823720204646517
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Reasoning models produce long chain-of-thought traces that are costly to distill and encourage verbose student outputs. We study post-hoc compression of such traces before knowledge distillation. Two teachers, Qwen3.5-397B-A17B and gpt-oss-120B, generate about 283k correct traces each; two instruction-tuned models then compress them to 8.6-21.0% of their original character length. Across a 48-run main grid plus seven Qwen-teacher truncation ablations, compressed traces reduce training tokens to 12-30% of raw, speed up training by 2.0-7.6x, and shorten inference outputs by 3-19x with smaller reductions under the shorter gpt-oss teacher. However, raw traces retain the highest downstream accuracy at every scale and for both teachers. A length-matched raw-trace truncation ablation shows that compression is not merely benefiting from a smaller token budget: model-compressed traces usually beat or match naive truncation, especially for smaller students, while maintaining shorter inference outputs. Overall, reasoning-trace compression offers an accuracy-efficiency trade-off rather than a free improvement: students retain up to 96% of raw-trace accuracy while gaining up to 18x higher per-token efficiency, and at the 0.8B scale under LoRA compressed traces narrow the raw-vs-compressed gap but do not exceed raw.
- Abstract(参考訳): 推論モデルは、冗長な学生の出力を蒸留し奨励するのにコストがかかる長い思考の痕跡を生成する。
本研究は,知識蒸留に先立ち,これらの痕跡のポストホック圧縮について検討する。
2人の教師、Qwen3.5-397B-A17Bとgpt-oss-120Bはそれぞれ283kの正確なトレースを生成し、2つの命令調整されたモデルで元の文字長の8.6-21.0%まで圧縮する。
48ランのメイングリッドと7つのQwen-Teacher truncation Ablation、圧縮されたトレースはトレーニングトークンを生の12-30%に減らし、2.0-7.6xでトレーニングをスピードアップし、推論出力を3-19xに短縮し、短いgpt-ossの教師で減らした。
しかし、生の痕跡は、すべてのスケールで、両方の教師にとって、最も下流の精度を保っている。
モデル圧縮されたトレースは通常、特に小規模の学生に対して、より短い推論出力を維持しながら、単純で単純なトランケーションを打ったり、マッチさせたりする。
学生は生トラックの精度を最大96%維持し、トーケン毎の効率を最大18倍向上させ、LoRA圧縮された0.8Bスケールでは生vs圧縮されたギャップを狭くするが生を超越しない。
関連論文リスト
- Reasoning Compression with Mixed-Policy Distillation [20.7258653384411]
推論中心の大規模言語モデルは、しばしば過剰なトークンの使用と推論時復号コストを発生させる。
我々は,大規模教師から小学生に簡潔な推論行動を伝達する推論圧縮フレームワークであるMixed-Policy Distillation (MPD)を提案する。
MPDはトークンの使用量を最大27.1%削減し、複数の推論ベンチマークのパフォーマンスを改善している。
論文 参考訳(メタデータ) (2026-05-09T08:04:47Z) - Reinforcement Learning for Chain of Thought Compression with One-Domain-to-All Generalization [27.13234369037689]
大規模言語モデルにおけるチェーン・オブ・シント推論は、"過度な罠"を引き起こす可能性がある
そこで本研究では,有能なサンプルレベルのソフト強化学習圧縮を提案する。
モデルがすでに問題を解決している場合にのみ、長時間のロールアウトをペナルティ化し、ロールアウトを短縮した。
論文 参考訳(メタデータ) (2025-12-19T06:30:54Z) - Compressing Many-Shots in In-Context Learning [61.231471139896506]
マルチショットプロンプトを圧縮することにより,ICL推論のメモリと計算効率を向上させる手法を提案する。
まず,既存のプロンプト圧縮手法がマルチショット圧縮には有効でないことを示す。
本稿では,レイヤワイド圧縮手法であるMemComを提案する。
論文 参考訳(メタデータ) (2025-10-17T16:57:42Z) - DLER: Doing Length pEnalty Right - Incentivizing More Intelligence per Token via Reinforcement Learning [134.03095505580276]
Doing Length pEnalty Right (DLER)は、バッチワイド報酬正規化、高いクリッピング、ダイナミックサンプリング、単純なトランケーション長ペナルティを組み合わせたトレーニングレシピである。
DLERは最先端の精度-効率のトレードオフを実現し、出力長を70%以上削減し、以前のベースライン精度をすべて上回っている。
論文 参考訳(メタデータ) (2025-10-16T20:05:57Z) - R1-Compress: Long Chain-of-Thought Compression via Chunk Compression and Search [61.4807238517108]
CoT(Chain-of-Thought)推論は、ステップバイステップの問題解決を可能にすることで、大きな言語モデル(LLM)を強化する。
CoTのLong-CoTへの拡張はトークン長の増加による計算オーバーヘッドを大幅に増加させる。
ローカル情報とコヒーレンスの両方を保存する2段階のチャンクレベル圧縮フレームワークであるR1-Compressを提案する。
論文 参考訳(メタデータ) (2025-05-22T16:06:59Z) - Lillama: Large Language Models Compression via Low-Rank Feature Distillation [8.090496457850852]
ライラマ(英: Lillama)は、低ランク重量で活性化を蒸留する圧縮法である。
1つのA100 GPUでMixtral-8x7Bを数分で圧縮し、100億のパラメータを削除し、元のパフォーマンスの95%以上を保持した。
非トランスフォーマーアーキテクチャを一般化し、99%のパフォーマンスを維持しながら、Mamba-3Bを20%圧縮する。
論文 参考訳(メタデータ) (2024-12-21T18:04:01Z) - Training LLMs over Neurally Compressed Text [55.11828645767342]
本稿では,高度に圧縮されたテキスト上での大規模言語モデル(LLM)の訓練について検討する。
テキストをブロックに分割し,それぞれが同じビット長に圧縮する新しい圧縮手法であるEqual-Info Windowsを提案する。
提案手法は, 大規模化により向上し, パープレキシティと推論速度のベンチマークにおいて, バイトレベルのベースラインをはるかに上回る, ニューラルネットワークによる効果的な学習を実演する。
論文 参考訳(メタデータ) (2024-04-04T17:48:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。