論文の概要: When Perplexity Lies: Generation-Focused Distillation of Hybrid Sequence Models
- arxiv url: http://arxiv.org/abs/2603.26556v1
- Date: Fri, 27 Mar 2026 16:16:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.58572
- Title: When Perplexity Lies: Generation-Focused Distillation of Hybrid Sequence Models
- Title(参考訳): パープレキシティーが嘘をついたとき:ハイブリッドシーケンスモデルの生成焦点蒸留
- Authors: Juan Gabriel Kostelec, Xiang Wang, Axel Laborieux, Christos Sourmpis, Qinghai Guo,
- Abstract要約: 我々はGenDistillと組み合わせたハイブリッドKimi Delta Attention (Hybrid-KDA)アーキテクチャを提案する。
ログライクリフに基づく評価は,教師と学生のギャップを過小評価する。
- 参考スコア(独自算出の注目度): 18.966595547209824
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Converting a pretrained Transformer into a more efficient hybrid model through distillation offers a promising approach to reducing inference costs. However, achieving high-quality generation in distilled models requires careful joint design of both the student architecture and the distillation process. Many prior distillation works evaluate downstream multiple-choice benchmarks by ranking candidate answers with log-likelihood rather than requiring autoregressive generation, which can obscure important differences in model quality. For example, we show that a 7B parameter distilled model that nearly matches its teacher to within 0.2\,pp under log-likelihood scoring actually falls behind by 20.8\,pp when the model must generate answers autoregressively. We propose a Hybrid Kimi Delta Attention (Hybrid-KDA) architecture paired with GenDistill, a multi-stage distillation pipeline, and use generation-based evaluation throughout to guide design decisions. Applying this approach to Qwen3-0.6B, we systematically ablate six design axes: training objective, loss masking, training duration, dataset selection, parameter freezing, and architecture choice. We find that log-likelihood-based evaluation consistently underestimates the gap between teacher and student, and can in some cases reverse the ranking of design choices, meaning that conclusions drawn from perplexity-only evaluation may be misleading. Among the factors we study, dataset selection, completion-only masking, and freezing attention layers during post-training have the largest impact on generation quality. Our best Hybrid-KDA model retains 86--90\% of teacher accuracy on knowledge benchmarks while reducing KV cache memory by up to 75\% and improving time-to-first-token by 2--4$\times$ at 128K-token contexts.
- Abstract(参考訳): プレトレーニングされたトランスフォーマーを蒸留によりより効率的なハイブリッドモデルに変換することは、推論コストを削減するための有望なアプローチである。
しかし, 蒸留モデルの高品質化には, 学生建築と蒸留プロセスの両面において, 慎重に共同設計が必要である。
多くの先行蒸留は、自動回帰生成を必要とせず、候補回答をログライクでランク付けすることで、下流の多重選択ベンチマークを評価し、モデル品質に重要な違いを生じさせる可能性がある。
例えば、7Bパラメータ蒸留モデルでは, 対数的スコアが0.2\,pp以内とほぼ一致し, そのモデルが自己回帰的に回答を生成する必要がある場合, 実際に20.8\,pp以下に低下することを示す。
我々は,多段蒸留パイプラインであるGenDistillと組み合わせたHybrid-KDA(Hybrid-KDA)アーキテクチャを提案する。
このアプローチをQwen3-0.6Bに適用することにより、トレーニング目標、損失マスキング、トレーニング期間、データセット選択、パラメータ凍結、アーキテクチャ選択の6つの設計軸を体系的に緩和する。
対数類似度に基づく評価は、教師と学生のギャップを常に過小評価し、場合によっては設計選択のランクを逆転させ、難易度のみの評価から引き出された結論が誤解を招く可能性がある。
私たちが研究している要因のうち、データセットの選択、完成専用マスキング、およびポストトレーニング中の注意層は、生成品質に最も大きな影響を及ぼす。
我々の最良のハイブリッド-KDAモデルは、知識ベンチマークにおける教師の精度の86-90\%を維持しながら、KVキャッシュメモリを最大75\%削減し、2--4$\times$ at 128K-tokenコンテキストで、第1トーケンを2--4$改善する。
関連論文リスト
- Post-Training Probability Manifold Correction via Structured SVD Pruning and Self-Referential Distillation [0.0]
Sparse Knowledge Distillation (SparseKD) は、構造化SVDプルーニングと自己参照知識蒸留を組み合わせることでトランスフォーマーモデルを圧縮する手法である。
SparseKDは、外部のスーパー教師、アーキテクチャの変更、カスタム推論カーネルを必要としないため、既存のインフラで即座にデプロイできる。
論文 参考訳(メタデータ) (2026-01-30T22:42:02Z) - Learning from Stochastic Teacher Representations Using Student-Guided Knowledge Distillation [64.15918654558816]
教師表現のフィルタリングと重み付けのための自己蒸留(SSD)訓練戦略を導入し,タスク関連表現のみから抽出する。
UCR Archiveのウェアラブル/バイオサインデータセット、HARデータセット、画像分類データセットなどの実世界の感情コンピューティングに関する実験結果は、提案したSSD手法が最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2025-04-19T14:08:56Z) - One-for-All: Bridge the Gap Between Heterogeneous Architectures in
Knowledge Distillation [69.65734716679925]
知識蒸留は,教師が指導する学習手法を通じて,モデル性能を向上させる上で,極めて効果的な手法であることが証明されている。
既存の蒸留法のほとんどは、教師と生徒のモデルが同じモデルファミリーに属するという前提で設計されている。
我々は, ヘテロジニアスアーキテクチャ間の蒸留性能を大幅に向上させる, OFA-KDという, 単純で効果的な一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元
論文 参考訳(メタデータ) (2023-10-30T11:13:02Z) - DisWOT: Student Architecture Search for Distillation WithOut Training [0.0]
我々は,教師にとって最高の学生アーキテクチャを探すための,新しい学習自由フレームワークを探究する。
我々の研究は、バニラトレーニングにおける最適モデルが蒸留の勝者にはならないことを実証的に示している。
CIFAR, ImageNet, NAS-Bench-201 を用いた実験により, 異なる検索空間における最先端の結果が得られた。
論文 参考訳(メタデータ) (2023-03-28T01:58:45Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - A Self-Paced Mixed Distillation Method for Non-Autoregressive Generation [135.84684279852098]
非自己回帰(NAR)モデルは、様々な言語生成タスクにおけるオート回帰(AR)モデルの性能が著しく低い。
NARモデルの中で、BANGは英語未ラベルの原文コーパス上で最初の大規模事前学習モデルである。
そこで本研究では,BANGの生成品質をさらに向上させる,自己ペースト混合蒸留法を提案する。
論文 参考訳(メタデータ) (2022-05-23T09:54:53Z) - Sparse Distillation: Speeding Up Text Classification by Using Bigger
Models [49.8019791766848]
最先端の変圧器モデルを軽量の学生モデルに拡張することは、推論時の計算コストを削減する効果的な方法である。
本稿では,学生モデルの設計空間における新しい領域を探索することにより,推論速度の限界をさらに推し進めることを目的とする。
実験の結果,RoBERTa-Large教師の授業成績の97%を6つのテキスト分類タスクのコレクションに保持していることがわかった。
論文 参考訳(メタデータ) (2021-10-16T10:04:14Z) - Distill2Vec: Dynamic Graph Representation Learning with Knowledge
Distillation [4.568777157687959]
訓練可能なパラメータの少ないコンパクトなモデルを学習するための知識蒸留手法であるDistill2Vecを提案する。
公開データセットを用いた実験は、いくつかの最先端アプローチよりも提案したモデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2020-11-11T09:49:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。