論文の概要: AdaSPEC: Selective Knowledge Distillation for Efficient Speculative Decoders
- arxiv url: http://arxiv.org/abs/2510.19779v1
- Date: Wed, 22 Oct 2025 17:13:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:16.220908
- Title: AdaSPEC: Selective Knowledge Distillation for Efficient Speculative Decoders
- Title(参考訳): AdaSPEC:効率的な投機デコーダのための選択的知識蒸留
- Authors: Yuezhou Hu, Jiaxin Guo, Xinyu Feng, Tuo Zhao,
- Abstract要約: 投機的復号(SD)は、小さなドラフトモデルを用いて予測を生成することにより、大きな言語モデル推論を加速する。
知識蒸留(KD)は、すべてのトークンにわたるドラフトモデルとターゲットモデルの間のKLのばらつきを最小限にすることを目的としている。
選択的トークンフィルタリングをKDプロセスに組み込む新しい手法であるAdaSPECを提案する。
- 参考スコア(独自算出の注目度): 36.345954548346235
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speculative Decoding (SD) accelerates large language model inference by employing a small draft model to generate predictions, which are then verified by a larger target model. The effectiveness of SD hinges on the alignment between these models, which is typically enhanced by Knowledge Distillation (KD). However, conventional KD methods aim to minimize the KL divergence between the draft and target models across all tokens, a goal that is misaligned with the true objective of SD, which is to maximize token acceptance rate. Therefore, draft models often struggle to fully assimilate the target model's knowledge due to capacity constraints, leading to suboptimal performance. To address this challenge, we propose AdaSPEC, a novel method that incorporates selective token filtering into the KD process. AdaSPEC utilizes a reference model to identify and filter out difficult-to-fit tokens, enabling the distillation of a draft model that better aligns with the target model on simpler tokens. This approach improves the overall token acceptance rate without compromising generation quality. We evaluate AdaSPEC across diverse tasks, including arithmetic reasoning, instruction-following, coding, and summarization, using model configurations of 31M/1.4B and 350M/2.7B parameters. Our results demonstrate that AdaSPEC consistently outperforms the state-of-the-art DistillSpec method, achieving higher acceptance rates across all tasks (up to 15\%). The code is publicly available at https://github.com/yuezhouhu/adaspec.
- Abstract(参考訳): 投機的復号(SD)は、小さなドラフトモデルを用いて大きな言語モデル推論を加速し、予測を生成し、より大きなターゲットモデルで検証する。
SDヒンジがこれらのモデル間のアライメントに与える影響は、一般的に知識蒸留(KD)によって強化される。
しかしながら、従来のKD法は、トークンの受け入れ率を最大化するSDの真の目的は、すべてのトークン間でのドラフトモデルとターゲットモデル間のKLのばらつきを最小限にすることを目的としている。
したがって、ドラフトモデルは、キャパシティの制約によってターゲットモデルの知識を完全に同化することに苦慮し、亜最適性能をもたらす。
この課題に対処するために、選択的トークンフィルタリングをKDプロセスに組み込む新しい手法であるAdaSPECを提案する。
AdaSPECは参照モデルを使用して、難易度の高いトークンを識別およびフィルタリングし、より単純なトークン上でターゲットモデルとの整合性を向上するドラフトモデルの蒸留を可能にする。
このアプローチは、生成品質を損なうことなく、全体的なトークンの受け入れ率を改善する。
算術的推論,命令追従,符号化,要約など,AdaSPECを31M/1.4Bおよび350M/2.7Bパラメータのモデル構成を用いて評価する。
以上の結果から,AdaSPEC は現状の DistillSpec 法より常に優れており,全タスクに対して高い受入率(最大 15 % )を達成できることがわかった。
コードはhttps://github.com/yuezhouhu/adaspec.comで公開されている。
関連論文リスト
- Every Step Counts: Decoding Trajectories as Authorship Fingerprints of dLLMs [63.82840470917859]
本稿では,dLLMの復号化機構をモデル属性の強力なツールとして利用できることを示す。
本稿では、デコードステップ間の構造的関係を捉え、モデル固有の振る舞いをよりよく明らかにする、DDM(Directed Decoding Map)と呼ばれる新しい情報抽出手法を提案する。
論文 参考訳(メタデータ) (2025-10-02T06:25:10Z) - Speculative Verification: Exploiting Information Gain to Refine Speculative Decoding [8.36763119650407]
投機的検証は投機精度を動的に予測し、検証長を適用してスループットを最大化する。
SD性能を最大2$times$まで改善し、大容量設定では平均1.4$times$になる。
論文 参考訳(メタデータ) (2025-09-29T06:25:54Z) - Consultant Decoding: Yet Another Synergistic Mechanism [49.996656694586164]
コンサルタント・デコーディング(CD)は、大きな言語モデルでのみ計算されるトークンレベルの確率を用いて、候補のドラフトを検証する。
CDは、目標モデルと比較して2.5倍の推論速度向上を実現し、同等の生成品質を維持している。
論文 参考訳(メタデータ) (2025-06-03T03:13:27Z) - Model Inversion Attacks Through Target-Specific Conditional Diffusion Models [54.69008212790426]
モデル反転攻撃(MIA)は、ターゲット分類器のトレーニングセットからプライベートイメージを再構築することを目的としており、それによってAIアプリケーションにおけるプライバシー上の懸念が高まる。
従来のGANベースのMIAは、GANの固有の欠陥と潜伏空間における最適化の偏りにより、劣った遺伝子的忠実度に悩まされる傾向にある。
これらの問題を緩和するために拡散モデル反転(Diff-MI)攻撃を提案する。
論文 参考訳(メタデータ) (2024-07-16T06:38:49Z) - DistillSpec: Improving Speculative Decoding via Knowledge Distillation [70.61777015900272]
投機的復号(SD)は、複数のトークンを生成するためにより高速なドラフトモデルを使用することで、大きな言語モデル推論を加速する。
本稿では,SDを適用する前に,知識蒸留を用いて,ドラフトモデルとターゲットモデルとの整合性を向上するDistillSpecを提案する。
DistillSpecは標準SDよりも10~45%のスピードアップを実現しています。
論文 参考訳(メタデータ) (2023-10-12T16:21:04Z) - Online Speculative Decoding [34.987825705622555]
大規模言語モデルの推論を高速化するオンライン投機的復号法を導入する。
主なアイデアは、観測されたユーザクエリデータに対する(複数)ドラフトモデルを継続的に更新することである。
本稿では,知識蒸留に基づくオンライン投機的デコーディングのプロトタイプを開発し,合成データと実データの両方を用いて評価する。
論文 参考訳(メタデータ) (2023-10-11T04:03:42Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。