論文の概要: SDFP: Speculative Decoding with FIT-Pruned Models for Training-Free and Plug-and-Play LLM Acceleration
- arxiv url: http://arxiv.org/abs/2602.05499v1
- Date: Thu, 05 Feb 2026 10:02:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.875547
- Title: SDFP: Speculative Decoding with FIT-Pruned Models for Training-Free and Plug-and-Play LLM Acceleration
- Title(参考訳): SDFP:フリー・プラグ・アンド・プレイLDM高速化のためのFIT処理モデルによる投機的復号化
- Authors: Hanyu Wei, Zunhai Su, Peng Lu, Chao Li, Spandan Tiwari, Ashish Sirasao, Yuhan Dong,
- Abstract要約: 大型言語モデル(LLM)は、キャプション、検索、レコメンデーション、クリエイティブコンテンツ生成といったインタラクティブなマルチメディアアプリケーションを支える。
投機的復号化は、軽量なドラフトモデルを使用してレイテンシを低減するが、効果的なドラフトモデルを取得し、チューニングし、維持するコストと複雑さによって、デプロイメントは制限されることが多い。
我々は,FIT(Fisher Information Trace)をベースとしたLLMのレイヤプルーニングによるドラフトモデルを構築する,完全トレーニングフリーでプラグイン・アンド・プレイのフレームワークであるSDFPを提案する。
- 参考スコア(独自算出の注目度): 13.369324372222735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) underpin interactive multimedia applications such as captioning, retrieval, recommendation, and creative content generation, yet their autoregressive decoding incurs substantial latency. Speculative decoding reduces latency using a lightweight draft model, but deployment is often limited by the cost and complexity of acquiring, tuning, and maintaining an effective draft model. Recent approaches usually require auxiliary training or specialization, and even training-free methods incur costly search or optimization. We propose SDFP, a fully training-free and plug-and-play framework that builds the draft model via Fisher Information Trace (FIT)-based layer pruning of a given LLM. Using layer sensitivity as a proxy for output perturbation, SDFP removes low-impact layers to obtain a compact draft while preserving compatibility with the original model for standard speculative verification. SDFP needs no additional training, hyperparameter tuning, or separately maintained drafts, enabling rapid, deployment-friendly draft construction. Across benchmarks, SDFP delivers 1.32x-1.5x decoding speedup without altering the target model's output distribution, supporting low-latency multimedia applications.
- Abstract(参考訳): 大規模言語モデル(LLM)は、キャプション、検索、レコメンデーション、クリエイティブコンテンツ生成などのインタラクティブなマルチメディアアプリケーションを支えるが、その自己回帰デコードにはかなりの遅延がある。
投機的復号化は、軽量なドラフトモデルを使用してレイテンシを低減するが、効果的なドラフトモデルを取得し、チューニングし、維持するコストと複雑さによって、デプロイメントは制限されることが多い。
最近の手法では、通常補助的な訓練や専門化が必要であり、訓練のない方法でさえコストのかかる探索や最適化を必要とする。
我々は,FIT(Fisher Information Trace)ベースのLLM層プルーニングによるドラフトモデルを構築する,フルトレーニングフリーでプラグイン・アンド・プレイのフレームワークであるSDFPを提案する。
SDFPは出力摂動のプロキシとして層感度を使用し、標準投機的検証のために元のモデルとの互換性を維持しながら、低インパクト層を除去してコンパクトなドラフトを得る。
SDFPは、追加のトレーニング、ハイパーパラメータチューニング、あるいは個別にメンテナンスされたドラフトを必要としないため、迅速なデプロイメントフレンドリーなドラフト構築を可能にしている。
ベンチマーク全体で、SDFPはターゲットモデルの出力分布を変更することなく1.32x-1.5xデコードスピードアップを提供し、低レイテンシのマルチメディアアプリケーションをサポートする。
関連論文リスト
- TIDE: Temporal Incremental Draft Engine for Self-Improving LLM Inference [1.0091292967761423]
TIDEは、オンラインドラフト適応を直接高性能なLLM推論システムに統合する、サービスエンジニアリングネイティブフレームワークである。
TIDEは、推論中に生成されたターゲットモデルをトレーニング信号として再利用し、ターゲットモデルを再ロードすることなく、ゼロオーバーヘッドのドラフト適応を可能にする。
さまざまな現実世界のワークロードに対して、TIDEは静的投機的復号化よりも最大1.15倍のスループット向上を実現している。
論文 参考訳(メタデータ) (2026-02-05T00:06:12Z) - Scaling LLM Speculative Decoding: Non-Autoregressive Forecasting in Large-Batch Scenarios [76.85739138203014]
本稿では,一方向および注目メカニズムを加速する新しいアーキテクチャであるSpecFormerを紹介する。
また,SpecFormerはトレーニング要求の低減と計算コストの削減を実現している。
論文 参考訳(メタデータ) (2025-11-25T14:20:08Z) - Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding [51.711605076319216]
拡散に基づく大規模言語モデル (Diffusion LLM) は、並列復号機能を持つ非自己回帰テキスト生成を約束している。
本稿では,双方向拡散モデルに適したブロック単位で近似したKVキャッシュ機構を提案する。
本稿では,信頼しきい値を超えるトークンを選択的に復号し,依存関係違反を軽減し,生成品質を維持できる信頼度対応並列復号方式を提案する。
論文 参考訳(メタデータ) (2025-05-28T17:39:15Z) - SWIFT: On-the-Fly Self-Speculative Decoding for LLM Inference Acceleration [10.970637831760136]
投機的復号法(SD)は,LLM推論を品質を損なうことなく高速化するためのパラダイムとして広く用いられている。
本稿では,LLMの中間層を適応的に選択して推論時にスキップする,オンザフライの自己投機的復号アルゴリズムであるSWIFTを紹介する。
実験により,SWIFTは生成したテキストの元の分布を保ちながら,1.3x-1.6x以上の高速化を実現することができることを示した。
論文 参考訳(メタデータ) (2024-10-09T14:15:30Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。