論文の概要: SDFP: Speculative Decoding with FIT-Pruned Models for Training-Free and Plug-and-Play LLM Acceleration
- arxiv url: http://arxiv.org/abs/2602.05499v1
- Date: Thu, 05 Feb 2026 10:02:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.875547
- Title: SDFP: Speculative Decoding with FIT-Pruned Models for Training-Free and Plug-and-Play LLM Acceleration
- Title(参考訳): SDFP:フリー・プラグ・アンド・プレイLDM高速化のためのFIT処理モデルによる投機的復号化
- Authors: Hanyu Wei, Zunhai Su, Peng Lu, Chao Li, Spandan Tiwari, Ashish Sirasao, Yuhan Dong,
- Abstract要約: 大型言語モデル(LLM)は、キャプション、検索、レコメンデーション、クリエイティブコンテンツ生成といったインタラクティブなマルチメディアアプリケーションを支える。
投機的復号化は、軽量なドラフトモデルを使用してレイテンシを低減するが、効果的なドラフトモデルを取得し、チューニングし、維持するコストと複雑さによって、デプロイメントは制限されることが多い。
我々は,FIT(Fisher Information Trace)をベースとしたLLMのレイヤプルーニングによるドラフトモデルを構築する,完全トレーニングフリーでプラグイン・アンド・プレイのフレームワークであるSDFPを提案する。
- 参考スコア(独自算出の注目度): 13.369324372222735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) underpin interactive multimedia applications such as captioning, retrieval, recommendation, and creative content generation, yet their autoregressive decoding incurs substantial latency. Speculative decoding reduces latency using a lightweight draft model, but deployment is often limited by the cost and complexity of acquiring, tuning, and maintaining an effective draft model. Recent approaches usually require auxiliary training or specialization, and even training-free methods incur costly search or optimization. We propose SDFP, a fully training-free and plug-and-play framework that builds the draft model via Fisher Information Trace (FIT)-based layer pruning of a given LLM. Using layer sensitivity as a proxy for output perturbation, SDFP removes low-impact layers to obtain a compact draft while preserving compatibility with the original model for standard speculative verification. SDFP needs no additional training, hyperparameter tuning, or separately maintained drafts, enabling rapid, deployment-friendly draft construction. Across benchmarks, SDFP delivers 1.32x-1.5x decoding speedup without altering the target model's output distribution, supporting low-latency multimedia applications.
- Abstract(参考訳): 大規模言語モデル(LLM)は、キャプション、検索、レコメンデーション、クリエイティブコンテンツ生成などのインタラクティブなマルチメディアアプリケーションを支えるが、その自己回帰デコードにはかなりの遅延がある。
投機的復号化は、軽量なドラフトモデルを使用してレイテンシを低減するが、効果的なドラフトモデルを取得し、チューニングし、維持するコストと複雑さによって、デプロイメントは制限されることが多い。
最近の手法では、通常補助的な訓練や専門化が必要であり、訓練のない方法でさえコストのかかる探索や最適化を必要とする。
我々は,FIT(Fisher Information Trace)ベースのLLM層プルーニングによるドラフトモデルを構築する,フルトレーニングフリーでプラグイン・アンド・プレイのフレームワークであるSDFPを提案する。
SDFPは出力摂動のプロキシとして層感度を使用し、標準投機的検証のために元のモデルとの互換性を維持しながら、低インパクト層を除去してコンパクトなドラフトを得る。
SDFPは、追加のトレーニング、ハイパーパラメータチューニング、あるいは個別にメンテナンスされたドラフトを必要としないため、迅速なデプロイメントフレンドリーなドラフト構築を可能にしている。
ベンチマーク全体で、SDFPはターゲットモデルの出力分布を変更することなく1.32x-1.5xデコードスピードアップを提供し、低レイテンシのマルチメディアアプリケーションをサポートする。
関連論文リスト
- TIDE: Temporal Incremental Draft Engine for Self-Improving LLM Inference [1.0091292967761423]
TIDEは、オンラインドラフト適応を直接高性能なLLM推論システムに統合する、サービスエンジニアリングネイティブフレームワークである。
TIDEは、推論中に生成されたターゲットモデルをトレーニング信号として再利用し、ターゲットモデルを再ロードすることなく、ゼロオーバーヘッドのドラフト適応を可能にする。
さまざまな現実世界のワークロードに対して、TIDEは静的投機的復号化よりも最大1.15倍のスループット向上を実現している。
論文 参考訳(メタデータ) (2026-02-05T00:06:12Z) - A Low-Complexity Plug-and-Play Deep Learning Model for Generalizable Massive MIMO Precoding [2.3676623211643704]
MMIMO(Massive multiple-input multiple-output)ダウンリンクプリコーディングはスペクトル効率が高い。
既存のディープラーニング(DL)ベースのソリューションは堅牢性に欠けることが多く、デプロイメントサイト毎に再トレーニングが必要になる。
本稿では,完全ディジタル(FDP)またはハイブリッドビームフォーミング(HBF)プリコーディングのトレーニングが可能なバックボーン付きプラグアンドプレイプリコーダ(PaPP)を提案する。
論文 参考訳(メタデータ) (2026-01-29T15:56:07Z) - Temporal Guidance for Large Language Models [22.7968403903992]
我々は,時間的次元,すなわち時間的条件ガイダンス(TeGu)に沿った新たなコントラスト誘導戦略を提案する。
提案手法は,マルチトークン予測(MTP)を利用して,モデル自己コントラストに対する弱いアマチュア予測を構築する。
さまざまなモデルシリーズとベンチマークで、TeGuはメモリ消費と計算オーバーヘッドを低く保ちながら、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2026-01-29T14:01:00Z) - VAE-REPA: Variational Autoencoder Representation Alignment for Efficient Diffusion Training [53.09658039757408]
本稿では,効率的な拡散訓練のための軽量な固有ガイダンスフレームワークである textbfnamex を提案する。
nameは、拡散トランスフォーマーの中間潜時特徴を、軽量なプロジェクション層を介してVAE特徴と整列し、特徴アライメントロスによって教師される。
実験により、バニラ拡散変圧器と比較して、名称が生成品質とトレーニング収束速度の両方を改善することが示された。
論文 参考訳(メタデータ) (2026-01-25T13:22:38Z) - Scaling LLM Speculative Decoding: Non-Autoregressive Forecasting in Large-Batch Scenarios [76.85739138203014]
本稿では,一方向および注目メカニズムを加速する新しいアーキテクチャであるSpecFormerを紹介する。
また,SpecFormerはトレーニング要求の低減と計算コストの削減を実現している。
論文 参考訳(メタデータ) (2025-11-25T14:20:08Z) - Cost-Aware Contrastive Routing for LLMs [57.30288453580456]
我々は、プロンプトとモデルの両方を共有埋め込み空間にマッピングする軽量フレームワークであるコストスペクトルコントラストルーティング(CSCR)を紹介します。
CSCRはベースラインを一貫して上回り、精度とコストのトレードオフを最大25%改善した。
論文 参考訳(メタデータ) (2025-08-17T20:16:44Z) - Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding [51.711605076319216]
拡散に基づく大規模言語モデル (Diffusion LLM) は、並列復号機能を持つ非自己回帰テキスト生成を約束している。
本稿では,双方向拡散モデルに適したブロック単位で近似したKVキャッシュ機構を提案する。
本稿では,信頼しきい値を超えるトークンを選択的に復号し,依存関係違反を軽減し,生成品質を維持できる信頼度対応並列復号方式を提案する。
論文 参考訳(メタデータ) (2025-05-28T17:39:15Z) - SWIFT: On-the-Fly Self-Speculative Decoding for LLM Inference Acceleration [10.970637831760136]
投機的復号法(SD)は,LLM推論を品質を損なうことなく高速化するためのパラダイムとして広く用いられている。
本稿では,LLMの中間層を適応的に選択して推論時にスキップする,オンザフライの自己投機的復号アルゴリズムであるSWIFTを紹介する。
実験により,SWIFTは生成したテキストの元の分布を保ちながら,1.3x-1.6x以上の高速化を実現することができることを示した。
論文 参考訳(メタデータ) (2024-10-09T14:15:30Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。