論文の概要: Fuzzy Speculative Decoding for a Tunable Accuracy-Runtime Tradeoff
- arxiv url: http://arxiv.org/abs/2502.20704v4
- Date: Tue, 03 Jun 2025 16:08:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 04:22:50.528441
- Title: Fuzzy Speculative Decoding for a Tunable Accuracy-Runtime Tradeoff
- Title(参考訳): 可変精度・実行時トレードオフのためのファジィ投機復号法
- Authors: Maximilian Holsman, Yukun Huang, Bhuwan Dhingra,
- Abstract要約: 投機的復号(SD)は、候補トークンを受け入れる際にターゲットモデルに厳密な分布同値を強制する。
本稿では,Fazy Speculative Decoding (FSD)を導入し,ターゲットとドラフトモデルの分布の相違点に基づいて候補トークンを受け付け,SDを一般化するアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 11.56474452889308
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speculative Decoding (SD) enforces strict distributional equivalence to the target model when accepting candidate tokens. While it maintains the target model's generation quality, this strict equivalence limits the speedup achievable by SD and prevents users from trading deviations from the target distribution in exchange for further inference speed gains. To address these limitations, we introduce Fuzzy Speculative Decoding (FSD) - a decoding algorithm that generalizes SD by accepting candidate tokens based on the divergences between the target and draft model distributions. By allowing for controlled divergence from the target model, FSD enables users to flexibly trade generation quality for inference speed. Across several benchmarks, our method is able to achieve significant runtime improvements of over 5 tokens per second faster than SD at only an approximate 2% absolute reduction in benchmark accuracy. In many cases, FSD is even able to match SD benchmark accuracy at over 2 tokens per second faster, demonstrating that distributional equivalence is not necessary to maintain target model performance. Furthermore, FSD can be seamlessly integrated into existing SD extensions; we demonstrate this by applying FSD to EAGLE-2, greatly enhancing this existing extension's efficiency while allowing it to leverage FSD's tunable quality-speed trade-off.
- Abstract(参考訳): 投機的復号(SD)は、候補トークンを受け入れる際にターゲットモデルに厳密な分布同値を強制する。
ターゲットモデルの生成品質は維持されるが、この厳密な等価性はSDによって達成可能なスピードアップを制限し、さらに推論速度の向上と引き換えに、ユーザはターゲット分布から逸脱することを防ぐ。
これらの制約に対処するために、ターゲットとドラフトモデルの分布のばらつきに基づいて候補トークンを受け付け、SDを一般化するFzzy Speculative Decoding (FSD)を導入する。
ターゲットモデルから制御された分岐を可能にすることで、FSDはユーザが推論速度に対して柔軟に生成品質を交換することができる。
いくつかのベンチマークにおいて,ベンチマーク精度を2%程度低下させるだけで,SDよりも高速な5トークン/秒以上の実行時改善を実現している。
多くの場合、FSDはSDベンチマークの精度を毎秒2以上のトークンで高速にマッチングすることができ、ターゲットモデルの性能を維持するために分布同値性は必要ないことを証明している。
さらに、既存のSD拡張にFSDをシームレスに統合し、EDGLE-2にFSDを適用することにより、既存の拡張の効率を大幅に向上し、FSDのチューニング可能な品質-速度トレードオフを活用できることを実証する。
関連論文リスト
- AutoJudge: Judge Decoding Without Manual Annotation [10.411318392966358]
AutoJudgeは大規模言語モデル(LLM)推論をタスク固有の損失投機的デコードで高速化するフレームワークである。
ターゲットモデルとドラフトモデルのミスマッチのどれを修正すべきかを,半グレディ探索アルゴリズムを用いて検証する。
次に、既存のLLM埋め込みに基づいて軽量な分類器をトレーニングし、推論時にトークンのミスマッチを安全に受け入れることができるように予測する。
論文 参考訳(メタデータ) (2025-04-28T17:59:28Z) - Weak-to-Strong Diffusion with Reflection [56.39451539396458]
Weak-to-Strong Diffusion (W2SD) を提案し、理想モデルと強モデルとのギャップを近似する。
広範囲な実験により、W2SDは人間の嗜好、美的品質、即効性を改善することが示されている。
論文 参考訳(メタデータ) (2025-02-01T16:00:08Z) - Accelerating LLM Inference with Lossless Speculative Decoding Algorithms for Heterogeneous Vocabularies [10.971976066073442]
投機的復号法(SD法)は、単一の目標フォワードパスを使用して複数のトークンを生成することにより、実質的な効率向上をもたらす。
既存のSDアプローチでは、ドラフトラとターゲットモデルは同じ語彙を共有する必要があるため、ドラフトラのプールが制限される。
この共有語彙制約を除去する3つの新しいSD手法を提案する。
論文 参考訳(メタデータ) (2025-01-31T19:13:58Z) - Robust Fine-tuning of Zero-shot Models via Variance Reduction [56.360865951192324]
微調整ゼロショットモデルの場合、このデシドラトゥムは細調整モデルで、分布内(ID)と分布外(OOD)の両方で優れる。
トレードオフを伴わずに最適なIDとOODの精度を同時に達成できるサンプルワイズアンサンブル手法を提案する。
論文 参考訳(メタデータ) (2024-11-11T13:13:39Z) - Provable Acceleration for Diffusion Models under Minimal Assumptions [8.15094483029656]
そこで本研究では,スコアベースサンプルの学習自由化手法を提案する。
最小限の仮定の下で、我々のスキームは$widetildeO(d5/4/sqrtvarepsilon)$で全変量を達成する。
論文 参考訳(メタデータ) (2024-10-30T17:59:06Z) - Low Saturation Confidence Distribution-based Test-Time Adaptation for Cross-Domain Remote Sensing Image Classification [4.7514513970228425]
Unsupervised Domain Adaptation (UDA)は、様々なリモートセンシング(RS)アプリケーション間の分散シフトに対処する強力な技術として登場した。
ほとんどのUDAアプローチでは、データプライバシや送信制限のため、ソースデータへのアクセスが必要になります。
低飽和度分布テスト時間適応(D-TTA)マーケティングは、クロスドメインRS画像分類のためのテスト時間適応を探求する最初の試みである。
論文 参考訳(メタデータ) (2024-08-29T05:04:25Z) - Speculative Diffusion Decoding: Accelerating Language Generation through Diffusion [55.0194604505437]
投機的復号化は,大規模言語モデル推論を高速化する手法として広く採用されている。
本稿では,離散拡散モデルを用いてドラフトシーケンスを生成する投機的復号法を提案する。
論文 参考訳(メタデータ) (2024-08-10T21:24:25Z) - Broadening Target Distributions for Accelerated Diffusion Models via a Novel Analysis Approach [49.97755400231656]
本研究では,新しいDDPMサンプリング器が,これまで考慮されていなかった3種類の分散クラスに対して高速化性能を実現することを示す。
この結果から, DDPM型加速サンプリング器におけるデータ次元$d$への依存性が改善された。
論文 参考訳(メタデータ) (2024-02-21T16:11:47Z) - Delving into Probabilistic Uncertainty for Unsupervised Domain Adaptive
Person Re-Identification [54.174146346387204]
ドメイン適応型人物再識別のための確率的不確実性誘導プログレッシブラベル精錬(P$2$LR)という手法を提案する。
擬似ラベルの不確実性を測定し、ネットワークトレーニングを容易にする定量的基準を確立する。
本手法はDuke2Marketタスクではベースラインが6.5%,Market2MSMTタスクでは2.5%,最先端手法では2.5%を上回った。
論文 参考訳(メタデータ) (2021-12-28T07:40:12Z) - Predicting with Confidence on Unseen Distributions [90.68414180153897]
ドメイン適応と予測不確実性文学を結びつけて、挑戦的な未知分布のモデル精度を予測する。
分類器の予測における信頼度(DoC)の差は,様々な変化に対して,分類器の性能変化を推定することに成功した。
具体的には, 合成分布と自然分布の区別について検討し, その単純さにもかかわらず, DoCは分布差の定量化に優れることを示した。
論文 参考訳(メタデータ) (2021-07-07T15:50:18Z) - Search What You Want: Barrier Panelty NAS for Mixed Precision
Quantization [51.26579110596767]
混合精度量子化のための新しいバリアペナルティベースNAS(BP-NAS)を提案する。
BP-NASは、分類(Cifar-10, ImageNet)と検出(COCO)の両方に基づいて芸術の新たな状態を設定する
論文 参考訳(メタデータ) (2020-07-20T12:00:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。