論文の概要: Fuzzy Speculative Decoding for a Tunable Accuracy-Runtime Tradeoff
- arxiv url: http://arxiv.org/abs/2502.20704v2
- Date: Mon, 03 Mar 2025 17:40:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-04 13:05:16.345726
- Title: Fuzzy Speculative Decoding for a Tunable Accuracy-Runtime Tradeoff
- Title(参考訳): 可変精度・実行時トレードオフのためのファジィ投機復号法
- Authors: Maximilian Holsman, Yukun Huang, Bhuwan Dhingra,
- Abstract要約: Fuzzy Speculative Decoding (FSD)は、投機的復号(SD)を一般化する復号アルゴリズムである。
本手法は,ベンチマーク精度を2%程度低下させるだけで,SDよりも高速に5トークン/秒以上の大幅なランタイム改善を実現することができる。
- 参考スコア(独自算出の注目度): 11.56474452889308
- License:
- Abstract: Speculative Decoding (SD) enforces strict distributional equivalence to the target model, limiting potential speed ups as distributions of near-equivalence achieve comparable outcomes in many cases. Furthermore, enforcing distributional equivalence means that users are unable to trade deviations from the target model distribution for further inference speed gains. To address these limitations, we introduce Fuzzy Speculative Decoding (FSD) - a decoding algorithm that generalizes SD by accepting candidate tokens purely based on the divergences between the target and draft model distributions. By allowing for controlled divergence from the target model, FSD enables users to flexibly trade generation quality for inference speed. Across several benchmarks, our method is able to achieve significant runtime improvements of over 5 tokens per second faster than SD at only an approximate 2% absolute reduction in benchmark accuracy. In many cases, FSD is even able to match SD benchmark accuracy at over 2 tokens per second faster, demonstrating that distributional equivalence is not necessary to maintain target model performance.
- Abstract(参考訳): 投機的復号法(SD: Speculative Decoding)は、ターゲットモデルに厳密な分布同値を強制し、ほぼ等価な分布が多くの場合において同等の結果を得るにつれて、潜在的な速度上昇を制限する。
さらに、分布同値の強制は、ユーザがターゲットモデル分布から逸脱を交換できず、さらに推論速度が向上することを意味する。
これらの制約に対処するために、ターゲットとドラフトモデルの分布のばらつきに基づいて、候補トークンを純粋に受け入れることでSDを一般化するFzzy Speculative Decoding (FSD)を導入する。
ターゲットモデルから制御された分岐を可能にすることで、FSDはユーザが推論速度に対して柔軟に生成品質を交換することができる。
いくつかのベンチマークにおいて,ベンチマーク精度を2%程度低下させるだけで,SDよりも高速な5トークン/秒以上の実行時改善を実現している。
多くの場合、FSDはSDベンチマークの精度を毎秒2以上のトークンで高速にマッチングすることができ、ターゲットモデルの性能を維持するために分布同値性は必要ないことを証明している。
関連論文リスト
- Weak-to-Strong Diffusion with Reflection [56.39451539396458]
Weak-to-Strong Diffusion (W2SD) を提案し、理想モデルと強モデルとのギャップを近似する。
広範囲な実験により、W2SDは人間の嗜好、美的品質、即効性を改善することが示されている。
論文 参考訳(メタデータ) (2025-02-01T16:00:08Z) - Accelerating LLM Inference with Lossless Speculative Decoding Algorithms for Heterogeneous Vocabularies [10.971976066073442]
投機的復号法(SD法)は、単一の目標フォワードパスを使用して複数のトークンを生成することにより、実質的な効率向上をもたらす。
既存のSDアプローチでは、ドラフトラとターゲットモデルは同じ語彙を共有する必要があるため、ドラフトラのプールが制限される。
この共有語彙制約を除去する3つの新しいSD手法を提案する。
論文 参考訳(メタデータ) (2025-01-31T19:13:58Z) - Robust Fine-tuning of Zero-shot Models via Variance Reduction [56.360865951192324]
微調整ゼロショットモデルの場合、このデシドラトゥムは細調整モデルで、分布内(ID)と分布外(OOD)の両方で優れる。
トレードオフを伴わずに最適なIDとOODの精度を同時に達成できるサンプルワイズアンサンブル手法を提案する。
論文 参考訳(メタデータ) (2024-11-11T13:13:39Z) - Provable Acceleration for Diffusion Models under Minimal Assumptions [8.15094483029656]
そこで本研究では,スコアベースサンプルの学習自由化手法を提案する。
最小限の仮定の下で、我々のスキームは$widetildeO(d5/4/sqrtvarepsilon)$で全変量を達成する。
論文 参考訳(メタデータ) (2024-10-30T17:59:06Z) - Broadening Target Distributions for Accelerated Diffusion Models via a Novel Analysis Approach [49.97755400231656]
本研究では,新しいDDPMサンプリング器が,これまで考慮されていなかった3種類の分散クラスに対して高速化性能を実現することを示す。
この結果から, DDPM型加速サンプリング器におけるデータ次元$d$への依存性が改善された。
論文 参考訳(メタデータ) (2024-02-21T16:11:47Z) - Delving into Probabilistic Uncertainty for Unsupervised Domain Adaptive
Person Re-Identification [54.174146346387204]
ドメイン適応型人物再識別のための確率的不確実性誘導プログレッシブラベル精錬(P$2$LR)という手法を提案する。
擬似ラベルの不確実性を測定し、ネットワークトレーニングを容易にする定量的基準を確立する。
本手法はDuke2Marketタスクではベースラインが6.5%,Market2MSMTタスクでは2.5%,最先端手法では2.5%を上回った。
論文 参考訳(メタデータ) (2021-12-28T07:40:12Z) - Predicting with Confidence on Unseen Distributions [90.68414180153897]
ドメイン適応と予測不確実性文学を結びつけて、挑戦的な未知分布のモデル精度を予測する。
分類器の予測における信頼度(DoC)の差は,様々な変化に対して,分類器の性能変化を推定することに成功した。
具体的には, 合成分布と自然分布の区別について検討し, その単純さにもかかわらず, DoCは分布差の定量化に優れることを示した。
論文 参考訳(メタデータ) (2021-07-07T15:50:18Z) - Search What You Want: Barrier Panelty NAS for Mixed Precision
Quantization [51.26579110596767]
混合精度量子化のための新しいバリアペナルティベースNAS(BP-NAS)を提案する。
BP-NASは、分類(Cifar-10, ImageNet)と検出(COCO)の両方に基づいて芸術の新たな状態を設定する
論文 参考訳(メタデータ) (2020-07-20T12:00:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。