Fugu-MT 論文翻訳(概要): Fuzzy Speculative Decoding for a Tunable Accuracy-Runtime Tradeoff

論文の概要: Fuzzy Speculative Decoding for a Tunable Accuracy-Runtime Tradeoff

arxiv url: http://arxiv.org/abs/2502.20704v2
Date: Mon, 03 Mar 2025 17:40:12 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-04 15:02:13.788334
Title: Fuzzy Speculative Decoding for a Tunable Accuracy-Runtime Tradeoff
Title（参考訳）: 可変精度・実行時トレードオフのためのファジィ投機復号法
Authors: Maximilian Holsman, Yukun Huang, Bhuwan Dhingra,
Abstract要約: Fuzzy Speculative Decoding (FSD)は、投機的復号(SD)を一般化する復号アルゴリズムである。本手法は,ベンチマーク精度を2%程度低下させるだけで,SDよりも高速に5トークン/秒以上の大幅なランタイム改善を実現することができる。
参考スコア（独自算出の注目度）: 11.56474452889308
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Speculative Decoding (SD) enforces strict distributional equivalence to the target model, limiting potential speed ups as distributions of near-equivalence achieve comparable outcomes in many cases. Furthermore, enforcing distributional equivalence means that users are unable to trade deviations from the target model distribution for further inference speed gains. To address these limitations, we introduce Fuzzy Speculative Decoding (FSD) - a decoding algorithm that generalizes SD by accepting candidate tokens purely based on the divergences between the target and draft model distributions. By allowing for controlled divergence from the target model, FSD enables users to flexibly trade generation quality for inference speed. Across several benchmarks, our method is able to achieve significant runtime improvements of over 5 tokens per second faster than SD at only an approximate 2% absolute reduction in benchmark accuracy. In many cases, FSD is even able to match SD benchmark accuracy at over 2 tokens per second faster, demonstrating that distributional equivalence is not necessary to maintain target model performance.
Abstract（参考訳）: 投機的復号法(SD: Speculative Decoding)は、ターゲットモデルに厳密な分布同値を強制し、ほぼ等価な分布が多くの場合において同等の結果を得るにつれて、潜在的な速度上昇を制限する。さらに、分布同値の強制は、ユーザがターゲットモデル分布から逸脱を交換できず、さらに推論速度が向上することを意味する。これらの制約に対処するために、ターゲットとドラフトモデルの分布のばらつきに基づいて、候補トークンを純粋に受け入れることでSDを一般化するFzzy Speculative Decoding (FSD)を導入する。ターゲットモデルから制御された分岐を可能にすることで、FSDはユーザが推論速度に対して柔軟に生成品質を交換することができる。いくつかのベンチマークにおいて,ベンチマーク精度を2%程度低下させるだけで,SDよりも高速な5トークン/秒以上の実行時改善を実現している。多くの場合、FSDはSDベンチマークの精度を毎秒2以上のトークンで高速にマッチングすることができ、ターゲットモデルの性能を維持するために分布同値性は必要ないことを証明している。

関連論文リスト

Consultant Decoding: Yet Another Synergistic Mechanism [49.996656694586164]
コンサルタント・デコーディング(CD)は、大きな言語モデルでのみ計算されるトークンレベルの確率を用いて、候補のドラフトを検証する。 CDは、目標モデルと比較して2.5倍の推論速度向上を実現し、同等の生成品質を維持している。
論文参考訳（メタデータ） (2025-06-03T03:13:27Z)
AutoJudge: Judge Decoding Without Manual Annotation [10.411318392966358]
AutoJudgeは大規模言語モデル(LLM)推論をタスク固有の損失投機的デコードで高速化するフレームワークである。ターゲットモデルとドラフトモデルのミスマッチのどれを修正すべきかを,半グレディ探索アルゴリズムを用いて検証する。次に、既存のLLM埋め込みに基づいて軽量な分類器をトレーニングし、推論時にトークンのミスマッチを安全に受け入れることができるように予測する。
論文参考訳（メタデータ） (2025-04-28T17:59:28Z)
DReSD: Dense Retrieval for Speculative Decoding [8.220217498103315]
投機的復号 (SD) は、効率的なドラフトモデルを用いて、Large Language Model (LLM) の生成を加速する。我々は,非パラメトリックデータストアから次のトークンを検索するSDに着目した。 Dretrieval for Speculative Decoding (DRESD) は、近距離の近接探索と文脈化トークンの埋め込みを利用する新しいフレームワークである。
論文参考訳（メタデータ） (2025-02-21T16:32:28Z)
Weak-to-Strong Diffusion with Reflection [56.39451539396458]
Weak-to-Strong Diffusion (W2SD) を提案し、理想モデルと強モデルとのギャップを近似する。広範囲な実験により、W2SDは人間の嗜好、美的品質、即効性を改善することが示されている。
論文参考訳（メタデータ） (2025-02-01T16:00:08Z)
Accelerating LLM Inference with Lossless Speculative Decoding Algorithms for Heterogeneous Vocabularies [10.971976066073442]
投機的復号法(SD法)は、単一の目標フォワードパスを使用して複数のトークンを生成することにより、実質的な効率向上をもたらす。既存のSDアプローチでは、ドラフトラとターゲットモデルは同じ語彙を共有する必要があるため、ドラフトラのプールが制限される。この共有語彙制約を除去する3つの新しいSD手法を提案する。
論文参考訳（メタデータ） (2025-01-31T19:13:58Z)
Draft Model Knows When to Stop: A Self-Verification Length Policy for Speculative Decoding [48.35612830487145]
SVIPは投機的復号システムのための動的ドラフト長ポリシーである。 SVIPは、ドラフトトークンの受け入れ率と推論時間近似の理論的下限に基づいて、ドラフトシーケンスの長さを適応的に決定する。 SVIPは完全にトレーニングフリーで、ドラフトトークンを自動回帰的に生成する既存のSDメソッドと互換性がある。
論文参考訳（メタデータ） (2024-11-27T15:53:17Z)
Robust Fine-tuning of Zero-shot Models via Variance Reduction [56.360865951192324]
微調整ゼロショットモデルの場合、このデシドラトゥムは細調整モデルで、分布内(ID)と分布外(OOD)の両方で優れる。トレードオフを伴わずに最適なIDとOODの精度を同時に達成できるサンプルワイズアンサンブル手法を提案する。
論文参考訳（メタデータ） (2024-11-11T13:13:39Z)
Provable Acceleration for Diffusion Models under Minimal Assumptions [8.15094483029656]
そこで本研究では,スコアベースサンプルの学習自由化手法を提案する。最小限の仮定の下で、我々のスキームは$widetildeO(d5/4/sqrtvarepsilon)$で全変量を達成する。
論文参考訳（メタデータ） (2024-10-30T17:59:06Z)
Low Saturation Confidence Distribution-based Test-Time Adaptation for Cross-Domain Remote Sensing Image Classification [4.7514513970228425]
Unsupervised Domain Adaptation (UDA)は、様々なリモートセンシング(RS)アプリケーション間の分散シフトに対処する強力な技術として登場した。ほとんどのUDAアプローチでは、データプライバシや送信制限のため、ソースデータへのアクセスが必要になります。低飽和度分布テスト時間適応(D-TTA)マーケティングは、クロスドメインRS画像分類のためのテスト時間適応を探求する最初の試みである。
論文参考訳（メタデータ） (2024-08-29T05:04:25Z)
Speculative Diffusion Decoding: Accelerating Language Generation through Diffusion [55.0194604505437]
投機的復号化は,大規模言語モデル推論を高速化する手法として広く採用されている。本稿では,離散拡散モデルを用いてドラフトシーケンスを生成する投機的復号法を提案する。
論文参考訳（メタデータ） (2024-08-10T21:24:25Z)
Digital Twin-Assisted Data-Driven Optimization for Reliable Edge Caching in Wireless Networks [60.54852710216738]
我々はD-RECと呼ばれる新しいデジタルツインアシスト最適化フレームワークを導入し、次世代無線ネットワークにおける信頼性の高いキャッシュを実現する。信頼性モジュールを制約付き決定プロセスに組み込むことで、D-RECは、有利な制約に従うために、アクション、報酬、状態を適応的に調整することができる。
論文参考訳（メタデータ） (2024-06-29T02:40:28Z)
Broadening Target Distributions for Accelerated Diffusion Models via a Novel Analysis Approach [49.97755400231656]
本研究では,新しいDDPMサンプリング器が,これまで考慮されていなかった3種類の分散クラスに対して高速化性能を実現することを示す。この結果から, DDPM型加速サンプリング器におけるデータ次元$d$への依存性が改善された。
論文参考訳（メタデータ） (2024-02-21T16:11:47Z)
Practical Conformer: Optimizing size, speed and flops of Conformer for on-Device and cloud ASR [67.63332492134332]
我々は、デバイス上の制約を満たすのに十分小さく、TPUを高速に推論できる最適化されたコンバータを設計する。提案するエンコーダは、デバイス上では強力なスタンドアロンエンコーダとして、また高性能なASRパイプラインの第1部として利用することができる。
論文参考訳（メタデータ） (2023-03-31T23:30:48Z)
Delving into Probabilistic Uncertainty for Unsupervised Domain Adaptive Person Re-Identification [54.174146346387204]
ドメイン適応型人物再識別のための確率的不確実性誘導プログレッシブラベル精錬(P$2$LR)という手法を提案する。擬似ラベルの不確実性を測定し、ネットワークトレーニングを容易にする定量的基準を確立する。本手法はDuke2Marketタスクではベースラインが6.5%,Market2MSMTタスクでは2.5%,最先端手法では2.5%を上回った。
論文参考訳（メタデータ） (2021-12-28T07:40:12Z)
Predicting with Confidence on Unseen Distributions [90.68414180153897]
ドメイン適応と予測不確実性文学を結びつけて、挑戦的な未知分布のモデル精度を予測する。分類器の予測における信頼度(DoC)の差は,様々な変化に対して,分類器の性能変化を推定することに成功した。具体的には, 合成分布と自然分布の区別について検討し, その単純さにもかかわらず, DoCは分布差の定量化に優れることを示した。
論文参考訳（メタデータ） (2021-07-07T15:50:18Z)
Search What You Want: Barrier Panelty NAS for Mixed Precision Quantization [51.26579110596767]
混合精度量子化のための新しいバリアペナルティベースNAS(BP-NAS)を提案する。 BP-NASは、分類(Cifar-10, ImageNet)と検出(COCO)の両方に基づいて芸術の新たな状態を設定する
論文参考訳（メタデータ） (2020-07-20T12:00:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。