論文の概要: Towards Optimal Multi-draft Speculative Decoding
- arxiv url: http://arxiv.org/abs/2502.18779v1
- Date: Wed, 26 Feb 2025 03:22:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 14:57:07.662524
- Title: Towards Optimal Multi-draft Speculative Decoding
- Title(参考訳): 最適マルチドラフト投機復号化に向けて
- Authors: Zhengmian Hu, Tong Zheng, Vignesh Viswanathan, Ziyi Chen, Ryan A. Rossi, Yihan Wu, Dinesh Manocha, Heng Huang,
- Abstract要約: MDSD(Multi-Draft Speculative Decoding)は、各トークンを生成する際に、小さなドラフトモデルで複数のドラフトを生成する手法である。
本稿では、最適輸送問題の双対性について論じ、最適受容率を効率的に計算する方法を提供する。
- 参考スコア(独自算出の注目度): 102.67837141152232
- License:
- Abstract: Large Language Models (LLMs) have become an indispensable part of natural language processing tasks. However, autoregressive sampling has become an efficiency bottleneck. Multi-Draft Speculative Decoding (MDSD) is a recent approach where, when generating each token, a small draft model generates multiple drafts, and the target LLM verifies them in parallel, ensuring that the final output conforms to the target model distribution. The two main design choices in MDSD are the draft sampling method and the verification algorithm. For a fixed draft sampling method, the optimal acceptance rate is a solution to an optimal transport problem, but the complexity of this problem makes it difficult to solve for the optimal acceptance rate and measure the gap between existing verification algorithms and the theoretical upper bound. This paper discusses the dual of the optimal transport problem, providing a way to efficiently compute the optimal acceptance rate. For the first time, we measure the theoretical upper bound of MDSD efficiency for vocabulary sizes in the thousands and quantify the gap between existing verification algorithms and this bound. We also compare different draft sampling methods based on their optimal acceptance rates. Our results show that the draft sampling method strongly influences the optimal acceptance rate, with sampling without replacement outperforming sampling with replacement. Additionally, existing verification algorithms do not reach the theoretical upper bound for both without replacement and with replacement sampling. Our findings suggest that carefully designed draft sampling methods can potentially improve the optimal acceptance rate and enable the development of verification algorithms that closely match the theoretical upper bound.
- Abstract(参考訳): 大規模言語モデル(LLM)は自然言語処理タスクの必須部分となっている。
しかし、自己回帰サンプリングは効率のボトルネックとなっている。
MDSD(Multi-Draft Speculative Decoding)は、各トークンを生成するとき、小さなドラフトモデルが複数のドラフトを生成し、ターゲットのLSMがそれらを並列に検証し、最終的な出力がターゲットのモデル分布に適合することを保証する、最近のアプローチである。
MDSDの主な設計選択は、ドラフトサンプリング法と検証アルゴリズムである。
固定されたドラフトサンプリング法では、最適受け入れ率は最適な輸送問題の解であるが、この問題の複雑さは、最適受け入れ率の解決を困難にし、既存の検証アルゴリズムと理論上界とのギャップを計測する。
本稿では、最適輸送問題の双対性について論じ、最適受容率を効率的に計算する方法を提供する。
最初に,数千の語彙サイズのMDSD効率の理論的上限を測定し,既存の検証アルゴリズムとこの境界とのギャップを定量化する。
また、最適な受入率に基づいて、異なるサンプルサンプリング手法を比較した。
提案手法は, サンプリングを置き換えることなく, サンプリングを最適化し, サンプリング率に強く影響を与えることを示す。
さらに、既存の検証アルゴリズムは置換と置換サンプリングなしで理論上界に到達しない。
提案手法は,提案手法を慎重に設計することにより,最適受入率を向上し,理論上界に密接に適合する検証アルゴリズムの開発を可能にすることが示唆された。
関連論文リスト
- Adaptive Sampled Softmax with Inverted Multi-Index: Methods, Theory and Applications [79.53938312089308]
MIDX-Samplerは、逆多重インデックスアプローチに基づく新しい適応型サンプリング戦略である。
本手法は, サンプリングバイアス, 勾配バイアス, 収束速度, 一般化誤差境界などの重要な問題に対処するため, 厳密な理論的解析によって裏付けられている。
論文 参考訳(メタデータ) (2025-01-15T04:09:21Z) - Vector Optimization with Gaussian Process Bandits [7.049738935364297]
複数の目的を同時に考慮しなければならない学習問題は、工学、薬物設計、環境管理など、様々な分野においてしばしば発生する。
複数のブラックボックスの目的関数を扱う従来の方法は、目的の選好を取り入れ、それに応じて解空間を探索することに制限がある。
ガウス過程の帯域幅を用いてブラックボックスベクトル最適化を行う適応除去アルゴリズムであるガウス過程を用いたベクトル最適化(VOGP)を提案する。
論文 参考訳(メタデータ) (2024-12-03T14:47:46Z) - Faster WIND: Accelerating Iterative Best-of-$N$ Distillation for LLM Alignment [81.84950252537618]
本稿では,反復的BONDと自己プレイアライメントの統一的なゲーム理論接続を明らかにする。
WINレート支配(WIN rate Dominance, WIND)という新しいフレームワークを構築し, 正規化利率支配最適化のためのアルゴリズムを多数提案する。
論文 参考訳(メタデータ) (2024-10-28T04:47:39Z) - Multi-Draft Speculative Sampling: Canonical Architectures and Theoretical Limits [26.220189807865548]
提案手法は,異なるドラフトモデルから独立して提案シーケンスをサンプリングするマルチドラフト・投機的サンプリングについて検討する。
最適スキームを2段階の解に分解できることを示す。
論文 参考訳(メタデータ) (2024-10-23T19:28:34Z) - OD-Stega: LLM-Based Near-Imperceptible Steganography via Optimized Distributions [7.611860976107124]
本研究では,Large Language Modelが算術符号デコーダを駆動してステゴテキストを生成する,隠蔽型ステガノグラフィについて考察する。
効率的な方法は、秘密のメッセージビットをできるだけ少数の言語トークンに埋め込む必要がある。
論文 参考訳(メタデータ) (2024-10-06T01:30:45Z) - Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。
本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。
我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文 参考訳(メタデータ) (2024-07-23T06:21:24Z) - Faster Adaptive Federated Learning [84.38913517122619]
フェデレートラーニングは分散データの出現に伴って注目を集めている。
本稿では,クロスサイロFLにおけるモーメントに基づく分散低減手法に基づく適応アルゴリズム(FAFED)を提案する。
論文 参考訳(メタデータ) (2022-12-02T05:07:50Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。