論文の概要: Fast Inference via Hierarchical Speculative Decoding
- arxiv url: http://arxiv.org/abs/2510.19705v2
- Date: Thu, 23 Oct 2025 14:15:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:16.123479
- Title: Fast Inference via Hierarchical Speculative Decoding
- Title(参考訳): 階層的投機復号による高速推論
- Authors: Clara Mohri, Haim Kaplan, Tal Schuster, Yishay Mansour, Amir Globerson,
- Abstract要約: 階層的投機的復号法(HSD)は,各モデルがトークンを提案し,次に大きなモデルが1つのフォワードパスで検証する階層構造に,ドラフトモデルを積み重ねるアルゴリズムである。
HSDは最高の単軸ベースラインよりも1.2倍のスピードアップを達成している。
- 参考スコア(独自算出の注目度): 65.40448210801763
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer language models generate text autoregressively, making inference latency proportional to the number of tokens generated. Speculative decoding reduces this latency without sacrificing output quality, by leveraging a small draft model to propose tokens that the larger target model verifies in parallel. In practice, however, there may exist a set of potential draft models- ranging from faster but less inaccurate, to slower yet more reliable. We introduce Hierarchical Speculative Decoding (HSD), an algorithm that stacks these draft models into a hierarchy, where each model proposes tokens, and the next larger model verifies them in a single forward pass, until finally the target model verifies tokens. We derive an expression for the expected latency of any such hierarchy and show that selecting the latency-optimal hierarchy can be done in polynomial time. Empirically, HSD gives up to 1.2x speed-up over the best single-draft baseline, demonstrating the practicality of our algorithm in reducing generation latency beyond previous techniques.
- Abstract(参考訳): トランスフォーマー言語モデルはテキストを自動回帰的に生成し、推論遅延は生成されたトークンの数に比例する。
投機的復号化は、小さなドラフトモデルを利用して、より大きなターゲットモデルが並列に検証するトークンを提案することにより、出力品質を犠牲にすることなく、このレイテンシを低減する。
しかし実際には、より高速だが不正確なものからより遅く、より信頼性の高いものまで、潜在的なドラフトモデルが存在する可能性がある。
階層的投機的復号法(HSD)は,これらのドラフトモデルを階層構造に積み重ねるアルゴリズムで,各モデルがトークンを提案し,次の大きなモデルがトークンを単一の前方通過で検証し,最終的にターゲットモデルがトークンを検証する。
このような階層の待ち時間を表す式を導出し、待ち時間最適階層を選択することは多項式時間で可能であることを示す。
経験的に、HSDは最高の単軸ベースラインよりも最大1.2倍のスピードアップを達成し、従来の技術を超える生成遅延を低減するアルゴリズムの実用性を実証した。
関連論文リスト
- CARD: A Cache-Assisted Parallel Speculative Decoding Framework via Query-and-Correct Paradigm for Accelerating LLM Inference [14.527697328189362]
本稿では,新しいクエリ・アンド・コレクト・パラダイムを用いたCARDという投機的復号化フレームワークを提案する。
提案手法は,提案手法を検証から切り離し,詳細な調整を伴わずに効果的にドラフトモデルの効率を向上する。
CARDは既存の最先端の手法よりも優れており、バニラ自己回帰復号よりも最大4.83倍の高速化を実現している。
論文 参考訳(メタデータ) (2025-08-06T14:02:10Z) - AdaDecode: Accelerating LLM Decoding with Adaptive Layer Parallelism [17.858104076062897]
大規模言語モデル (LLM) は、長いコンテンツ生成にますます使われている。
補助モデルや元のモデルパラメータの変更を必要とせずにデコーディングを高速化するAdaDecodeを提案する。
AdaDecodeは最大1.73倍のスピードアップで優れた復号処理を実現している。
論文 参考訳(メタデータ) (2025-06-04T08:32:30Z) - DuoDecoding: Hardware-aware Heterogeneous Speculative Decoding with Dynamic Multi-Sequence Drafting [59.57151419673759]
投機的復号化は、出力分布の忠実さを維持しながら生成遅延を低減するドラフト・then-verifyフレームワークを提供する。
我々は、CPUとGPUにそれぞれドラフトモデルとターゲットモデルを戦略的にデプロイする新しいアプローチであるDuoDecodingを提案する。
本手法は,アイドル時間を最小限に抑えるため,ハードウェア対応の最適ドラフト予算を組み込んで,動的マルチシーケンスドラフトを用いて,ドラフト品質を向上させる。
論文 参考訳(メタデータ) (2025-03-02T08:27:48Z) - Lossless Acceleration of Large Language Models with Hierarchical Drafting based on Temporal Locality in Speculative Decoding [11.167833073080612]
LLM(Large Language Models)における推論の高速化は、リアルタイムインタラクションにおいて重要である。
投機的復号化は、トークンの起草と検証によって推論速度の向上に注目され、1つのフォワードパスで複数のトークンが生成される。
本稿では,時間的局所性に基づく階層型フレームワークを用いて,さまざまなトークンソースを複数のデータベースにまとめる,新しい無損失ドラフト手法である階層ドラフト(HD)を提案する。
7B と 13B のパラメータを持つ LLM を用いた Spec-Bench 実験では,HD が既存のデータベースドラフト手法より優れており,モデルサイズ,タスク,温度に対する堅牢な推論スピードアップが達成されている。
論文 参考訳(メタデータ) (2025-02-08T15:32:53Z) - Improving Multi-candidate Speculative Decoding [1.6291177798903276]
投機的復号化(SD)とは,大規模言語モデル(LLM)の推論を高速化する手法である。
そこで本研究では,ターゲットモデルによるマルチ候補生成を含むMCSDの新バージョンを提案する。
また、異なるドラフトモデルを用いたターゲットモデルマルチ候補プロセスが出力品質に及ぼす影響についても検討した。
論文 参考訳(メタデータ) (2024-09-16T18:20:38Z) - Speculative Diffusion Decoding: Accelerating Language Generation through Diffusion [55.0194604505437]
投機的復号化は,大規模言語モデル推論を高速化する手法として広く採用されている。
本稿では,離散拡散モデルを用いてドラフトシーケンスを生成する投機的復号法を提案する。
論文 参考訳(メタデータ) (2024-08-10T21:24:25Z) - Multi-Candidate Speculative Decoding [82.05519287513444]
大規模な言語モデルは、様々なNLPタスクで印象的な機能を示してきたが、その生成は自動回帰的に時間を要する。
これは高速なドラフトモデルから候補セグメントを生成し、ターゲットモデルによって並列に検証する。
本稿では,複数の候補をドラフトモデルから抽出し,検証のためにバッチにまとめる手法を提案する。
対象モデルの分布を維持しつつ,効率的な多候補検証のためのアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-01-12T17:15:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。