Fugu-MT 論文翻訳(概要): Parallel Speculative Decoding with Adaptive Draft Length

論文の概要: Parallel Speculative Decoding with Adaptive Draft Length

arxiv url: http://arxiv.org/abs/2408.11850v2
Date: Wed, 4 Sep 2024 13:14:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-06 19:09:05.394530
Title: Parallel Speculative Decoding with Adaptive Draft Length
Title（参考訳）: アダプティブドラフト長を用いた並列投機デコード
Authors: Tianyu Liu, Yun Li, Qitan Lv, Kai Liu, Jianchen Zhu, Winston Hu,
Abstract要約: 投機的復号化を促進するため,概念的にシンプルで柔軟で汎用的なフレームワークを提案する。 PEARLは、初期ドラフトトークンを事前に検証するためのtextitpre-verify と、検証フェーズ中により多くのドラフトトークンを生成する textitpost-verify を提案する。 PEARLは2つの戦略を適用して、ドラフトフェーズと検証フェーズを並列化し、異なるシナリオに対して適応的なドラフト長を達成する。
参考スコア（独自算出の注目度）: 10.36819001596531
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Speculative decoding (SD), where an extra draft model is employed to provide multiple \textit{draft} tokens first and then the original target model verifies these tokens in parallel, has shown great power for LLM inference acceleration. However, existing SD methods suffer from the mutual waiting problem, i.e., the target model gets stuck when the draft model is \textit{guessing} tokens, and vice versa. This problem is directly incurred by the asynchronous execution of the draft model and the target model, and is exacerbated due to the fixed draft length in speculative decoding. To address these challenges, we propose a conceptually simple, flexible, and general framework to boost speculative decoding, namely \textbf{P}arallel sp\textbf{E}culative decoding with \textbf{A}daptive d\textbf{R}aft \textbf{L}ength (PEARL). Specifically, PEARL proposes \textit{pre-verify} to verify the first draft token in advance during the drafting phase, and \textit{post-verify} to generate more draft tokens during the verification phase. PEARL parallels the drafting phase and the verification phase via applying the two strategies, and achieves adaptive draft length for different scenarios, which effectively alleviates the mutual waiting problem. Moreover, we theoretically demonstrate that the mean accepted tokens of PEARL is more than existing \textit{draft-then-verify} works. Experiments on various text generation benchmarks demonstrate the effectiveness of our \name, leading to a superior speedup performance up to \textbf{3.79$\times$} and \textbf{1.52$\times$}, compared to auto-regressive decoding and vanilla speculative decoding, respectively.
Abstract（参考訳）: 投機的復号(SD)では、まず複数の \textit{draft} トークンを提供するために追加のドラフトモデルを使用し、次に元のターゲットモデルがこれらのトークンを並列に検証する。しかし、既存のSDメソッドは、相互待ちの問題、すなわち、ドラフトモデルが \textit{guessing} トークンであるときにターゲットモデルが立ち往生する、という問題に悩まされる。この問題は、ドラフトモデルとターゲットモデルの非同期実行によって直接発生し、投機的復号における固定されたドラフト長により悪化する。これらの課題に対処するために、概念的に単純で柔軟な、投機的復号化を促進するための一般的なフレームワーク、すなわち \textbf{P}arallel sp\textbf{E}culative decoding with \textbf{A}daptive d\textbf{R}aft \textbf{L}ength (PEARL)を提案する。具体的には、ドラフトフェーズ中に事前に最初のドラフトトークンを検証するために \textit{pre-verify} と、検証フェーズ中により多くのドラフトトークンを生成するために \textit{post-verify} を提案する。 PEARLは2つの戦略を適用してドラフトフェーズと検証フェーズを並列化し、異なるシナリオに対して適応的なドラフト長を達成し、相互待ち問題を効果的に軽減する。さらに、理論上、PEARL の平均許容トークンが既存の \textit{draft-then-verify} よりも大きいことを証明している。各種テキスト生成ベンチマークの実験では、自動回帰復号法とバニラ投機復号法と比較して、より優れたスピードアップ性能を実現した。

関連論文リスト

PACER: Blockwise Pre-verification for Speculative Decoding with Adaptive Length [21.738896310075678]
投機的復号法(SD)は,大規模言語モデル(LLM)の推論過程を高速化する強力な手法である軽量でトレーニング可能な事前検証レイヤを用いて,ドラフト長を動的に制御する新しいアプローチであるPacerを提案する。以上の結果から,Pacerは自己回帰復号化よりも最大2.66倍の高速化を実現し,一貫した投機復号化を実現していることがわかった。
論文参考訳（メタデータ） (2026-02-01T15:12:38Z)
Fast Inference via Hierarchical Speculative Decoding [65.40448210801763]
階層的投機的復号法(HSD)は,各モデルがトークンを提案し,次に大きなモデルが1つのフォワードパスで検証する階層構造に,ドラフトモデルを積み重ねるアルゴリズムである。 HSDは最高の単軸ベースラインよりも1.2倍のスピードアップを達成している。
論文参考訳（メタデータ） (2025-10-22T15:56:19Z)
DiffuSpec: Unlocking Diffusion Language Models for Speculative Decoding [66.40658898418316]
DiffuSpecは、事前訓練された拡散言語モデル(DLM)を用いて、単一のフォワードパスでマルチトークンのドラフトを生成する、トレーニングフリーのドロップインフレームワークである。ベンチマーク全体を通じて、DiffuSpecは最大3倍のウォールクロックスピードアップを達成し、投機的復号化のための自己回帰型ドラフトラの堅牢な代替手段として拡散ベースのドラフトを確立する。
論文参考訳（メタデータ） (2025-09-28T07:00:15Z)
Pipeline Parallelism is All You Need for Optimized Early-Exit Based Self-Speculative Decoding [73.67253077506672]
大規模言語モデル(LLM)は、優れた生成品質を提供するが、非常に高い推論コストをもたらす。早期排他的自己投機的復号法(EESD)がこのコストを軽減するために登場した。ドラフトと検証作業を完全にパイプライン化するパイプライン・パラレル自己スペクティブ・デコーディング(PPSD)を提案する。
論文参考訳（メタデータ） (2025-09-19T04:51:41Z)
CARD: Cache-Assisted Parallel Speculative Decoding for Efficient Large Language Model Inference [19.14564724894706]
本稿では,'query-and-correct'パラダイムを用いた投機的復号化フレームワークを提案する。 CARDは、ドラフトと検証を分離する: ドラフトモデルは、共有キャッシュをポップアップさせる候補トークンを生成し、ターゲットモデルは、ドラフトモデルの生成方向を同時に修正する。提案手法では,バニラ復号法よりも最大4.83高速化が可能であり,ドラフトモデルやターゲットモデルの微調整は不要である。
論文参考訳（メタデータ） (2025-08-06T14:02:10Z)
LogitSpec: Accelerating Retrieval-based Speculative Decoding via Next Next Token Speculation [15.04977852652768]
投機的復号法(SD)はLLM推論加速のための有望な手法である。 LogitSpecは、最後のトークンのロジットが次のトークンを予測できるだけでなく、次のトークンを推測できるという観察によって動機付けられている。 LogitSpecは最大2.61$times$ Speedupと3.28のデコードステップで受け入れられたトークンを達成できる。
論文参考訳（メタデータ） (2025-07-02T08:08:30Z)
Think Before You Accept: Semantic Reflective Verification for Faster Speculative Decoding [48.52389201779425]
投機的復号化は、軽量モデルを使用して複数のドラフトトークンを生成し、それらを並列に検証することで推論を加速する。既存の検証手法は、意味的正確性を見越しながら、分布の整合性に大きく依存している。我々は,学習自由でセマンティックなアプローチであるリフレクティブ検証を提案し,正確性と効率のトレードオフを改善する。
論文参考訳（メタデータ） (2025-05-24T10:26:27Z)
Speculative Decoding via Hybrid Drafting and Rollback-Aware Branch Parallelism [12.97746884176577]
投機的復号化において分岐並列性を解放する新しいフレームワーク textbfSpecBranch を提案する。 SDにおける分岐並列化の可能性を詳細に分析し、並列化とトークンロールバックのトレードオフに鍵となる課題があることを認識する。我々の実験は、SpecBranchがtextbf1.8$times sim$ textbf4.5$times$ speedups against the auto-regressive decoding and reduces rollback tokens by $textbf50$% for aligned model。
論文参考訳（メタデータ） (2025-05-16T07:45:05Z)
PARD: Accelerating LLM Inference with Low-Cost PARallel Draft Model Adaptation [4.031603850949324]
本稿では,自動回帰ドラフトモデルの並列ドラフトモデルへの低コストな適応を可能にする新しい投機的復号化手法を提案する。提案した条件付きドロップトークン法は,ドラフトモデルのトレーニング効率を3倍に向上させることができる。最適化された推論フレームワークでは、PARDはLLaMA3.1-8B推論を4.08倍高速化し、毎秒311.5トークンを達成する。
論文参考訳（メタデータ） (2025-04-23T12:27:43Z)
DEL: Context-Aware Dynamic Exit Layer for Efficient Self-Speculative Decoding [7.204881999658682]
DELは、推論中に出口層と投機長を適応的に選択するプラグイン・アンド・プレイ方式である。 Delは、全体的なスピードアップを$2.16times$$$sim$$2.50times$ over vanilla auto-regressive decoding で達成している。
論文参考訳（メタデータ） (2025-04-08T01:12:59Z)
DuoDecoding: Hardware-aware Heterogeneous Speculative Decoding with Dynamic Multi-Sequence Drafting [59.57151419673759]
投機的復号化は、出力分布の忠実さを維持しながら生成遅延を低減するドラフト・then-verifyフレームワークを提供する。我々は、CPUとGPUにそれぞれドラフトモデルとターゲットモデルを戦略的にデプロイする新しいアプローチであるDuoDecodingを提案する。本手法は,アイドル時間を最小限に抑えるため,ハードウェア対応の最適ドラフト予算を組み込んで,動的マルチシーケンスドラフトを用いて,ドラフト品質を向上させる。
論文参考訳（メタデータ） (2025-03-02T08:27:48Z)
Speculative Decoding with CTC-based Draft Model for LLM Inference Acceleration [14.011702040133848]
ドラフトフェーズにおけるドラフトトークン間の相関性を強化するCTCベースのドラフトモデルを提案する。実験結果から,提案手法は強いベースラインに比べて高い受理率と高速な推論速度が得られることがわかった。
論文参考訳（メタデータ） (2024-11-25T14:10:21Z)
AdaEDL: Early Draft Stopping for Speculative Decoding of Large Language Models via an Entropy-based Lower Bound on Token Acceptance Probability [5.421949344085942]
AdaEDLは、静的なドラフト長の投機的デコーディングを10%から57%上回っている。また、AdaEDLはこれらの技術よりも堅牢であり、高温シナリオにおける性能を保っていることを示す。
論文参考訳（メタデータ） (2024-10-24T01:13:43Z)
ParallelSpec: Parallel Drafter for Efficient Speculative Decoding [62.68430939686566]
提案するParallelSpecは,最先端の投機的復号化手法における自己回帰的起草戦略の代替となる。投機段階における自己回帰的起草とは対照的に,効率的な投機モデルとして機能する並列投機を訓練する。
論文参考訳（メタデータ） (2024-10-08T01:05:08Z)
Speculative Diffusion Decoding: Accelerating Language Generation through Diffusion [59.17158389902231]
投機的復号化は,大規模言語モデル推論を高速化する手法として広く採用されている。本稿では,離散拡散モデルを用いてドラフトシーケンスを生成する投機的復号法を提案する。
論文参考訳（メタデータ） (2024-08-10T21:24:25Z)
Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文参考訳（メタデータ） (2024-07-23T06:21:24Z)
Speculative Decoding via Early-exiting for Faster LLM Inference with Thompson Sampling Control Mechanism [35.7077090639665]
そこで本研究では,非損失加速を用いたEarly-Exiting Speculative Decoding (EESD) という新しい手法を提案する。 EESDは、大きな言語モデル(LLM)のセグメントを使用してドラフトトークンを生成し、最初のN層の後、初期出力構造を取り入れている。提案手法では,従来の手法と比較して,トークンの復号化速度が著しく向上していることが示されている。
論文参考訳（メタデータ） (2024-06-06T08:40:28Z)
SDSAT: Accelerating LLM Inference through Speculative Decoding with Semantic Adaptive Tokens [4.5888031410244885]
意味適応トークン(SDSAT)を用いた投機的復号化による大規模言語モデル(LLM)の高速化手法を提案する。この設計の主な目的は、LLMモデルの精度を損なうことなく、より正確にドラフトトークンを生成する能力を高めることである。 CodeLlama-13B と 7B で実施された実験では、それぞれ3.5X と 3.0X 以上の速度向上が達成されている。
論文参考訳（メタデータ） (2024-03-27T14:54:27Z)
Ouroboros: Generating Longer Drafts Phrase by Phrase for Faster Speculative Decoding [65.94521678103237]
投機的復号化(英: Speculative decoding)は、大規模言語モデルの生成プロセスを加速する広く使われている手法である。我々は,草案作成プロセスの並列化のために,草案文を生成するOuroborosを紹介した。ウロボロは投機的復号化で最大2.8倍、バニラ復号化で3.9倍のスピードアップを達成できる。
論文参考訳（メタデータ） (2024-02-21T11:31:28Z)
Multi-Candidate Speculative Decoding [82.05519287513444]
大規模な言語モデルは、様々なNLPタスクで印象的な機能を示してきたが、その生成は自動回帰的に時間を要する。これは高速なドラフトモデルから候補セグメントを生成し、ターゲットモデルによって並列に検証する。本稿では,複数の候補をドラフトモデルから抽出し,検証のためにバッチにまとめる手法を提案する。対象モデルの分布を維持しつつ,効率的な多候補検証のためのアルゴリズムを設計する。
論文参考訳（メタデータ） (2024-01-12T17:15:23Z)
DistillSpec: Improving Speculative Decoding via Knowledge Distillation [70.61777015900272]
投機的復号(SD)は、複数のトークンを生成するためにより高速なドラフトモデルを使用することで、大きな言語モデル推論を加速する。本稿では,SDを適用する前に,知識蒸留を用いて,ドラフトモデルとターゲットモデルとの整合性を向上するDistillSpecを提案する。 DistillSpecは標準SDよりも10～45%のスピードアップを実現しています。
論文参考訳（メタデータ） (2023-10-12T16:21:04Z)
Draft & Verify: Lossless Large Language Model Acceleration via Self-Speculative Decoding [25.03122689338891]
本稿では,大規模言語モデルの高速化を目的とした新しい推論手法である自己推論復号法を提案する。提案手法では、追加のニューラルネットワークトレーニングや、追加のメモリフットプリントを必要としない。 LLaMA-2とその変種によるベンチマークでは、最大1.99$times$まで高速化された。
論文参考訳（メタデータ） (2023-09-15T05:34:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。