Fugu-MT 論文翻訳(概要): DuoDecoding: Hardware-aware Heterogeneous Speculative Decoding with Dynamic Multi-Sequence Drafting

論文の概要: DuoDecoding: Hardware-aware Heterogeneous Speculative Decoding with Dynamic Multi-Sequence Drafting

arxiv url: http://arxiv.org/abs/2503.00784v1
Date: Sun, 02 Mar 2025 08:27:48 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-05 18:50:37.604324
Title: DuoDecoding: Hardware-aware Heterogeneous Speculative Decoding with Dynamic Multi-Sequence Drafting
Title（参考訳）: DuoDecoding:動的マルチシーケンス描画によるハードウェア対応不均一な投機的デコーディング
Authors: Kai Lv, Honglin Guo, Qipeng Guo, Xipeng Qiu,
Abstract要約: 投機的復号化は、出力分布の忠実さを維持しながら生成遅延を低減するドラフト・then-verifyフレームワークを提供する。我々は、CPUとGPUにそれぞれドラフトモデルとターゲットモデルを戦略的にデプロイする新しいアプローチであるDuoDecodingを提案する。本手法は,アイドル時間を最小限に抑えるため,ハードウェア対応の最適ドラフト予算を組み込んで,動的マルチシーケンスドラフトを用いて,ドラフト品質を向上させる。
参考スコア（独自算出の注目度）: 59.57151419673759
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) exhibit exceptional performance across a wide range of tasks; however, their token-by-token autoregressive generation process significantly hinders inference speed. Speculative decoding presents a promising draft-then-verify framework that reduces generation latency while maintaining output distribution fidelity. Nevertheless, the draft model introduces additional computational overhead, becoming a performance bottleneck and increasing the time to first token (TTFT). Previous approaches to mitigate draft model overhead have primarily relied on heuristics and generally failed to match the quality of the draft language models. To address these challenges, we propose DuoDecoding, a novel approach that strategically deploys the draft and target models on the CPU and GPU respectively, enabling parallel decoding while preserving draft quality. Our method incorporates a hardware-aware optimal draft budget to minimize idle times and employs dynamic multi-sequence drafting to enhance draft quality. Extensive experiments across seven tasks show that DuoDecoding achieves up to 2.61x speedup in generation latency, while reducing TTFT to 83% of that in conventional speculative decoding. The Code is available at https://github.com/KaiLv69/DuoDecoding.
Abstract（参考訳）: 大規模言語モデル(LLM)は、幅広いタスクにおいて例外的な性能を示すが、トークン・バイ・トーケンの自己回帰生成プロセスは推論速度を著しく妨げている。投機的復号化は、出力分布の忠実さを維持しながら生成遅延を低減する、有望なドラフト・then-verifyフレームワークを提供する。それにもかかわらず、ドラフトモデルはさらなる計算オーバーヘッドを導入し、パフォーマンスのボトルネックとなり、最初のトークン(TTFT)にかかる時間が増加する。ドラフトモデルのオーバーヘッドを軽減するためのこれまでのアプローチは、主にヒューリスティックスに依存しており、一般的にはドラフト言語モデルの質に合わなかった。これらの課題に対処するために、DuoDecodingを提案する。DuoDecodingは、CPUとGPUにそれぞれドラフトモデルとターゲットモデルを戦略的にデプロイし、ドラフト品質を維持しながら並列デコーディングを可能にする新しいアプローチである。本手法は,アイドル時間を最小限に抑えるため,ハードウェア対応の最適ドラフト予算を組み込んで,動的マルチシーケンスドラフトを用いて,ドラフト品質を向上させる。 7つのタスクにわたる大規模な実験により、DuoDecodingは生成遅延の最大2.61倍の高速化を実現し、従来の投機的復号法ではTTFTを83%に削減した。コードはhttps://github.com/KaiLv69/DuoDecoding.comで入手できる。

関連論文リスト

Scaling LLM Speculative Decoding: Non-Autoregressive Forecasting in Large-Batch Scenarios [76.85739138203014]
本稿では,一方向および注目メカニズムを加速する新しいアーキテクチャであるSpecFormerを紹介する。また,SpecFormerはトレーニング要求の低減と計算コストの削減を実現している。
論文参考訳（メタデータ） (2025-11-25T14:20:08Z)
SpecDiff-2: Scaling Diffusion Drafter Alignment For Faster Speculative Decoding [48.96349422252313]
投機的復号化は,Large Language Model (LLM)推論の高速化のための標準手法となっている。自動回帰デコーディングの遅延を回避し、印象的なスピードアップを実現するために、損失のないドラフト検証手順を利用する。本稿では,これら2つのボトルネックに共同で対処する新しいフレームワークであるSpecDiff-2を提案する。
論文参考訳（メタデータ） (2025-11-01T16:12:56Z)
Hawk: Leveraging Spatial Context for Faster Autoregressive Text-to-Image Generation [87.00172597953228]
投機的復号化は、品質を損なうことなくテキスト生成を加速させる可能性を示している。我々は、画像の空間構造を利用して投機モデルをより正確で効率的な予測へと導く新しいアプローチであるHawkを紹介する。複数のテキストと画像のベンチマークの実験結果は、標準的なARモデルよりも1.71倍のスピードアップを示している。
論文参考訳（メタデータ） (2025-10-29T17:43:31Z)
Fast Inference via Hierarchical Speculative Decoding [65.40448210801763]
階層的投機的復号法(HSD)は,各モデルがトークンを提案し,次に大きなモデルが1つのフォワードパスで検証する階層構造に,ドラフトモデルを積み重ねるアルゴリズムである。 HSDは最高の単軸ベースラインよりも1.2倍のスピードアップを達成している。
論文参考訳（メタデータ） (2025-10-22T15:56:19Z)
TokenTiming: A Dynamic Alignment Method for Universal Speculative Decoding Model Pairs [12.056664630923896]
投機的復号化は推論効率を大幅に向上させる。ドラフトとターゲットモデルは、同じ語彙を共有しなければならない。普遍的な投機的復号化のためのアルゴリズムTokenTimingを提案する。
論文参考訳（メタデータ） (2025-10-17T11:25:36Z)
Free Draft-and-Verification: Toward Lossless Parallel Decoding for Diffusion Large Language Models [8.407364705777587]
本稿では,DLLMに適した高速デコードアルゴリズムFree Draft-and-Verification(FreeDave)を紹介する。 FreeDaveは、パフォーマンスを低下させることなく、推論スループットを最大3.78倍に向上させることが証明されている。
論文参考訳（メタデータ） (2025-09-30T21:28:04Z)
OmniDraft: A Cross-vocabulary, Online Adaptive Drafter for On-device Speculative Decoding [8.589209709453026]
OmniDraftは、単一のドラフトモデルを任意のターゲットモデルで操作可能な統合フレームワークである。本研究では, 混合蒸留微調整によるオンラインn-gramキャッシュを導入し, ドラフトモデルとターゲットモデル間の語彙間ミスマッチに対処する。本稿では,算数推論,コーディング,テキスト生成タスクにおいて,オンライン学習を行うことで,フレームワークの習熟度を示す。
論文参考訳（メタデータ） (2025-07-03T14:20:41Z)
SpecExtend: A Drop-in Enhancement for Speculative Decoding of Long Sequences [4.268504966623081]
本稿では,長いシーケンスにおける投機的復号化性能を向上させるドロップインエンハンスメントであるSpecExtendを紹介する。 SpecExtendは、FlashAttentionやHybrid Tree Attentionといった効率的な注意メカニズムをドラフトモデルとターゲットモデルの両方に統合する。そこで我々は,新しいKVキャッシュ更新戦略であるCross-model Retrievalを提案する。
論文参考訳（メタデータ） (2025-05-27T06:30:00Z)
FLASH: Latent-Aware Semi-Autoregressive Speculative Decoding for Multimodal Tasks [41.04727840852988]
大規模言語とマルチモーダルモデル(LLMとLMM)は強い推論能力を示すが、しばしば遅い復号速度によって制限される。視覚的な入力は通常、テキストよりも低い情報密度のトークンで構成されている。 LMM用に設計された投機的復号化フレームワークである textbfFLASH (Fast Latent-Aware Semi-Autoregressive Heuristics) を提案する。
論文参考訳（メタデータ） (2025-05-19T05:35:30Z)
ParallelSpec: Parallel Drafter for Efficient Speculative Decoding [62.68430939686566]
提案するParallelSpecは,最先端の投機的復号化手法における自己回帰的起草戦略の代替となる。投機段階における自己回帰的起草とは対照的に,効率的な投機モデルとして機能する並列投機を訓練する。
論文参考訳（メタデータ） (2024-10-08T01:05:08Z)
PEARL: Parallel Speculative Decoding with Adaptive Draft Length [12.166703341906242]
本稿では,適応dRaft Length(PEARL)を用いた投機的復号化(Parallel speculative decoding)を促進するための,概念的にシンプルでフレキシブルで汎用的なフレームワークを提案する。 PEARLは、ドラフトフェーズ中に事前に最初のドラフトトークンを検証し、検証フェーズ中により多くのドラフトトークンを生成するための後検証を提案する。各種テキスト生成ベンチマークの実験では、PEARLの有効性が実証されており、自動回帰復号法とバニラ投機復号法と比較して、パフォーマンスが4.43$times$と1.50$times$に向上した。
論文参考訳（メタデータ） (2024-08-13T08:32:06Z)
Speculative Diffusion Decoding: Accelerating Language Generation through Diffusion [55.0194604505437]
投機的復号化は,大規模言語モデル推論を高速化する手法として広く採用されている。本稿では,離散拡散モデルを用いてドラフトシーケンスを生成する投機的復号法を提案する。
論文参考訳（メタデータ） (2024-08-10T21:24:25Z)
Chimera: A Lossless Decoding Method for Accelerating Large Language Models Inference by Fusing all Tokens [15.566726645722657]
投機的サンプリングに特化して設計された新しいフレームワークを提案する。このフレームワーク内では、以前に生成されたトークンを効果的に活用し、後続の単語を予測する軽量なドラフトモデルを導入する。我々は、バニラ自動回帰復号方式と比較して平均遅延速度比が2.7倍になるという印象的な結果を示した。
論文参考訳（メタデータ） (2024-02-24T08:10:39Z)
Ouroboros: Generating Longer Drafts Phrase by Phrase for Faster Speculative Decoding [65.94521678103237]
投機的復号化(英: Speculative decoding)は、大規模言語モデルの生成プロセスを加速する広く使われている手法である。我々は,草案作成プロセスの並列化のために,草案文を生成するOuroborosを紹介した。ウロボロは投機的復号化で最大2.8倍、バニラ復号化で3.9倍のスピードアップを達成できる。
論文参考訳（メタデータ） (2024-02-21T11:31:28Z)
Speculative Streaming: Fast LLM Inference without Auxiliary Models [21.454206732725563]
投機的ストリーミング(英: Speculative Streaming)は、単一モデル投機的復号法である。これは、次のトークン予測から将来のn-gram予測に微調整対象を変更することで、ターゲットモデルにドラフトを融合させる。 1.8から3.1Xのデコーディングを、多様なタスクセットで高速化する。
論文参考訳（メタデータ） (2024-02-16T23:36:43Z)
Cascade Speculative Drafting for Even Faster LLM Inference [25.642604897018852]
投機的復号化により、大言語モデル(LLM)推論の効率が向上する。本稿では2種類のカスケードを組み込んだ投機的実行アルゴリズムであるカスケード投機ドラフト(CS Drafting)を紹介する。 CS Draftingは、我々の実験で投機的復号化よりも81%の高速化を実現している。
論文参考訳（メタデータ） (2023-12-18T18:59:46Z)
DistillSpec: Improving Speculative Decoding via Knowledge Distillation [70.61777015900272]
投機的復号(SD)は、複数のトークンを生成するためにより高速なドラフトモデルを使用することで、大きな言語モデル推論を加速する。本稿では,SDを適用する前に,知識蒸留を用いて,ドラフトモデルとターゲットモデルとの整合性を向上するDistillSpecを提案する。 DistillSpecは標準SDよりも10～45%のスピードアップを実現しています。
論文参考訳（メタデータ） (2023-10-12T16:21:04Z)
Speculative Decoding: Exploiting Speculative Execution for Accelerating Seq2seq Generation [80.2267931231335]
本稿では,自己回帰(AR)デコーディングを高速化する投機的実行のアイデアを活用するための投機的デコーディング(SpecDec)を提案する。 SpecDecには2つのイノベーションがある。Spec-Drafter - 効率的なドラフトのために特別に最適化された独立モデル、Spec-Verification - ドラフトされたトークンを効率的に検証するための信頼性の高い方法である。
論文参考訳（メタデータ） (2022-03-30T17:27:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。