Fugu-MT 論文翻訳(概要): Speculative Diffusion Decoding: Accelerating Language Generation through Diffusion

論文の概要: Speculative Diffusion Decoding: Accelerating Language Generation through Diffusion

arxiv url: http://arxiv.org/abs/2408.05636v2
Date: Fri, 16 Aug 2024 19:25:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-20 23:45:42.815702
Title: Speculative Diffusion Decoding: Accelerating Language Generation through Diffusion
Title（参考訳）: 投機的拡散復号:拡散による言語生成の高速化
Authors: Jacob K Christopher, Brian R Bartoldson, Bhavya Kailkhura, Ferdinando Fioretto,
Abstract要約: 投機的復号化は,大規模言語モデル推論を高速化する手法として広く採用されている。本稿では,離散拡散モデルを用いてドラフトシーケンスを生成する投機的復号法を提案する。
参考スコア（独自算出の注目度）: 59.17158389902231
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Speculative decoding has emerged as a widely adopted method to accelerate large language model inference without sacrificing the quality of the model outputs. While this technique has facilitated notable speed improvements by enabling parallel sequence verification, its efficiency remains inherently limited by the reliance on incremental token generation in existing draft models. To overcome this limitation, this paper proposes an adaptation of speculative decoding which uses discrete diffusion models to generate draft sequences. This allows parallelization of both the drafting and verification steps, providing significant speed-ups to the inference process. Our proposed approach, Speculative Diffusion Decoding (SpecDiff), is validated on standard language generation benchmarks and empirically demonstrated to provide a up to 8.7x speed-up over standard generation processes and up to 2.5x speed-up over existing speculative decoding approaches.
Abstract（参考訳）: 投機的復号化は,モデル出力の品質を犠牲にすることなく,大規模言語モデル推論を高速化する手法として広く採用されている。この技術は並列シーケンス検証を可能にすることで顕著な速度向上を実現しているが、既存のドラフトモデルにおけるインクリメンタルトークン生成に依存しているため、その効率は本質的に制限されている。この制限を克服するために、離散拡散モデルを用いてドラフトシーケンスを生成する投機的復号法を提案する。これにより、ドラフトと検証の両方のステップの並列化が可能になり、推論プロセスに対する大幅なスピードアップが実現される。提案手法であるSpeculative Diffusion Decoding (SpecDiff) を,標準言語生成ベンチマーク上で検証し,標準生成プロセスの最大8.7倍,既存の投機的デコーディングの最大2.5倍の高速化を実現することを実証した。

関連論文リスト

SpecDiff-2: Scaling Diffusion Drafter Alignment For Faster Speculative Decoding [48.96349422252313]
投機的復号化は,Large Language Model (LLM)推論の高速化のための標準手法となっている。自動回帰デコーディングの遅延を回避し、印象的なスピードアップを実現するために、損失のないドラフト検証手順を利用する。本稿では,これら2つのボトルネックに共同で対処する新しいフレームワークであるSpecDiff-2を提案する。
論文参考訳（メタデータ） (2025-11-01T16:12:56Z)
Fast Inference via Hierarchical Speculative Decoding [65.40448210801763]
階層的投機的復号法(HSD)は,各モデルがトークンを提案し,次に大きなモデルが1つのフォワードパスで検証する階層構造に,ドラフトモデルを積み重ねるアルゴリズムである。 HSDは最高の単軸ベースラインよりも1.2倍のスピードアップを達成している。
論文参考訳（メタデータ） (2025-10-22T15:56:19Z)
Free Draft-and-Verification: Toward Lossless Parallel Decoding for Diffusion Large Language Models [8.407364705777587]
本稿では,DLLMに適した高速デコードアルゴリズムFree Draft-and-Verification(FreeDave)を紹介する。 FreeDaveは、パフォーマンスを低下させることなく、推論スループットを最大3.78倍に向上させることが証明されている。
論文参考訳（メタデータ） (2025-09-30T21:28:04Z)
Confidence-Modulated Speculative Decoding for Large Language Models [0.0]
本稿では,信頼度変調された起草に基づく投機的復号化のための情報理論フレームワークを提案する。機械翻訳と要約タスクの実験は、標準的な投機的復号化よりも大幅に高速化された。
論文参考訳（メタデータ） (2025-08-21T09:06:31Z)
AdaDecode: Accelerating LLM Decoding with Adaptive Layer Parallelism [17.858104076062897]
大規模言語モデル (LLM) は、長いコンテンツ生成にますます使われている。補助モデルや元のモデルパラメータの変更を必要とせずにデコーディングを高速化するAdaDecodeを提案する。 AdaDecodeは最大1.73倍のスピードアップで優れた復号処理を実現している。
論文参考訳（メタデータ） (2025-06-04T08:32:30Z)
Accelerating Diffusion LLMs via Adaptive Parallel Decoding [50.9948753314669]
並列にサンプリングされたトークンの数を動的に調整する新しい手法であるアダプティブ並列復号法(APD)を導入する。 APDは、ダウンストリームベンチマークで最小限の品質劣化を伴って、非常に高いスループットを提供する。
論文参考訳（メタデータ） (2025-05-31T06:10:10Z)
Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding [51.711605076319216]
拡散に基づく大規模言語モデル (Diffusion LLM) は、並列復号機能を持つ非自己回帰テキスト生成を約束している。本稿では,双方向拡散モデルに適したブロック単位で近似したKVキャッシュ機構を提案する。本稿では,信頼しきい値を超えるトークンを選択的に復号し,依存関係違反を軽減し,生成品質を維持できる信頼度対応並列復号方式を提案する。
論文参考訳（メタデータ） (2025-05-28T17:39:15Z)
Think Before You Accept: Semantic Reflective Verification for Faster Speculative Decoding [48.52389201779425]
投機的復号化は、軽量モデルを使用して複数のドラフトトークンを生成し、それらを並列に検証することで推論を加速する。既存の検証手法は、意味的正確性を見越しながら、分布の整合性に大きく依存している。我々は,学習自由でセマンティックなアプローチであるリフレクティブ検証を提案し,正確性と効率のトレードオフを改善する。
論文参考訳（メタデータ） (2025-05-24T10:26:27Z)
DuoDecoding: Hardware-aware Heterogeneous Speculative Decoding with Dynamic Multi-Sequence Drafting [59.57151419673759]
投機的復号化は、出力分布の忠実さを維持しながら生成遅延を低減するドラフト・then-verifyフレームワークを提供する。我々は、CPUとGPUにそれぞれドラフトモデルとターゲットモデルを戦略的にデプロイする新しいアプローチであるDuoDecodingを提案する。本手法は,アイドル時間を最小限に抑えるため,ハードウェア対応の最適ドラフト予算を組み込んで,動的マルチシーケンスドラフトを用いて,ドラフト品質を向上させる。
論文参考訳（メタデータ） (2025-03-02T08:27:48Z)
COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文参考訳（メタデータ） (2024-10-12T23:56:19Z)
Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文参考訳（メタデータ） (2024-04-18T09:17:06Z)
Lossless Acceleration of Large Language Model via Adaptive N-gram Parallel Decoding [2.642212767247493]
適応的なN-gram並列デコーディング(ANPD)を導入し,複数のトークンを同時に生成することで推論を高速化する。 ANPDは、処理速度を向上しながら、元の出力の完全性を維持する。実験では、LLaMAのようなモデルとその微調整されたモデルが3.67倍の速度向上を示した。
論文参考訳（メタデータ） (2024-04-10T16:11:09Z)
Non-autoregressive Sequence-to-Sequence Vision-Language Models [63.77614880533488]
本稿では,デコーダ内の複数の推論経路をマージする並列デコードシーケンス・ツー・シーケンス・ビジョン言語モデルを提案する。このモデルは最先端の自己回帰モデルと同等のパフォーマンスを実現するが、推論時間では高速である。
論文参考訳（メタデータ） (2024-03-04T17:34:59Z)
Chimera: A Lossless Decoding Method for Accelerating Large Language Models Inference by Fusing all Tokens [15.566726645722657]
投機的サンプリングに特化して設計された新しいフレームワークを提案する。このフレームワーク内では、以前に生成されたトークンを効果的に活用し、後続の単語を予測する軽量なドラフトモデルを導入する。我々は、バニラ自動回帰復号方式と比較して平均遅延速度比が2.7倍になるという印象的な結果を示した。
論文参考訳（メタデータ） (2024-02-24T08:10:39Z)
Speculative Streaming: Fast LLM Inference without Auxiliary Models [21.454206732725563]
投機的ストリーミング(英: Speculative Streaming)は、単一モデル投機的復号法である。これは、次のトークン予測から将来のn-gram予測に微調整対象を変更することで、ターゲットモデルにドラフトを融合させる。 1.8から3.1Xのデコーディングを、多様なタスクセットで高速化する。
論文参考訳（メタデータ） (2024-02-16T23:36:43Z)
SPEED: Speculative Pipelined Execution for Efficient Decoding [35.45955948053644]
本稿では,現在のトークンと並行して複数の将来トークンを投機的に実行することで,推論効率を向上させるSPEEDを提案する。パラメータ共有を使用するTransformerデコーダでは、並列に実行されるトークンのメモリ操作を償却することができる。モデル精度に対する遅延低減の観点から,本手法の有効性を実証し,パラメータ共有によるより深いデコーダのトレーニングを最小限のランタイムオーバーヘッドで行う方法を示した。
論文参考訳（メタデータ） (2023-10-18T16:07:01Z)
Fast and Robust Early-Exiting Framework for Autoregressive Language Models with Synchronized Parallel Decoding [43.659680579686544]
本稿では,浅層深度モジュールと並列デコーディングを併用したFast and Robust Early-Exitingフレームワークを提案する。我々のフレームワークは、既存のトークンの復号処理を、以前に積み重ねられた早期発行トークンと同期させることで、より高速な推論を可能にする。並列デコーディングにより,浅層モデルと深部モデルの両方からの予測を観測できるので,新しい適応しきい値推定器を提案する。
論文参考訳（メタデータ） (2023-10-09T05:53:05Z)
Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文参考訳（メタデータ） (2023-04-22T15:32:59Z)
Speculative Decoding: Exploiting Speculative Execution for Accelerating Seq2seq Generation [80.2267931231335]
本稿では,自己回帰(AR)デコーディングを高速化する投機的実行のアイデアを活用するための投機的デコーディング(SpecDec)を提案する。 SpecDecには2つのイノベーションがある。Spec-Drafter - 効率的なドラフトのために特別に最適化された独立モデル、Spec-Verification - ドラフトされたトークンを効率的に検証するための信頼性の高い方法である。
論文参考訳（メタデータ） (2022-03-30T17:27:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。