Fugu-MT 論文翻訳(概要): Speculative Decoding: Exploiting Speculative Execution for Accelerating Seq2seq Generation

論文の概要: Speculative Decoding: Exploiting Speculative Execution for Accelerating Seq2seq Generation

arxiv url: http://arxiv.org/abs/2203.16487v6
Date: Mon, 30 Oct 2023 01:36:06 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-02 05:12:16.562434
Title: Speculative Decoding: Exploiting Speculative Execution for Accelerating Seq2seq Generation
Title（参考訳）: 投機的復号:Seq2seq生成の高速化のための投機的実行の爆発
Authors: Heming Xia, Tao Ge, Peiyi Wang, Si-Qing Chen, Furu Wei, Zhifang Sui
Abstract要約: 本稿では,自己回帰(AR)デコーディングを高速化する投機的実行のアイデアを活用するための投機的デコーディング(SpecDec)を提案する。 SpecDecには2つのイノベーションがある。Spec-Drafter - 効率的なドラフトのために特別に最適化された独立モデル、Spec-Verification - ドラフトされたトークンを効率的に検証するための信頼性の高い方法である。
参考スコア（独自算出の注目度）: 80.2267931231335
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose Speculative Decoding (SpecDec), for the first time ever, to formally study exploiting the idea of speculative execution to accelerate autoregressive (AR) decoding. Speculative Decoding has two innovations: Spec-Drafter -- an independent model specially optimized for efficient and accurate drafting -- and Spec-Verification -- a reliable method for verifying the drafted tokens efficiently in the decoding paradigm. Experimental results on various seq2seq tasks including machine translation and abstractive summarization show our approach can achieve around $5\times$ speedup for the popular Transformer architectures with comparable generation quality to beam search decoding, refreshing the impression that the draft-then-verify paradigm introduces only $1.4\times$$\sim$$2\times$ speedup. In addition to the remarkable speedup, we also demonstrate 3 additional advantages of SpecDec, revealing its practical value for accelerating generative models in real-world applications. Our models and codes are available at https://github.com/hemingkx/SpecDec.
Abstract（参考訳）: 我々は,投機的実行の考え方を活用し,自己回帰的(ar)復号を加速するために,初めて投機的復号(specdec)を提案する。 spec-drafter -- 効率的かつ正確なドラフト作成のために特別に最適化された独立したモデル -- とspec-verification -- の2つのイノベーションがある。機械翻訳や抽象的な要約を含むSeq2seqタスクの実験結果から、一般的なトランスフォーマーアーキテクチャにおいて、ビーム検索デコーディングに匹敵する世代品質の高速化を実現し、ドラフト-then-verifyパラダイムがわずか1.4\times$$\sim$2\times$スピードアップを実現した。驚くべきスピードアップに加えて、SpecDecの3つのアドバンテージも示し、実世界のアプリケーションで生成モデルを加速する実用的価値を明らかにした。私たちのモデルとコードはhttps://github.com/hemingkx/specdec.com/で利用可能です。

関連論文リスト

Speculative Speculative Decoding [30.440531978808295]
これらの操作を並列化するために、投機的投機的復号法(SSD)を導入する。投機的投機的復号法によって提示される3つの重要な課題を特定し,各解法について提案する。我々の実装は最適化された投機的復号化ベースラインよりも最大2倍高速で、オープンソース推論エンジンによる自己回帰復号化よりも最大5倍高速です。
論文参考訳（メタデータ） (2026-03-03T18:41:32Z)
When, What, and How: Rethinking Retrieval-Enhanced Speculative Decoding [29.402164743559]
ReSpecは、ドラフト作成を適応的な意思決定に変換する新しいフレームワークである。 Spec-Benchの実験では、ReSpecの最先端アクセラレーションはそれぞれ33%以上と25%以上を達成している。
論文参考訳（メタデータ） (2025-11-03T06:57:16Z)
SpecDiff-2: Scaling Diffusion Drafter Alignment For Faster Speculative Decoding [48.96349422252313]
投機的復号化は,Large Language Model (LLM)推論の高速化のための標準手法となっている。自動回帰デコーディングの遅延を回避し、印象的なスピードアップを実現するために、損失のないドラフト検証手順を利用する。本稿では,これら2つのボトルネックに共同で対処する新しいフレームワークであるSpecDiff-2を提案する。
論文参考訳（メタデータ） (2025-11-01T16:12:56Z)
Fast Inference via Hierarchical Speculative Decoding [65.40448210801763]
階層的投機的復号法(HSD)は,各モデルがトークンを提案し,次に大きなモデルが1つのフォワードパスで検証する階層構造に,ドラフトモデルを積み重ねるアルゴリズムである。 HSDは最高の単軸ベースラインよりも1.2倍のスピードアップを達成している。
論文参考訳（メタデータ） (2025-10-22T15:56:19Z)
SpecExtend: A Drop-in Enhancement for Speculative Decoding of Long Sequences [4.268504966623081]
本稿では,長いシーケンスにおける投機的復号化性能を向上させるドロップインエンハンスメントであるSpecExtendを紹介する。 SpecExtendは、FlashAttentionやHybrid Tree Attentionといった効率的な注意メカニズムをドラフトモデルとターゲットモデルの両方に統合する。そこで我々は,新しいKVキャッシュ更新戦略であるCross-model Retrievalを提案する。
論文参考訳（メタデータ） (2025-05-27T06:30:00Z)
BanditSpec: Adaptive Speculative Decoding via Bandit Algorithms [101.9736063064503]
大規模言語モデル(LLM)の推論を高速化する一般的な手法として、投機的復号法が登場した。本稿では,テキスト生成時に投機的復号化のためのハイパーパラメータの設定を適応的に選択する学習自由オンライン学習フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-21T05:56:31Z)
Speculative Sampling via Exponential Races [46.8257865686349]
投機的復号化は、より小さなドラフトモデルを用いて大きな言語モデル推論を加速する。本稿では,指数関数型レースERSDによる新しい投機的復号法を提案する。
論文参考訳（メタデータ） (2025-04-21T23:02:08Z)
DuoDecoding: Hardware-aware Heterogeneous Speculative Decoding with Dynamic Multi-Sequence Drafting [59.57151419673759]
投機的復号化は、出力分布の忠実さを維持しながら生成遅延を低減するドラフト・then-verifyフレームワークを提供する。我々は、CPUとGPUにそれぞれドラフトモデルとターゲットモデルを戦略的にデプロイする新しいアプローチであるDuoDecodingを提案する。本手法は,アイドル時間を最小限に抑えるため,ハードウェア対応の最適ドラフト予算を組み込んで,動的マルチシーケンスドラフトを用いて,ドラフト品質を向上させる。
論文参考訳（メタデータ） (2025-03-02T08:27:48Z)
QuantSpec: Self-Speculative Decoding with Hierarchical Quantized KV Cache [67.84112700032007]
大きな言語モデル(LLM)は、長いコンテキスト設定のためにエッジデバイスにデプロイされることが増えている。これらのシナリオでは、キーバリュー(KV)キャッシュがGPUメモリとレイテンシの両方において主要なボトルネックとなっている。そこで本研究では,ターゲットモデルのアーキテクチャを共有するが,階層的な4ビット量子化KVキャッシュと4ビット量子化重みを併用して高速化を行う,新たな自己推論型デコーディングフレームワークであるQuantSpecを提案する。
論文参考訳（メタデータ） (2025-02-05T20:43:48Z)
Falcon: Faster and Parallel Inference of Large Language Models through Enhanced Semi-Autoregressive Drafting and Custom-Designed Decoding Tree [7.438117410146904]
Falconは、ドラフト作成者の並列性と出力品質の両方を増強するために設計された革新的な投機的復号化フレームワークである。 FalconにはCoupled Sequential Glancing Distillation(英語版)技術が組み込まれている。
論文参考訳（メタデータ） (2024-12-17T08:02:08Z)
FastDraft: How to Train Your Draft [0.7499722271664144]
我々はFastDraftを紹介します。FastDraftは、ドラフトモデルを任意の大きな言語モデルに事前トレーニングし、調整するための、新しく効率的なアプローチです。我々は、人気のあるPhi-3-miniとLlama-3.1-8Bモデルの2つの高パラメータ効率ドラフトをトレーニングすることで、FastDraftを実証する。 FastDraftを使って、Intel$circledR$Gaudi$circledR$2アクセラレータを24時間以内に1つのサーバに約100億のトークンでドラフトを作成することができました。
論文参考訳（メタデータ） (2024-11-17T12:32:44Z)
SuffixDecoding: A Model-Free Approach to Speeding Up Large Language Model Inference [9.143856130336783]
SuffixDecodingは、投機的復号化を通じて大きな言語モデル(LLM)推論を加速するためのモデルなしのアプローチである。当社のアプローチは,新たなモデルの維持と編成のオーバーヘッドを伴わずに,柔軟な木構造推測を可能にする。プロプライエタリなマルチLLMテキスト・ツー・トーケンアプリケーションでは、SuffixDecodingは2.9倍の出力スループットと3倍のレイテンシを実現している。
論文参考訳（メタデータ） (2024-11-07T18:49:33Z)
AMUSD: Asynchronous Multi-Device Speculative Decoding for LLM Acceleration [0.3626013617212667]
本稿では,AMUSD (Asynchronous Multi-device Speculative Decoding) を導入し,ドラフトを分離し,フェーズを検証することによって生成を高速化するシステムを提案する。 AMUSDは、1つのモデル(ドラフトまたは検証)のみが一度にトークン生成を行う従来の投機復号法とは異なり、どちらのモデルも別々のデバイス上で独立して予測を行うことができる。我々は、複数のデータセットに対するアプローチを評価し、AMUSDが投機的復号化よりも平均29%改善し、従来の自己回帰復号化よりも1.96$times$スピードアップを達成したことを示す。
論文参考訳（メタデータ） (2024-10-22T19:15:35Z)
Speculative Diffusion Decoding: Accelerating Language Generation through Diffusion [59.17158389902231]
投機的復号化は,大規模言語モデル推論を高速化する手法として広く採用されている。本稿では,離散拡散モデルを用いてドラフトシーケンスを生成する投機的復号法を提案する。
論文参考訳（メタデータ） (2024-08-10T21:24:25Z)
Chimera: A Lossless Decoding Method for Accelerating Large Language Models Inference by Fusing all Tokens [15.566726645722657]
投機的サンプリングに特化して設計された新しいフレームワークを提案する。このフレームワーク内では、以前に生成されたトークンを効果的に活用し、後続の単語を予測する軽量なドラフトモデルを導入する。我々は、バニラ自動回帰復号方式と比較して平均遅延速度比が2.7倍になるという印象的な結果を示した。
論文参考訳（メタデータ） (2024-02-24T08:10:39Z)
GliDe with a CaPE: A Low-Hassle Method to Accelerate Speculative Decoding [81.01996600734616]
GliDe と CaPE を導入し,バニラ投機復号への2つの低ハードル修正を行った。 GliDeは、ターゲットのLLMからキャッシュされたキーと値を再利用する、修正されたドラフトモデルアーキテクチャである。コード、データ、トレーニング済みのドラフトモデルをリリースします。
論文参考訳（メタデータ） (2024-02-03T08:44:11Z)
DistillSpec: Improving Speculative Decoding via Knowledge Distillation [70.61777015900272]
投機的復号(SD)は、複数のトークンを生成するためにより高速なドラフトモデルを使用することで、大きな言語モデル推論を加速する。本稿では,SDを適用する前に,知識蒸留を用いて,ドラフトモデルとターゲットモデルとの整合性を向上するDistillSpecを提案する。 DistillSpecは標準SDよりも10～45%のスピードアップを実現しています。
論文参考訳（メタデータ） (2023-10-12T16:21:04Z)
Decoder Tuning: Efficient Language Understanding as Decoding [84.68266271483022]
本稿では,タスク固有のデコーダネットワークを出力側で最適化するデコーダチューニング(DecT)を提案する。勾配ベースの最適化により、DecTは数秒以内にトレーニングでき、サンプル毎に1つのPクエリしか必要としない。我々は、広範囲にわたる自然言語理解実験を行い、DecTが200ドル以上のスピードアップで最先端のアルゴリズムを大幅に上回っていることを示す。
論文参考訳（メタデータ） (2022-12-16T11:15:39Z)
Fast Interleaved Bidirectional Sequence Generation [90.58793284654692]
左右方向と左右方向を同時に生成するデコーダを提案する。一方向デコードのための標準アーキテクチャを簡単に双方向デコーダに変換することができることを示す。我々のインターリーブ双方向デコーダ (IBDecoder) は標準変換器のモデル単純性と訓練効率を保っている。
論文参考訳（メタデータ） (2020-10-27T17:38:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。