Fugu-MT 論文翻訳(概要): Ouroboros: Generating Longer Drafts Phrase by Phrase for Faster Speculative Decoding

論文の概要: Ouroboros: Generating Longer Drafts Phrase by Phrase for Faster Speculative Decoding

arxiv url: http://arxiv.org/abs/2402.13720v3
Date: Tue, 15 Oct 2024 07:43:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:30.924417
Title: Ouroboros: Generating Longer Drafts Phrase by Phrase for Faster Speculative Decoding
Title（参考訳）: Ouroboros: より高速な投機的デコードのためのフレーズによるより長いドラフトフレーズの生成
Authors: Weilin Zhao, Yuxiang Huang, Xu Han, Wang Xu, Chaojun Xiao, Xinrong Zhang, Yewei Fang, Kaihuo Zhang, Zhiyuan Liu, Maosong Sun,
Abstract要約: 投機的復号化(英: Speculative decoding)は、大規模言語モデルの生成プロセスを加速する広く使われている手法である。我々は,草案作成プロセスの並列化のために,草案文を生成するOuroborosを紹介した。ウロボロは投機的復号化で最大2.8倍、バニラ復号化で3.9倍のスピードアップを達成できる。
参考スコア（独自算出の注目度）: 65.94521678103237
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Speculative decoding is a widely used method that accelerates the generation process of large language models (LLMs) with no compromise in model performance. It achieves this goal by using an existing smaller model for drafting and then employing the target LLM to verify the draft in a low-cost parallel manner. Under such a drafting-verification framework, drafting efficiency has become a bottleneck in the final speedup of speculative decoding. Therefore, generating longer drafts at less cost can lead to better decoding speedup. To achieve this, we introduce Ouroboros, which can generate draft phrases to parallelize the drafting process and meanwhile lengthen drafts in a training-free manner. The experimental results on various typical text generation tasks show that Ouroboros can achieve speedups of up to $2.8\times$ over speculative decoding and $3.9\times$ over vanilla decoding, without fine-tuning draft and target models. The source code of Ouroboros is available at https://github.com/thunlp/Ouroboros.
Abstract（参考訳）: 投機的復号化(英: Speculative decoding)は、大規模言語モデル(LLM)の生成プロセスをモデル性能に妥協せずに高速化する手法である。既存のより小さなモデルをドラフトに使用し、ターゲットのLLMを使用して、低コストで並列にドラフトを検証することで、この目標を達成する。このような起草検証フレームワークの下では、投機的復号化の最終スピードアップにおいて、起草効率がボトルネックになっている。そのため、より長いドラフトを低コストで作成することで、デコード速度が向上する可能性がある。そこで,本研究では,草案作成過程を並列化し,草案をトレーニング不要に長引かせるために,草案文を生成するOuroborosを紹介した。様々なテキスト生成タスクの実験結果によると、Ouroborosは投機的復号化で最大2.8\times$、バニラ復号化で3.9\times$を達成できる。 Ouroborosのソースコードはhttps://github.com/thunlp/Ouroboros.comで公開されている。

関連論文リスト

Speculative Decoding with a Speculative Vocabulary [44.656073829954636]
投機的復号化は言語モデル(LM)推論を高速化するための主要なアプローチである。最近の研究は、ドラフトモデルの語彙を減らし、この出力分布のボトルネックに対処しようと試みている。本稿では,デコードステップ毎に語彙サブセットを選択する,効率的かつ効果的な方法であるSpecVocabを提案する。
論文参考訳（メタデータ） (2026-02-14T16:10:00Z)
PACER: Blockwise Pre-verification for Speculative Decoding with Adaptive Length [21.738896310075678]
投機的復号法(SD)は,大規模言語モデル(LLM)の推論過程を高速化する強力な手法である軽量でトレーニング可能な事前検証レイヤを用いて,ドラフト長を動的に制御する新しいアプローチであるPacerを提案する。以上の結果から,Pacerは自己回帰復号化よりも最大2.66倍の高速化を実現し,一貫した投機復号化を実現していることがわかった。
論文参考訳（メタデータ） (2026-02-01T15:12:38Z)
Fast Inference via Hierarchical Speculative Decoding [65.40448210801763]
階層的投機的復号法(HSD)は,各モデルがトークンを提案し,次に大きなモデルが1つのフォワードパスで検証する階層構造に,ドラフトモデルを積み重ねるアルゴリズムである。 HSDは最高の単軸ベースラインよりも1.2倍のスピードアップを達成している。
論文参考訳（メタデータ） (2025-10-22T15:56:19Z)
DiffuSpec: Unlocking Diffusion Language Models for Speculative Decoding [66.40658898418316]
DiffuSpecは、事前訓練された拡散言語モデル(DLM)を用いて、単一のフォワードパスでマルチトークンのドラフトを生成する、トレーニングフリーのドロップインフレームワークである。ベンチマーク全体を通じて、DiffuSpecは最大3倍のウォールクロックスピードアップを達成し、投機的復号化のための自己回帰型ドラフトラの堅牢な代替手段として拡散ベースのドラフトを確立する。
論文参考訳（メタデータ） (2025-09-28T07:00:15Z)
VOCABTRIM: Vocabulary Pruning for Efficient Speculative Decoding in LLMs [15.508475101753715]
本研究では,プロダクタに基づく投機的復号法(SpD)の性能向上のためのトレーニングフリー手法を提案する。ドラフトラダーベースの投機的復号法は、複数のトークンからなるドラフトシーケンスまたはツリーをサンプリングするために、ドラフトラダーまたはドラフトモデルと呼ばれる1つ以上のより小さな言語モデルを利用する。提案手法は,Spec-Bench上でのLlama-3モデルのメモリバウンド速度を,特にLlama-3.2-3B-Instructの16%向上できることを示す。
論文参考訳（メタデータ） (2025-06-28T00:26:40Z)
DuoDecoding: Hardware-aware Heterogeneous Speculative Decoding with Dynamic Multi-Sequence Drafting [59.57151419673759]
投機的復号化は、出力分布の忠実さを維持しながら生成遅延を低減するドラフト・then-verifyフレームワークを提供する。我々は、CPUとGPUにそれぞれドラフトモデルとターゲットモデルを戦略的にデプロイする新しいアプローチであるDuoDecodingを提案する。本手法は,アイドル時間を最小限に抑えるため,ハードウェア対応の最適ドラフト予算を組み込んで,動的マルチシーケンスドラフトを用いて,ドラフト品質を向上させる。
論文参考訳（メタデータ） (2025-03-02T08:27:48Z)
GRIFFIN: Effective Token Alignment for Faster Speculative Decoding [52.905060461479856]
GRIFFINは、トークン指向のトレーニング戦略とトークン指向のドラフトモデルを組み込んだ、新しいフレームワークである。 LLaMA, Vicuna, Qwen, Mixtral モデルを用いた実験では, GRIFFIN が平均受容長 8% 以上, スピードアップ比 7% 以上を達成している。
論文参考訳（メタデータ） (2025-02-16T07:06:00Z)
FastDraft: How to Train Your Draft [0.7499722271664144]
我々はFastDraftを紹介します。FastDraftは、ドラフトモデルを任意の大きな言語モデルに事前トレーニングし、調整するための、新しく効率的なアプローチです。我々は、人気のあるPhi-3-miniとLlama-3.1-8Bモデルの2つの高パラメータ効率ドラフトをトレーニングすることで、FastDraftを実証する。 FastDraftを使って、Intel$circledR$Gaudi$circledR$2アクセラレータを24時間以内に1つのサーバに約100億のトークンでドラフトを作成することができました。
論文参考訳（メタデータ） (2024-11-17T12:32:44Z)
ParallelSpec: Parallel Drafter for Efficient Speculative Decoding [62.68430939686566]
提案するParallelSpecは,最先端の投機的復号化手法における自己回帰的起草戦略の代替となる。投機段階における自己回帰的起草とは対照的に,効率的な投機モデルとして機能する並列投機を訓練する。
論文参考訳（メタデータ） (2024-10-08T01:05:08Z)
PEARL: Parallel Speculative Decoding with Adaptive Draft Length [12.166703341906242]
本稿では,適応dRaft Length(PEARL)を用いた投機的復号化(Parallel speculative decoding)を促進するための,概念的にシンプルでフレキシブルで汎用的なフレームワークを提案する。 PEARLは、ドラフトフェーズ中に事前に最初のドラフトトークンを検証し、検証フェーズ中により多くのドラフトトークンを生成するための後検証を提案する。各種テキスト生成ベンチマークの実験では、PEARLの有効性が実証されており、自動回帰復号法とバニラ投機復号法と比較して、パフォーマンスが4.43$times$と1.50$times$に向上した。
論文参考訳（メタデータ） (2024-08-13T08:32:06Z)
Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文参考訳（メタデータ） (2024-07-23T06:21:24Z)
Superposed Decoding: Multiple Generations from a Single Autoregressive Inference Pass [72.07642648108849]
Superposed Decodingは、1つの自己回帰推論パスのコストで$k$のドラフトを生成する新しい復号アルゴリズムである。 Superposed Decodingは、他のデコード戦略と組み合わせることで、推論時間計算のスケーリング時に普遍的なカバレッジが向上する。
論文参考訳（メタデータ） (2024-05-28T17:40:48Z)
GliDe with a CaPE: A Low-Hassle Method to Accelerate Speculative Decoding [81.01996600734616]
GliDe と CaPE を導入し,バニラ投機復号への2つの低ハードル修正を行った。 GliDeは、ターゲットのLLMからキャッシュされたキーと値を再利用する、修正されたドラフトモデルアーキテクチャである。コード、データ、トレーニング済みのドラフトモデルをリリースします。
論文参考訳（メタデータ） (2024-02-03T08:44:11Z)
Multi-Candidate Speculative Decoding [82.05519287513444]
大規模な言語モデルは、様々なNLPタスクで印象的な機能を示してきたが、その生成は自動回帰的に時間を要する。これは高速なドラフトモデルから候補セグメントを生成し、ターゲットモデルによって並列に検証する。本稿では,複数の候補をドラフトモデルから抽出し,検証のためにバッチにまとめる手法を提案する。対象モデルの分布を維持しつつ,効率的な多候補検証のためのアルゴリズムを設計する。
論文参考訳（メタデータ） (2024-01-12T17:15:23Z)
Cascade Speculative Drafting for Even Faster LLM Inference [25.642604897018852]
投機的復号化により、大言語モデル(LLM)推論の効率が向上する。本稿では2種類のカスケードを組み込んだ投機的実行アルゴリズムであるカスケード投機ドラフト(CS Drafting)を紹介する。 CS Draftingは、我々の実験で投機的復号化よりも81%の高速化を実現している。
論文参考訳（メタデータ） (2023-12-18T18:59:46Z)
SpecTr: Fast Speculative Decoding via Optimal Transport [30.18181671899423]
このアルゴリズムはデコーディングの高速化を図り、デコードされた出力に品質劣化がないことを保証します。提案手法は,最先端の大規模言語モデルに対して,標準的なベンチマーク上での投機的復号化よりもさらに1.37倍の高速化である2.13Xのウォールクロック高速化を実現することを実験的に実証した。
論文参考訳（メタデータ） (2023-10-23T17:47:34Z)
Draft & Verify: Lossless Large Language Model Acceleration via Self-Speculative Decoding [25.03122689338891]
本稿では,大規模言語モデルの高速化を目的とした新しい推論手法である自己推論復号法を提案する。提案手法では、追加のニューラルネットワークトレーニングや、追加のメモリフットプリントを必要としない。 LLaMA-2とその変種によるベンチマークでは、最大1.99$times$まで高速化された。
論文参考訳（メタデータ） (2023-09-15T05:34:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。