Fugu-MT 論文翻訳(概要): Speculative Decoding with CTC-based Draft Model for LLM Inference Acceleration

論文の概要: Speculative Decoding with CTC-based Draft Model for LLM Inference Acceleration

arxiv url: http://arxiv.org/abs/2412.00061v1
Date: Mon, 25 Nov 2024 14:10:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-04 21:11:21.323502
Title: Speculative Decoding with CTC-based Draft Model for LLM Inference Acceleration
Title（参考訳）: LLM推論高速化のためのCTCに基づくドラフトモデルによる投機的復号
Authors: Zhuofan Wen, Shangtong Gui, Yang Feng,
Abstract要約: ドラフトフェーズにおけるドラフトトークン間の相関性を強化するCTCベースのドラフトモデルを提案する。実験結果から,提案手法は強いベースラインに比べて高い受理率と高速な推論速度が得られることがわかった。
参考スコア（独自算出の注目度）: 14.011702040133848
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Inference acceleration of large language models (LLMs) has been put forward in many application scenarios and speculative decoding has shown its advantage in addressing inference acceleration. Speculative decoding usually introduces a draft model to assist the base LLM where the draft model produces drafts and the base LLM verifies the draft for acceptance or rejection. In this framework, the final inference speed is decided by the decoding speed of the draft model and the acceptance rate of the draft provided by the draft model. Currently the widely used draft models usually generate draft tokens for the next several positions in a non-autoregressive way without considering the correlations between draft tokens. Therefore, it has a high decoding speed but an unsatisfactory acceptance rate. In this paper, we focus on how to improve the performance of the draft model and aim to accelerate inference via a high acceptance rate. To this end, we propose a CTC-based draft model which strengthens the correlations between draft tokens during the draft phase, thereby generating higher-quality draft candidate sequences. Experiment results show that compared to strong baselines, the proposed method can achieve a higher acceptance rate and hence a faster inference speed.
Abstract（参考訳）: 大規模言語モデル(LLM)の推論アクセラレーションは多くのアプリケーションシナリオで提案されており、投機的復号化は推論アクセラレーションに対処する上での優位性を示している。投機的復号化は通常、ドラフトモデルがドラフトを生成し、ベースLLMが受け入れや拒絶のドラフトを検証するベースLLMを支援するドラフトモデルを導入する。本フレームワークでは、ドラフトモデルの復号速度とドラフトモデルが提供するドラフトの受入率により最終推論速度を決定する。現在広く使われているドラフトモデルは、通常、ドラフトトークン間の相関を考慮せずに、非自己回帰的な方法で、次のいくつかのポジションのドラフトトークンを生成する。したがって、復号速度は高いが、不満足な受理率である。本稿では,ドラフトモデルの性能向上に焦点をあて,高い受け入れ率で推論を高速化することを目的とする。そこで本研究では, ドラフトフェーズにおけるドラフトトークン間の相関性を強化し, 高品質なドラフト候補系列を生成するCTCベースのドラフトモデルを提案する。実験結果から,提案手法は強いベースラインに比べて高い受理率と高速な推論速度が得られることがわかった。

関連論文リスト

CARD: Cache-Assisted Parallel Speculative Decoding for Efficient Large Language Model Inference [19.14564724894706]
本稿では,'query-and-correct'パラダイムを用いた投機的復号化フレームワークを提案する。 CARDは、ドラフトと検証を分離する: ドラフトモデルは、共有キャッシュをポップアップさせる候補トークンを生成し、ターゲットモデルは、ドラフトモデルの生成方向を同時に修正する。提案手法では,バニラ復号法よりも最大4.83高速化が可能であり,ドラフトモデルやターゲットモデルの微調整は不要である。
論文参考訳（メタデータ） (2025-08-06T14:02:10Z)
Think Before You Accept: Semantic Reflective Verification for Faster Speculative Decoding [48.52389201779425]
投機的復号化は、軽量モデルを使用して複数のドラフトトークンを生成し、それらを並列に検証することで推論を加速する。既存の検証手法は、意味的正確性を見越しながら、分布の整合性に大きく依存している。我々は,学習自由でセマンティックなアプローチであるリフレクティブ検証を提案し,正確性と効率のトレードオフを改善する。
論文参考訳（メタデータ） (2025-05-24T10:26:27Z)
PARD: Accelerating LLM Inference with Low-Cost PARallel Draft Model Adaptation [4.031603850949324]
本稿では,自動回帰ドラフトモデルの並列ドラフトモデルへの低コストな適応を可能にする新しい投機的復号化手法を提案する。提案した条件付きドロップトークン法は,ドラフトモデルのトレーニング効率を3倍に向上させることができる。最適化された推論フレームワークでは、PARDはLLaMA3.1-8B推論を4.08倍高速化し、毎秒311.5トークンを達成する。
論文参考訳（メタデータ） (2025-04-23T12:27:43Z)
Towards Optimal Multi-draft Speculative Decoding [102.67837141152232]
MDSD(Multi-Draft Speculative Decoding)は、各トークンを生成する際に、小さなドラフトモデルで複数のドラフトを生成する手法である。本稿では、最適輸送問題の双対性について論じ、最適受容率を効率的に計算する方法を提供する。
論文参考訳（メタデータ） (2025-02-26T03:22:44Z)
GRIFFIN: Effective Token Alignment for Faster Speculative Decoding [52.905060461479856]
GRIFFINはトークン指向のトレーニング戦略とトークン指向のドラフトモデルを組み込んだフレームワークである。 LLaMAシリーズとVicunaモデルを用いた実験では、GRIFFINは7%以上、スピードアップ率は8%以上である。
論文参考訳（メタデータ） (2025-02-16T07:06:00Z)
AdaEDL: Early Draft Stopping for Speculative Decoding of Large Language Models via an Entropy-based Lower Bound on Token Acceptance Probability [5.421949344085942]
AdaEDLは、静的なドラフト長の投機的デコーディングを10%から57%上回っている。また、AdaEDLはこれらの技術よりも堅牢であり、高温シナリオにおける性能を保っていることを示す。
論文参考訳（メタデータ） (2024-10-24T01:13:43Z)
Improving Multi-candidate Speculative Decoding [1.6291177798903276]
投機的復号化(SD)とは,大規模言語モデル(LLM)の推論を高速化する手法である。そこで本研究では,ターゲットモデルによるマルチ候補生成を含むMCSDの新バージョンを提案する。また、異なるドラフトモデルを用いたターゲットモデルマルチ候補プロセスが出力品質に及ぼす影響についても検討した。
論文参考訳（メタデータ） (2024-09-16T18:20:38Z)
PEARL: Parallel Speculative Decoding with Adaptive Draft Length [12.166703341906242]
本稿では,適応dRaft Length(PEARL)を用いた投機的復号化(Parallel speculative decoding)を促進するための,概念的にシンプルでフレキシブルで汎用的なフレームワークを提案する。 PEARLは、ドラフトフェーズ中に事前に最初のドラフトトークンを検証し、検証フェーズ中により多くのドラフトトークンを生成するための後検証を提案する。各種テキスト生成ベンチマークの実験では、PEARLの有効性が実証されており、自動回帰復号法とバニラ投機復号法と比較して、パフォーマンスが4.43$times$と1.50$times$に向上した。
論文参考訳（メタデータ） (2024-08-13T08:32:06Z)
Speculative Diffusion Decoding: Accelerating Language Generation through Diffusion [59.17158389902231]
投機的復号化は,大規模言語モデル推論を高速化する手法として広く採用されている。本稿では,離散拡散モデルを用いてドラフトシーケンスを生成する投機的復号法を提案する。
論文参考訳（メタデータ） (2024-08-10T21:24:25Z)
Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文参考訳（メタデータ） (2024-07-23T06:21:24Z)
Accelerating Production LLMs with Combined Token/Embedding Speculators [4.649953910785797]
本報告では,新規な投機的復号化ドラフトモデルの設計と訓練について述べる。文脈ベクトルとサンプリングトークンの両方にドラフト予測を条件付けすることで、投機器を訓練して高品質なn-gramを効率的に予測することができる。
論文参考訳（メタデータ） (2024-04-29T21:59:07Z)
Ouroboros: Generating Longer Drafts Phrase by Phrase for Faster Speculative Decoding [65.94521678103237]
投機的復号化(英: Speculative decoding)は、大規模言語モデルの生成プロセスを加速する広く使われている手法である。我々は,草案作成プロセスの並列化のために,草案文を生成するOuroborosを紹介した。ウロボロは投機的復号化で最大2.8倍、バニラ復号化で3.9倍のスピードアップを達成できる。
論文参考訳（メタデータ） (2024-02-21T11:31:28Z)
GliDe with a CaPE: A Low-Hassle Method to Accelerate Speculative Decoding [81.01996600734616]
GliDe と CaPE を導入し,バニラ投機復号への2つの低ハードル修正を行った。 GliDeは、ターゲットのLLMからキャッシュされたキーと値を再利用する、修正されたドラフトモデルアーキテクチャである。コード、データ、トレーニング済みのドラフトモデルをリリースします。
論文参考訳（メタデータ） (2024-02-03T08:44:11Z)
Decoding Speculative Decoding [4.56754610152086]
投機的復号化は、品質を犠牲にすることなく、大規模言語モデルの推論を高速化する技術である。 LLaMA-65BとOPT-66Bの350以上の実験を投機的復号法を用いて検討した。 LLaMA-65Bの新しいドラフトモデルは、既存のドラフトモデルよりも111%高いスループットを提供できる。
論文参考訳（メタデータ） (2024-02-02T16:15:24Z)
Multi-Candidate Speculative Decoding [82.05519287513444]
大規模な言語モデルは、様々なNLPタスクで印象的な機能を示してきたが、その生成は自動回帰的に時間を要する。これは高速なドラフトモデルから候補セグメントを生成し、ターゲットモデルによって並列に検証する。本稿では,複数の候補をドラフトモデルから抽出し,検証のためにバッチにまとめる手法を提案する。対象モデルの分布を維持しつつ,効率的な多候補検証のためのアルゴリズムを設計する。
論文参考訳（メタデータ） (2024-01-12T17:15:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。