Fugu-MT 論文翻訳(概要): Optimal Block-Level Draft Verification for Accelerating Speculative Decoding

論文の概要: Optimal Block-Level Draft Verification for Accelerating Speculative Decoding

arxiv url: http://arxiv.org/abs/2403.10444v1
Date: Fri, 15 Mar 2024 16:28:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-18 16:21:13.784463
Title: Optimal Block-Level Draft Verification for Accelerating Speculative Decoding
Title（参考訳）: 投機復号の高速化のための最適ブロックレベルドラフト検証
Authors: Ziteng Sun, Jae Hun Ro, Ahmad Beirami, Ananda Theertha Suresh,
Abstract要約: 本稿では,追加の計算コストやドラフトトークンを発生させることなく,ウォールクロックの高速化を実現する,より優れたドラフト検証アルゴリズムを提案する。提案するブロックレベルの検証アルゴリズムを,幅広いタスクやデータセットで実証的に評価する。
参考スコア（独自算出の注目度）: 25.344587643469538
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Speculative decoding has shown to be an effective method for lossless acceleration of large language models (LLMs) during inference. In each iteration, the algorithm first uses a smaller model to draft a block of tokens. The tokens are then verified by the large model in parallel and only a subset of tokens will be kept to guarantee that the final output follows the distribution of the large model. In all of the prior speculative decoding works, the draft verification is performed token-by-token independently. In this work, we propose a better draft verification algorithm that provides additional wall-clock speedup without incurring additional computation cost and draft tokens. We first formulate the draft verification step as a block-level optimal transport problem. The block-level formulation allows us to consider a wider range of draft verification algorithms and obtain a higher number of accepted tokens in expectation in one draft block. We propose a verification algorithm that achieves the optimal accepted length for the block-level transport problem. We empirically evaluate our proposed block-level verification algorithm in a wide range of tasks and datasets, and observe consistent improvements in wall-clock speedup when compared to token-level verification algorithm. To the best of our knowledge, our work is the first to establish improvement over speculative decoding through a better draft verification algorithm.
Abstract（参考訳）: 投機的復号化は,大言語モデル (LLM) の推論時のロスレスアクセラレーションに有効な手法であることが示されている。各イテレーションにおいて、アルゴリズムはまず小さなモデルを使用してトークンのブロックをドラフトする。トークンは大きなモデルによって並列に検証され、最後の出力が大きなモデルの分布に従うことを保証するためにトークンのサブセットのみが保持される。以前の投機的復号処理の全てにおいて、ドラフト検証は独立してトークン・バイ・トークン化される。本研究では,新たな計算コストやドラフトトークンを発生させることなく,ウォールクロックの高速化を実現する,より優れたドラフト検証アルゴリズムを提案する。まず、ブロックレベルの最適輸送問題として、ドラフト検証ステップを定式化する。ブロックレベルの定式化により、より広い範囲のドラフト検証アルゴリズムを検討でき、1つのドラフトブロックで期待されるトークンがより多く取得できる。ブロックレベルの輸送問題に対して最適な許容長を求める検証アルゴリズムを提案する。我々は,提案したブロックレベルの検証アルゴリズムを幅広いタスクやデータセットで実証的に評価し,トークンレベルの検証アルゴリズムと比較して,ウォールクロックの高速化が一貫した改善を観察する。我々の知識を最大限に活用するために、我々の研究は、より良いドラフト検証アルゴリズムを通じて投機的復号化よりも改善した最初のものである。

関連論文リスト

Speculative Speculative Decoding [30.440531978808295]
これらの操作を並列化するために、投機的投機的復号法(SSD)を導入する。投機的投機的復号法によって提示される3つの重要な課題を特定し,各解法について提案する。我々の実装は最適化された投機的復号化ベースラインよりも最大2倍高速で、オープンソース推論エンジンによる自己回帰復号化よりも最大5倍高速です。
論文参考訳（メタデータ） (2026-03-03T18:41:32Z)
Greedy Multi-Path Block Verification for Faster Decoding in Speculative Sampling [0.776402435567685]
オフパス確率を用いた検証アルゴリズムよりもブロック検証が最適であることを示す。我々はgreedy multi-path block verification (GBV)と呼ばれる効率的な手法を定式化する。 Llama-370Bでは、GBVはSOTAのマルチパス検証手法よりも15%以上、エンドツーエンドの復号スループットを向上させることができる。
論文参考訳（メタデータ） (2026-02-18T23:55:01Z)
PACER: Blockwise Pre-verification for Speculative Decoding with Adaptive Length [21.738896310075678]
投機的復号法(SD)は,大規模言語モデル(LLM)の推論過程を高速化する強力な手法である軽量でトレーニング可能な事前検証レイヤを用いて,ドラフト長を動的に制御する新しいアプローチであるPacerを提案する。以上の結果から,Pacerは自己回帰復号化よりも最大2.66倍の高速化を実現し,一貫した投機復号化を実現していることがわかった。
論文参考訳（メタデータ） (2026-02-01T15:12:38Z)
Overcoming Joint Intractability with Lossless Hierarchical Speculative Decoding [58.92526489742584]
我々は無益な無益な提案をする。承認されたトークンの数を大幅に増加させる検証方法。 HSDは様々なモデルファミリやベンチマークの受け入れ率に一貫した改善をもたらすことを示す。
論文参考訳（メタデータ） (2026-01-09T11:10:29Z)
Accelerate Speculative Decoding with Sparse Computation in Verification [49.74839681322316]
投機的復号化は、複数のドラフトトークンを並列に検証することにより、自動回帰言語モデル推論を加速する。既存のスペーシフィケーション方式は主にトークン・バイ・トーケンの自己回帰復号化のために設計されている。そこで本研究では,注目度,FFN,MoEを両立させるスパース検証フレームワークを提案する。
論文参考訳（メタデータ） (2025-12-26T07:53:41Z)
Fast Inference via Hierarchical Speculative Decoding [65.40448210801763]
階層的投機的復号法(HSD)は,各モデルがトークンを提案し,次に大きなモデルが1つのフォワードパスで検証する階層構造に,ドラフトモデルを積み重ねるアルゴリズムである。 HSDは最高の単軸ベースラインよりも1.2倍のスピードアップを達成している。
論文参考訳（メタデータ） (2025-10-22T15:56:19Z)
Broken Tokens? Your Language Model can Secretly Handle Non-Canonical Tokenizations [83.93566096400723]
ランダムにサンプリングされたトークン化が与えられた場合、命令調整されたモデルは元の性能の最大93.4%を維持している。文字レベルのセグメンテーションは文字列操作とコード理解タスクを最大+14%改善する。右列桁のグルーピングは、大数の算術を+33%向上させる。
論文参考訳（メタデータ） (2025-06-23T18:02:26Z)
Towards Better Code Generation: Adaptive Decoding with Uncertainty Guidance [28.99265405319943]
我々はShannon Entropyを介して定量化されたトークンレベルの不確実性によって導かれる適応デコードフレームワークであるAdaDecを紹介する。 AdaDecは従来のビームサーチよりも15.5%の精度向上を実現している。
論文参考訳（メタデータ） (2025-06-10T16:49:46Z)
AdaDecode: Accelerating LLM Decoding with Adaptive Layer Parallelism [17.858104076062897]
大規模言語モデル (LLM) は、長いコンテンツ生成にますます使われている。補助モデルや元のモデルパラメータの変更を必要とせずにデコーディングを高速化するAdaDecodeを提案する。 AdaDecodeは最大1.73倍のスピードアップで優れた復号処理を実現している。
論文参考訳（メタデータ） (2025-06-04T08:32:30Z)
Think Before You Accept: Semantic Reflective Verification for Faster Speculative Decoding [48.52389201779425]
投機的復号化は、軽量モデルを使用して複数のドラフトトークンを生成し、それらを並列に検証することで推論を加速する。既存の検証手法は、意味的正確性を見越しながら、分布の整合性に大きく依存している。我々は,学習自由でセマンティックなアプローチであるリフレクティブ検証を提案し,正確性と効率のトレードオフを改善する。
論文参考訳（メタデータ） (2025-05-24T10:26:27Z)
Traversal Verification for Speculative Tree Decoding [9.534492618180085]
投機的復号化は、大きな言語モデルを加速するための有望なアプローチである。本稿では,新しい投機的復号化アルゴリズムであるトラバーサル検証を紹介する。提案手法は,既存手法よりも受け入れ長とスループットを継続的に向上することを示す。
論文参考訳（メタデータ） (2025-05-18T12:51:55Z)
Search-Based Correction of Reasoning Chains for Language Models [72.61861891295302]
CoT(Chain-of-Thought)推論は言語モデル(LM)の機能と透明性を向上した。我々はCoTにおける各推論ステップを、その正確性を示す潜在変数で拡張する新しい自己補正フレームワークを導入する。また,離散探索アルゴリズムであるサーチコレクタも導入した。
論文参考訳（メタデータ） (2025-05-17T04:16:36Z)
AutoJudge: Judge Decoding Without Manual Annotation [10.411318392966358]
AutoJudgeは大規模言語モデル(LLM)推論をタスク固有の損失投機的デコードで高速化するフレームワークである。ターゲットモデルとドラフトモデルのミスマッチのどれを修正すべきかを,半グレディ探索アルゴリズムを用いて検証する。次に、既存のLLM埋め込みに基づいて軽量な分類器をトレーニングし、推論時にトークンのミスマッチを安全に受け入れることができるように予測する。
論文参考訳（メタデータ） (2025-04-28T17:59:28Z)
GRIFFIN: Effective Token Alignment for Faster Speculative Decoding [52.905060461479856]
GRIFFINはトークン指向のトレーニング戦略とトークン指向のドラフトモデルを組み込んだフレームワークである。 LLaMAシリーズとVicunaモデルを用いた実験では、GRIFFINは7%以上、スピードアップ率は8%以上である。
論文参考訳（メタデータ） (2025-02-16T07:06:00Z)
A Theoretical Perspective for Speculative Decoding Algorithm [60.79447486066416]
EmphSpeculative Decodingは、小さなモデルを使用して、ドラフトトークンのシーケンスと、検証のための大きなモデルをサンプリングする。本稿では,マルコフ連鎖抽象化による復号化問題を概念化し,理論的な観点から,鍵特性,エファンアウトプットの品質,推論加速度について考察する。
論文参考訳（メタデータ） (2024-10-30T01:53:04Z)
PEARL: Parallel Speculative Decoding with Adaptive Draft Length [12.166703341906242]
本稿では,適応dRaft Length(PEARL)を用いた投機的復号化(Parallel speculative decoding)を促進するための,概念的にシンプルでフレキシブルで汎用的なフレームワークを提案する。 PEARLは、ドラフトフェーズ中に事前に最初のドラフトトークンを検証し、検証フェーズ中により多くのドラフトトークンを生成するための後検証を提案する。各種テキスト生成ベンチマークの実験では、PEARLの有効性が実証されており、自動回帰復号法とバニラ投機復号法と比較して、パフォーマンスが4.43$times$と1.50$times$に向上した。
論文参考訳（メタデータ） (2024-08-13T08:32:06Z)
Speculative Diffusion Decoding: Accelerating Language Generation through Diffusion [59.17158389902231]
投機的復号化は,大規模言語モデル推論を高速化する手法として広く採用されている。本稿では,離散拡散モデルを用いてドラフトシーケンスを生成する投機的復号法を提案する。
論文参考訳（メタデータ） (2024-08-10T21:24:25Z)
The Latency Price of Threshold Cryptosystem in Blockchains [52.359230560289745]
本稿では,Byzantine-fault Tolerant(BFT)コンセンサスプロトコルを用いた,しきい値暗号とブロックチェーンのクラス間の相互作用について検討する。しきい値暗号システムに対する既存のアプローチは、しきい値暗号プロトコルを実行するための少なくとも1つのメッセージ遅延の遅延オーバーヘッドを導入している。しきい値が狭いブロックチェーンネイティブのしきい値暗号システムに対して,このオーバーヘッドを取り除く機構を提案する。
論文参考訳（メタデータ） (2024-07-16T20:53:04Z)
EMS-SD: Efficient Multi-sample Speculative Decoding for Accelerating Large Language Models [40.651650382105636]
Vanillaメソッドは、サンプル間で新しいトークンの数が一貫していることを保証するために、パディングトークンを追加する。本稿では,メモリや計算のオーバーヘッドを増大させることなく,異なるサンプルで受け入れられる不整合トークンの問題を解決する手法を提案する。提案手法は, パディングトークンを追加することなく, 異なるサンプルの予測トークンが矛盾する状況に対処できる。
論文参考訳（メタデータ） (2024-05-13T08:24:21Z)
Multi-Candidate Speculative Decoding [82.05519287513444]
大規模な言語モデルは、様々なNLPタスクで印象的な機能を示してきたが、その生成は自動回帰的に時間を要する。これは高速なドラフトモデルから候補セグメントを生成し、ターゲットモデルによって並列に検証する。本稿では,複数の候補をドラフトモデルから抽出し,検証のためにバッチにまとめる手法を提案する。対象モデルの分布を維持しつつ,効率的な多候補検証のためのアルゴリズムを設計する。
論文参考訳（メタデータ） (2024-01-12T17:15:23Z)
Object Recognition as Next Token Prediction [99.40793702627396]
オブジェクト認識を次のトークン予測として提案する。その考え方は、画像埋め込みからフォームラベルへのテキストトークンの自動回帰予測を行う言語デコーダを適用することである。
論文参考訳（メタデータ） (2023-12-04T18:58:40Z)
Fast and Robust Early-Exiting Framework for Autoregressive Language Models with Synchronized Parallel Decoding [43.659680579686544]
本稿では,浅層深度モジュールと並列デコーディングを併用したFast and Robust Early-Exitingフレームワークを提案する。我々のフレームワークは、既存のトークンの復号処理を、以前に積み重ねられた早期発行トークンと同期させることで、より高速な推論を可能にする。並列デコーディングにより,浅層モデルと深部モデルの両方からの予測を観測できるので,新しい適応しきい値推定器を提案する。
論文参考訳（メタデータ） (2023-10-09T05:53:05Z)
SAT-based Formal Fault-Resistance Verification of Cryptographic Circuits [4.42563968195381]
本稿では,NP完全であることを示す耐故障性検証問題を定式化する。そこで我々は,耐故障性検証問題をBoolean satisfiability (SAT)問題として符号化する新しい手法を考案した。この手法は、リアルな暗号回路ベンチマークで広く評価されているオープンソースツールFIRMERで実装されている。
論文参考訳（メタデータ） (2023-07-02T13:01:32Z)
Speculative Decoding: Exploiting Speculative Execution for Accelerating Seq2seq Generation [80.2267931231335]
本稿では,自己回帰(AR)デコーディングを高速化する投機的実行のアイデアを活用するための投機的デコーディング(SpecDec)を提案する。 SpecDecには2つのイノベーションがある。Spec-Drafter - 効率的なドラフトのために特別に最適化された独立モデル、Spec-Verification - ドラフトされたトークンを効率的に検証するための信頼性の高い方法である。
論文参考訳（メタデータ） (2022-03-30T17:27:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。