論文の概要: Improving Multi-candidate Speculative Decoding
- arxiv url: http://arxiv.org/abs/2409.10644v1
- Date: Mon, 16 Sep 2024 18:20:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 19:00:49.864340
- Title: Improving Multi-candidate Speculative Decoding
- Title(参考訳): マルチ候補投機デコードの改善
- Authors: Xiaofan Lu, Yixiao Zeng, Feiyang Ma, Zixu Yu, Marco Levorato,
- Abstract要約: 投機的復号化(SD)とは,大規模言語モデル(LLM)の推論を高速化する手法である。
MCSDの改良版には、ターゲットモデルマルチ候補プロセス、動的長さ調整のための動的スライストポロジ対応因果マスク、早期停止を最適化するための決定モデルが含まれる。
提案フレームワークは,最大ドラフトシーケンス長に対して対象モデルが許容する最長ドラフトシーケンス長の比率を最大164%向上させ,MCSDベースラインに対して最大75%の速度で生成する。
- 参考スコア(独自算出の注目度): 1.6291177798903276
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speculative Decoding (SD) is a technique to accelerate the inference of Large Language Models (LLMs) by using a lower complexity draft model to propose candidate tokens verified by a larger target model. To further improve efficiency, Multi-Candidate Speculative Decoding (MCSD) improves upon this by sampling multiple candidate tokens from the draft model at each step and verifying them in parallel, thus increasing the chances of accepting a token and reducing generation time. Existing MCSD methods rely on the draft model to initialize the multi-candidate sequences and use static length and tree attention structure for draft generation. However, such an approach suffers from the draft and target model's output distribution differences, especially in dynamic generation context. In this work, we introduce an improved version of MCSD that includes a target model initialized multi-candidate process, dynamic sliced topology-aware causal mask for dynamic length adjustment, and decision models to optimize early stopping. Our framework improves the acceptance rate, defined as the ratio of the longest draft sequence length accepted by the target model over the maximum draft sequence length, by a maximum of 164% and gains a maximum of 75% generation speed up over the MCSD baseline. We also conduct an ablation study to evaluate the impact of the decision model.
- Abstract(参考訳): 投機的復号法 (SD) は、より低い複雑性のドラフトモデルを用いて、より大きなターゲットモデルによって検証された候補トークンを提案することにより、Large Language Models (LLM) の推論を高速化する手法である。
さらに効率を向上させるために、MCSD(Multi-Candidate Speculative Decoding)は、各ステップでドラフトモデルから複数の候補トークンをサンプリングし、それらを並列に検証することにより、トークンを受け入れる可能性を高め、生成時間を短縮する。
既存のMCSD法は、複数の候補列を初期化し、静的長とツリーアテンション構造をドラフト生成に利用するために、ドラフトモデルに依存している。
しかし、このようなアプローチは、特に動的生成コンテキストにおいて、ドラフトとターゲットモデルの出力分布の違いに悩まされる。
本研究では,目標モデルの初期化マルチ候補プロセス,動的長さ調整のための動的スライストポロジ対応因果マスク,早期停止を最適化する決定モデルを含むMCSDの改良版を紹介する。
提案フレームワークは,最大ドラフトシーケンス長に対して対象モデルが許容する最長ドラフトシーケンス長の比率を最大164%向上させ,MCSDベースラインに対して最大75%の速度で生成する。
また、意思決定モデルの効果を評価するためのアブレーション研究も行います。
関連論文リスト
- Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization [65.64108848398696]
本稿では,MLLMのマルチモーダル推論能力を高めるための選好最適化プロセスを提案する。
我々は,マルチモーダルCoT性能を向上する,MPO(Mixed Preference Optimization)と呼ばれるシンプルで効果的な手法を開発した。
我々のモデルであるInternVL2-8B-MPOは、MathVista上で67.0の精度を実現し、InternVL2-8Bを8.7ポイント上回り、10倍のInternVL2-76Bに匹敵する性能を達成する。
論文 参考訳(メタデータ) (2024-11-15T18:59:27Z) - ParallelSpec: Parallel Drafter for Efficient Speculative Decoding [62.68430939686566]
提案するParallelSpecは,最先端の投機的復号化手法における自己回帰的起草戦略の代替となる。
投機段階における自己回帰的起草とは対照的に,効率的な投機モデルとして機能する並列投機を訓練する。
論文 参考訳(メタデータ) (2024-10-08T01:05:08Z) - Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。
本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。
適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T22:35:03Z) - Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。
本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。
我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文 参考訳(メタデータ) (2024-07-23T06:21:24Z) - S2D: Sorted Speculative Decoding For More Efficient Deployment of Nested Large Language Models [32.68002253527712]
より高速な推論のためのドラフトモデルをデプロイするための、新しいマルチターゲットシナリオを紹介します。
マルチターゲット設定における正規ベースラインよりも優れた、より効率的なソートされた投機的復号化機構を提案する。
論文 参考訳(メタデータ) (2024-07-02T05:14:15Z) - Adaptive Draft-Verification for Efficient Large Language Model Decoding [24.347886232342862]
大規模言語モデル(LLM)デコードでは、与えられたコンテキストに基づいてトークンのシーケンスを生成する。
典型的な自己回帰復号法では、生成されたトークンごとに別の前方通過が必要となる。
微調整を必要とせずにLDMデコーディングを高速化するADEDを導入する。
論文 参考訳(メタデータ) (2024-06-27T22:20:39Z) - Multi-Candidate Speculative Decoding [82.05519287513444]
大規模な言語モデルは、様々なNLPタスクで印象的な機能を示してきたが、その生成は自動回帰的に時間を要する。
これは高速なドラフトモデルから候補セグメントを生成し、ターゲットモデルによって並列に検証する。
本稿では,複数の候補をドラフトモデルから抽出し,検証のためにバッチにまとめる手法を提案する。
対象モデルの分布を維持しつつ,効率的な多候補検証のためのアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-01-12T17:15:23Z) - DistillSpec: Improving Speculative Decoding via Knowledge Distillation [70.61777015900272]
投機的復号(SD)は、複数のトークンを生成するためにより高速なドラフトモデルを使用することで、大きな言語モデル推論を加速する。
本稿では,SDを適用する前に,知識蒸留を用いて,ドラフトモデルとターゲットモデルとの整合性を向上するDistillSpecを提案する。
DistillSpecは標準SDよりも10~45%のスピードアップを実現しています。
論文 参考訳(メタデータ) (2023-10-12T16:21:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。