Fugu-MT 論文翻訳(概要): Improving Multi-candidate Speculative Decoding

論文の概要: Improving Multi-candidate Speculative Decoding

arxiv url: http://arxiv.org/abs/2409.10644v1
Date: Mon, 16 Sep 2024 18:20:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-18 19:00:49.864340
Title: Improving Multi-candidate Speculative Decoding
Title（参考訳）: マルチ候補投機デコードの改善
Authors: Xiaofan Lu, Yixiao Zeng, Feiyang Ma, Zixu Yu, Marco Levorato,
Abstract要約: 投機的復号化(SD)とは,大規模言語モデル(LLM)の推論を高速化する手法である。 MCSDの改良版には、ターゲットモデルマルチ候補プロセス、動的長さ調整のための動的スライストポロジ対応因果マスク、早期停止を最適化するための決定モデルが含まれる。提案フレームワークは,最大ドラフトシーケンス長に対して対象モデルが許容する最長ドラフトシーケンス長の比率を最大164%向上させ,MCSDベースラインに対して最大75%の速度で生成する。
参考スコア（独自算出の注目度）: 1.6291177798903276
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Speculative Decoding (SD) is a technique to accelerate the inference of Large Language Models (LLMs) by using a lower complexity draft model to propose candidate tokens verified by a larger target model. To further improve efficiency, Multi-Candidate Speculative Decoding (MCSD) improves upon this by sampling multiple candidate tokens from the draft model at each step and verifying them in parallel, thus increasing the chances of accepting a token and reducing generation time. Existing MCSD methods rely on the draft model to initialize the multi-candidate sequences and use static length and tree attention structure for draft generation. However, such an approach suffers from the draft and target model's output distribution differences, especially in dynamic generation context. In this work, we introduce an improved version of MCSD that includes a target model initialized multi-candidate process, dynamic sliced topology-aware causal mask for dynamic length adjustment, and decision models to optimize early stopping. Our framework improves the acceptance rate, defined as the ratio of the longest draft sequence length accepted by the target model over the maximum draft sequence length, by a maximum of 164% and gains a maximum of 75% generation speed up over the MCSD baseline. We also conduct an ablation study to evaluate the impact of the decision model.
Abstract（参考訳）: 投機的復号法 (SD) は、より低い複雑性のドラフトモデルを用いて、より大きなターゲットモデルによって検証された候補トークンを提案することにより、Large Language Models (LLM) の推論を高速化する手法である。さらに効率を向上させるために、MCSD(Multi-Candidate Speculative Decoding)は、各ステップでドラフトモデルから複数の候補トークンをサンプリングし、それらを並列に検証することにより、トークンを受け入れる可能性を高め、生成時間を短縮する。既存のMCSD法は、複数の候補列を初期化し、静的長とツリーアテンション構造をドラフト生成に利用するために、ドラフトモデルに依存している。しかし、このようなアプローチは、特に動的生成コンテキストにおいて、ドラフトとターゲットモデルの出力分布の違いに悩まされる。本研究では,目標モデルの初期化マルチ候補プロセス,動的長さ調整のための動的スライストポロジ対応因果マスク,早期停止を最適化する決定モデルを含むMCSDの改良版を紹介する。提案フレームワークは,最大ドラフトシーケンス長に対して対象モデルが許容する最長ドラフトシーケンス長の比率を最大164%向上させ,MCSDベースラインに対して最大75%の速度で生成する。また、意思決定モデルの効果を評価するためのアブレーション研究も行います。

関連論文リスト

CARD: Cache-Assisted Parallel Speculative Decoding for Efficient Large Language Model Inference [19.14564724894706]
本稿では,'query-and-correct'パラダイムを用いた投機的復号化フレームワークを提案する。 CARDは、ドラフトと検証を分離する: ドラフトモデルは、共有キャッシュをポップアップさせる候補トークンを生成し、ターゲットモデルは、ドラフトモデルの生成方向を同時に修正する。提案手法では,バニラ復号法よりも最大4.83高速化が可能であり,ドラフトモデルやターゲットモデルの微調整は不要である。
論文参考訳（メタデータ） (2025-08-06T14:02:10Z)
Consultant Decoding: Yet Another Synergistic Mechanism [49.996656694586164]
コンサルタント・デコーディング(CD)は、大きな言語モデルでのみ計算されるトークンレベルの確率を用いて、候補のドラフトを検証する。 CDは、目標モデルと比較して2.5倍の推論速度向上を実現し、同等の生成品質を維持している。
論文参考訳（メタデータ） (2025-06-03T03:13:27Z)
Mamba Drafters for Speculative Decoding [58.080550222549064]
SSM(State-of-the-art State Space Model)であるMambaをベースとした新しいドラフトモデルを提案する。 SSMの線形構造を活用することにより、従来のトランスフォーマー法に固有の二次的複雑性を回避することができる。高品質なドラフト候補を生成するための新しいテスト時間木探索アルゴリズムにより、効率をさらに向上する。
論文参考訳（メタデータ） (2025-06-01T22:52:47Z)
Dimple: Discrete Diffusion Multimodal Large Language Model with Parallel Decoding [53.82301522384719]
Dimple, the first Discrete Multimodal Large Language Model (DMLLM)を提案する。我々は,初期自己回帰フェーズとその後の拡散フェーズを組み合わせた新しい訓練パラダイムを設計する。 Dimple-7BはLLaVA-を3.9%上回り、DMLLMは自己回帰モデルに匹敵する性能を達成できることを示した。
論文参考訳（メタデータ） (2025-05-22T17:55:04Z)
Jakiro: Boosting Speculative Decoding with Decoupled Multi-Head via MoE [15.003006630308517]
投機的復号(SD)は、より小さなドラフトモデルを用いて複数のトークンを予測することで、大きな言語モデル推論を加速する。本稿では,専門家の混在(Mixture of Experts, MoE)を利用したJakiroを提案する。提案手法は予測精度を大幅に向上し,推論高速化を実現する。
論文参考訳（メタデータ） (2025-02-10T09:24:06Z)
Instruction-Following Pruning for Large Language Models [58.329978053711024]
我々は、モデルに対する固定的なプルーニングマスクを決定する従来の静的プルーニングアプローチを超えて移動する。本手法では,プルーニングマスクは入力依存型であり,ユーザ命令に記述された情報に基づいて動的に適応する。我々の手法は「命令追従プルーニング」と呼ばれ、ユーザ命令を入力とし、与えられたタスクに対して最も関連性の高いモデルパラメータを動的に選択するスパースマスク予測器を導入している。
論文参考訳（メタデータ） (2025-01-03T20:19:14Z)
Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization [65.64108848398696]
本稿では,MLLMのマルチモーダル推論能力を高めるための選好最適化プロセスを提案する。我々は,マルチモーダルCoT性能を向上する,MPO(Mixed Preference Optimization)と呼ばれるシンプルで効果的な手法を開発した。我々のモデルであるInternVL2-8B-MPOは、MathVista上で67.0の精度を実現し、InternVL2-8Bを8.7ポイント上回り、10倍のInternVL2-76Bに匹敵する性能を達成する。
論文参考訳（メタデータ） (2024-11-15T18:59:27Z)
ParallelSpec: Parallel Drafter for Efficient Speculative Decoding [62.68430939686566]
提案するParallelSpecは,最先端の投機的復号化手法における自己回帰的起草戦略の代替となる。投機段階における自己回帰的起草とは対照的に,効率的な投機モデルとして機能する並列投機を訓練する。
論文参考訳（メタデータ） (2024-10-08T01:05:08Z)
Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文参考訳（メタデータ） (2024-09-02T22:35:03Z)
Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文参考訳（メタデータ） (2024-07-23T06:21:24Z)
S2D: Sorted Speculative Decoding For More Efficient Deployment of Nested Large Language Models [32.68002253527712]
より高速な推論のためのドラフトモデルをデプロイするための、新しいマルチターゲットシナリオを紹介します。マルチターゲット設定における正規ベースラインよりも優れた、より効率的なソートされた投機的復号化機構を提案する。
論文参考訳（メタデータ） (2024-07-02T05:14:15Z)
Adaptive Draft-Verification for Efficient Large Language Model Decoding [24.347886232342862]
大規模言語モデル(LLM)デコードでは、与えられたコンテキストに基づいてトークンのシーケンスを生成する。典型的な自己回帰復号法では、生成されたトークンごとに別の前方通過が必要となる。微調整を必要とせずにLDMデコーディングを高速化するADEDを導入する。
論文参考訳（メタデータ） (2024-06-27T22:20:39Z)
Multi-Candidate Speculative Decoding [82.05519287513444]
大規模な言語モデルは、様々なNLPタスクで印象的な機能を示してきたが、その生成は自動回帰的に時間を要する。これは高速なドラフトモデルから候補セグメントを生成し、ターゲットモデルによって並列に検証する。本稿では,複数の候補をドラフトモデルから抽出し,検証のためにバッチにまとめる手法を提案する。対象モデルの分布を維持しつつ,効率的な多候補検証のためのアルゴリズムを設計する。
論文参考訳（メタデータ） (2024-01-12T17:15:23Z)
DistillSpec: Improving Speculative Decoding via Knowledge Distillation [70.61777015900272]
投機的復号(SD)は、複数のトークンを生成するためにより高速なドラフトモデルを使用することで、大きな言語モデル推論を加速する。本稿では,SDを適用する前に,知識蒸留を用いて,ドラフトモデルとターゲットモデルとの整合性を向上するDistillSpecを提案する。 DistillSpecは標準SDよりも10～45%のスピードアップを実現しています。
論文参考訳（メタデータ） (2023-10-12T16:21:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。