論文の概要: Automatic Task Detection and Heterogeneous LLM Speculative Decoding
- arxiv url: http://arxiv.org/abs/2505.08600v1
- Date: Tue, 13 May 2025 14:16:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.603075
- Title: Automatic Task Detection and Heterogeneous LLM Speculative Decoding
- Title(参考訳): 自動タスク検出と不均一LLM投機復号
- Authors: Danying Ge, Jianhua Gao, Qizhi Jiang, Yifei Feng, Weixing Ji,
- Abstract要約: 下流タスク最適化に適した投機的復号化アルゴリズムを提案する。
ダウンストリームタスクを異なるサブタスクに自動的に分類するタスクパーティショニングとアサイン方法が含まれている。
実験の結果,提案手法はバニラ投機復号よりも6%から50%精度が向上することがわかった。
- 参考スコア(独自算出の注目度): 1.0485739694839669
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speculative decoding, which combines a draft model with a target model, has emerged as an effective approach to accelerate large language model (LLM) inference. However, existing methods often face a trade-off between the acceptance rate and decoding speed in downstream tasks due to the limited capacity of the draft model, making it difficult to ensure efficiency across diverse tasks. To address this problem, we propose a speculative decoding algorithm tailored for downstream task optimization. It includes an automatic task partitioning and assigning method, which automatically categorizes downstream tasks into different sub-tasks and assigns them to a set of heterogeneous draft models. Each draft model is aligned with the target model using task-specific data, thereby enhancing the consistency of inference results. In addition, our proposed method incorporates an online lightweight prompt classifier to dynamically route prompts to the appropriate draft model. Experimental results demonstrate that the proposed method improves draft accuracy by 6% to 50% over vanilla speculative decoding, while achieving a speedup of 1.10x to 2.64x in LLM inference.
- Abstract(参考訳): ドラフトモデルとターゲットモデルを組み合わせた投機的復号法が,大規模言語モデル(LLM)推論を高速化するための効果的なアプローチとして登場した。
しかし、既存の手法では、ドラフトモデルの容量が限られているため、下流タスクの受入率と復号速度のトレードオフに直面することが多く、多様なタスクにまたがる効率の確保が困難である。
そこで本研究では,下流タスク最適化に適した投機的復号化アルゴリズムを提案する。
ダウンストリームタスクを異なるサブタスクに自動的に分類し、それらを不均一なドラフトモデルに割り当てる。
各ドラフトモデルは、タスク固有のデータを用いてターゲットモデルと整列し、推論結果の整合性を高める。
さらに,提案手法では,プロンプトを適切なドラフトモデルに動的にルーティングするオンライン軽量プロンプト分類器が組み込まれている。
実験の結果,提案手法は,LLM推論において1.10xから2.64xの高速化を実現しつつ,バニラ投機復号化よりも6%から50%の精度向上を実現していることがわかった。
関連論文リスト
- Towards Optimal Multi-draft Speculative Decoding [102.67837141152232]
MDSD(Multi-Draft Speculative Decoding)は、各トークンを生成する際に、小さなドラフトモデルで複数のドラフトを生成する手法である。
本稿では、最適輸送問題の双対性について論じ、最適受容率を効率的に計算する方法を提供する。
論文 参考訳(メタデータ) (2025-02-26T03:22:44Z) - Modeling Multi-Task Model Merging as Adaptive Projective Gradient Descent [74.02034188307857]
複数のエキスパートモデルをマージすることは、元のデータにアクセスせずにマルチタスク学習を実行するための有望なアプローチを提供する。
既存の手法は必然的にタスク固有の情報を破棄し、競合の原因となっているが、パフォーマンスには不可欠である。
我々の手法は従来の手法より一貫して優れており、視覚領域とNLP領域の両方において様々なアーキテクチャやタスクにまたがって最先端の結果が得られます。
論文 参考訳(メタデータ) (2025-01-02T12:45:21Z) - Boosting Lossless Speculative Decoding via Feature Sampling and Partial Alignment Distillation [8.046705062670096]
損失のない投機的復号化は、ターゲットとする大言語モデル推論を加速する。
FSPAD (Feature Sampling and partial Alignment Distillation for Lossless Speculative Decoding) を提案する。
我々の実験は、ヴィクナ級数とLLaMA3-インストラクト級数で最大かつ最小のモデルにおいて、欲求と非欲求デコーディングの両方を含む。
論文 参考訳(メタデータ) (2024-08-28T06:28:01Z) - Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。
本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。
我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文 参考訳(メタデータ) (2024-07-23T06:21:24Z) - Direct Alignment of Draft Model for Speculative Decoding with Chat-Fine-Tuned LLMs [11.245862832561176]
投機的復号化による推論アクセラレーションを実現するためには、高品質なドラフトモデルをトレーニングする必要がある。
我々は、Llama 2 Chat Drafter 115M、Llama 2 Chat 7B以上のドラフトモデル、オリジナルサイズの1.64%しか持たないLlama 2 Chat Drafter 115Mを訓練する。
Llama 2 Chat Dr After 115M with speculative decoding は最大2.3ブロック効率と2.4$times$ speed-upを実現している。
論文 参考訳(メタデータ) (2024-02-29T19:55:06Z) - DistillSpec: Improving Speculative Decoding via Knowledge Distillation [70.61777015900272]
投機的復号(SD)は、複数のトークンを生成するためにより高速なドラフトモデルを使用することで、大きな言語モデル推論を加速する。
本稿では,SDを適用する前に,知識蒸留を用いて,ドラフトモデルとターゲットモデルとの整合性を向上するDistillSpecを提案する。
DistillSpecは標準SDよりも10~45%のスピードアップを実現しています。
論文 参考訳(メタデータ) (2023-10-12T16:21:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。