論文の概要: S2D: Sorted Speculative Decoding For More Efficient Deployment of Nested Large Language Models
- arxiv url: http://arxiv.org/abs/2407.01955v1
- Date: Tue, 2 Jul 2024 05:14:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 16:43:59.595667
- Title: S2D: Sorted Speculative Decoding For More Efficient Deployment of Nested Large Language Models
- Title(参考訳): S2D:Nested Large Language Modelのより効率的なデプロイのためのSorted Speculative Decoding
- Authors: Parsa Kavehzadeh, Mohammadreza Pourreza, Mojtaba Valipour, Tinashu Zhu, Haoli Bai, Ali Ghodsi, Boxing Chen, Mehdi Rezagholizadeh,
- Abstract要約: より高速な推論のためのドラフトモデルをデプロイするための、新しいマルチターゲットシナリオを紹介します。
マルチターゲット設定における正規ベースラインよりも優れた、より効率的なソートされた投機的復号化機構を提案する。
- 参考スコア(独自算出の注目度): 32.68002253527712
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Deployment of autoregressive large language models (LLMs) is costly, and as these models increase in size, the associated costs will become even more considerable. Consequently, different methods have been proposed to accelerate the token generation process and reduce costs. Speculative decoding (SD) is among the most promising approaches to speed up the LLM decoding process by verifying multiple tokens in parallel and using an auxiliary smaller draft model to generate the possible tokens. In SD, usually, one draft model is used to serve a specific target model; however, in practice, LLMs are diverse, and we might need to deal with many target models or more than one target model simultaneously. In this scenario, it is not clear which draft model should be used for which target model, and searching among different draft models or training customized draft models can further increase deployment costs. In this paper, we first introduce a novel multi-target scenario for the deployment of draft models for faster inference. Then, we present a novel, more efficient sorted speculative decoding mechanism that outperforms regular baselines in multi-target settings. We evaluated our method on Spec-Bench in different settings, including base models such as Vicuna 7B, 13B, and LLama Chat 70B. Our results suggest that our draft models perform better than baselines for multiple target models at the same time.
- Abstract(参考訳): 自己回帰型大規模言語モデル(LLM)の展開にはコストがかかり、これらのモデルのサイズが大きくなるにつれて、関連するコストはさらに増大する。
その結果,トークン生成プロセスの高速化とコスト削減のために,様々な手法が提案されている。
投機的復号(SD)は、複数のトークンを並列に検証し、補助的な小さなドラフトモデルを用いて可能なトークンを生成することで、LCM復号プロセスを高速化する最も有望なアプローチの一つである。
SDでは、通常、1つのドラフトモデルを使って特定のターゲットモデルを提供するが、実際にはLLMは多種多様であり、同時に複数のターゲットモデルや複数のターゲットモデルを扱う必要がある。
このシナリオでは、どのターゲットモデルにドラフトモデルを使用するべきかは明らかではなく、異なるドラフトモデル間の検索や、カスタマイズされたドラフトモデルのトレーニングにより、デプロイメントコストをさらに高める可能性がある。
本稿では,まず,より高速な推論のためのドラフトモデルをデプロイするための,新しいマルチターゲットシナリオを提案する。
そこで,本研究では,マルチターゲット設定における正規ベースラインよりも優れた,より効率的なソートされた投機的復号化機構を提案する。
Vicuna 7B, 13B, LLama Chat 70Bなどのベースモデルを含む, 異なる設定でSpec-Benchの手法を評価した。
提案手法は,複数のターゲットモデルに対して,ベースラインよりも高い性能を同時に達成できることを示唆する。
関連論文リスト
- MoD: A Distribution-Based Approach for Merging Large Language Models [0.0]
大規模言語モデル(LLM)は、多くの専門的なタスク固有の変種の開発を可能にした。
LLMをマージするための新しいアプローチであるTextitMixture of Distributions (MoD)フレームワークを提案する。
従来の重量測定法とは異なり、MoDは個々のモデルの特殊能力を効果的に保存する。
論文 参考訳(メタデータ) (2024-11-01T07:05:29Z) - ParallelSpec: Parallel Drafter for Efficient Speculative Decoding [62.68430939686566]
提案するParallelSpecは,最先端の投機的復号化手法における自己回帰的起草戦略の代替となる。
投機段階における自己回帰的起草とは対照的に,効率的な投機モデルとして機能する並列投機を訓練する。
論文 参考訳(メタデータ) (2024-10-08T01:05:08Z) - Improving Multi-candidate Speculative Decoding [1.6291177798903276]
投機的復号化(SD)とは,大規模言語モデル(LLM)の推論を高速化する手法である。
そこで本研究では,ターゲットモデルによるマルチ候補生成を含むMCSDの新バージョンを提案する。
また、異なるドラフトモデルを用いたターゲットモデルマルチ候補プロセスが出力品質に及ぼす影響についても検討した。
論文 参考訳(メタデータ) (2024-09-16T18:20:38Z) - Context-Aware Assistant Selection for Improved Inference Acceleration with Large Language Models [28.62382804829694]
大規模言語モデル(LLM)は、リソース制約の下での使用は禁じられている。
自動回帰生成に付随する高いレイテンシは、高度なコンピューティングインフラストラクチャに依存する大きなLLMをレンダリングする。
復号化支援は これを軽減するのに役立ちましたが 2つのモデルのアライメントに依存しています
論文 参考訳(メタデータ) (2024-08-16T01:12:21Z) - Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。
本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。
我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文 参考訳(メタデータ) (2024-07-23T06:21:24Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Multi-Candidate Speculative Decoding [82.05519287513444]
大規模な言語モデルは、様々なNLPタスクで印象的な機能を示してきたが、その生成は自動回帰的に時間を要する。
これは高速なドラフトモデルから候補セグメントを生成し、ターゲットモデルによって並列に検証する。
本稿では,複数の候補をドラフトモデルから抽出し,検証のためにバッチにまとめる手法を提案する。
対象モデルの分布を維持しつつ,効率的な多候補検証のためのアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-01-12T17:15:23Z) - DistillSpec: Improving Speculative Decoding via Knowledge Distillation [70.61777015900272]
投機的復号(SD)は、複数のトークンを生成するためにより高速なドラフトモデルを使用することで、大きな言語モデル推論を加速する。
本稿では,SDを適用する前に,知識蒸留を用いて,ドラフトモデルとターゲットモデルとの整合性を向上するDistillSpecを提案する。
DistillSpecは標準SDよりも10~45%のスピードアップを実現しています。
論文 参考訳(メタデータ) (2023-10-12T16:21:04Z) - When Ensembling Smaller Models is More Efficient than Single Large
Models [52.38997176317532]
アンサンブルは高い精度で単一モデルより優れており、計算に要する総FLOPは少ない。
これは、アンサンブルの出力の多様性がより大きなモデルを訓練するよりも効率的であることを示す興味深い観察結果である。
論文 参考訳(メタデータ) (2020-05-01T18:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。