論文の概要: Medusa: Simple LLM Inference Acceleration Framework with Multiple
Decoding Heads
- arxiv url: http://arxiv.org/abs/2401.10774v1
- Date: Fri, 19 Jan 2024 15:48:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 15:21:25.634742
- Title: Medusa: Simple LLM Inference Acceleration Framework with Multiple
Decoding Heads
- Title(参考訳): medusa: 複数のデコードヘッドを持つシンプルなllm推論アクセラレーションフレームワーク
- Authors: Tianle Cai, Yuhong Li, Zhengyang Geng, Hongwu Peng, Jason D. Lee,
Deming Chen, Tri Dao
- Abstract要約: 本稿では,余分なデコードヘッドを追加することで,大規模言語モデルの推論を効率化する手法であるMedusaを提案する。
ツリーベースのアテンションメカニズムを使用して、Medusaは複数の候補継続を構築し、各デコードステップでそれらを同時に検証する。
実験により,Medusa-1は生成品質を損なうことなく2.2倍以上の高速化が可能であり,Medusa-2は2.3~3.6倍の高速化を実現している。
- 参考スコア(独自算出の注目度): 63.892388404503116
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The inference process in Large Language Models (LLMs) is often limited due to
the absence of parallelism in the auto-regressive decoding process, resulting
in most operations being restricted by the memory bandwidth of accelerators.
While methods such as speculative decoding have been suggested to address this
issue, their implementation is impeded by the challenges associated with
acquiring and maintaining a separate draft model. In this paper, we present
Medusa, an efficient method that augments LLM inference by adding extra
decoding heads to predict multiple subsequent tokens in parallel. Using a
tree-based attention mechanism, Medusa constructs multiple candidate
continuations and verifies them simultaneously in each decoding step. By
leveraging parallel processing, Medusa introduces only minimal overhead in
terms of single-step latency while substantially reducing the number of
decoding steps required.
We present two levels of fine-tuning procedures for Medusa to meet the needs
of different use cases: Medusa-1: Medusa is directly fine-tuned on top of a
frozen backbone LLM, enabling lossless inference acceleration. Medusa-2: Medusa
is fine-tuned together with the backbone LLM, enabling better prediction
accuracy of Medusa heads and higher speedup but needing a special training
recipe that preserves the backbone model's capabilities.
Moreover, we propose several extensions that improve or expand the utility of
Medusa, including a self-distillation to handle situations where no training
data is available and a typical acceptance scheme to boost the acceptance rate
while maintaining generation quality. We evaluate Medusa on models of various
sizes and training procedures. Our experiments demonstrate that Medusa-1 can
achieve over 2.2x speedup without compromising generation quality, while
Medusa-2 further improves the speedup to 2.3-3.6x.
- Abstract(参考訳): LLM(Large Language Models)における推論プロセスは、自動回帰復号プロセスにおける並列性の欠如によってしばしば制限され、ほとんどの演算はアクセラレータのメモリ帯域幅によって制限される。
投機的復号法のような手法はこの問題に対処するために提案されているが、それらの実装は独立したドラフトモデルの取得と維持に関わる課題によって妨げられている。
本稿では,複数のトークンを並列に予測するために,余分なデコードヘッドを追加することで,LCM推論を効率化するMedusaを提案する。
ツリーベースのアテンション機構を使用して、メデューサは複数の候補コンティニュエーションを構築し、各デコードステップで同時に検証する。
並列処理を活用することで、Medusaは1ステップのレイテンシにおいて最小限のオーバーヘッドしか導入せず、デコードステップの数を大幅に削減する。
Medusa-1: Medusa は凍結した背骨 LLM 上に直接微調整され,無害な推論の加速を可能にする。
Medusa-2: MedusaはバックボーンLLMと共に微調整され、Medusaヘッドの予測精度とスピードアップが向上するが、バックボーンモデルの能力を保持する特別なトレーニングレシピが必要である。
さらに,トレーニングデータがない状況に対処するための自己蒸留や,世代品質を維持しつつ受入率を高めるための典型的な受入スキームなど,メデューサの有用性を向上あるいは拡張するいくつかの拡張を提案する。
様々なサイズのモデルと訓練手順を用いてメデューサを評価する。
実験の結果,medusa-1は2.2倍の速度アップを達成でき,medusa-2は2.3-3.6倍のスピードアップを実現できた。
関連論文リスト
- AMUSD: Asynchronous Multi-Device Speculative Decoding for LLM Acceleration [0.3626013617212667]
本稿では,AMUSD (Asynchronous Multi-device Speculative Decoding) を導入し,ドラフトを分離し,フェーズを検証することによって生成を高速化するシステムを提案する。
AMUSDは、1つのモデル(ドラフトまたは検証)のみが一度にトークン生成を行う従来の投機復号法とは異なり、どちらのモデルも別々のデバイス上で独立して予測を行うことができる。
我々は、複数のデータセットに対するアプローチを評価し、AMUSDが投機的復号化よりも平均29%改善し、従来の自己回帰復号化よりも1.96$times$スピードアップを達成したことを示す。
論文 参考訳(メタデータ) (2024-10-22T19:15:35Z) - Cerberus: Efficient Inference with Adaptive Parallel Decoding and Sequential Knowledge Enhancement [12.40683763019276]
大規模言語モデル(LLM)は自動回帰復号化に依存するため、推論速度のボトルネックに直面していることが多い。
既存の並列デコーディングフレームワークにおける2つの重要な問題を特定しました。
我々は適応並列デコーディングフレームワークであるCerberusを提案する。
論文 参考訳(メタデータ) (2024-10-17T08:55:18Z) - Amphista: Bi-directional Multi-head Decoding for Accelerating LLM Inference [16.93944940434572]
私たちはMedusa上に構築された拡張投機的復号化フレームワークであるAmphistaを紹介します。
具体的には、Amphistaは並列推論が可能なAuto-embedding Blockをモデル化する。
AmphstaはStaged Adaptation Layersを統合し、ターゲットモデルの自己回帰推論からドラフトヘッドの非自己回帰推論へのセマンティック情報のシームレスな移行を保証する。
論文 参考訳(メタデータ) (2024-06-19T02:53:39Z) - LARM: Large Auto-Regressive Model for Long-Horizon Embodied Intelligence [68.27280750612204]
エンボディエージェントのための大規模自己回帰モデル(LARM)を導入する。
LARMはテキストとマルチビューの両方を入力として使用し、後続のアクションを自動回帰的に予測する。
LARMは2段階の訓練体制を採用し、Minecraftで魔法の装置の収穫に成功した。
論文 参考訳(メタデータ) (2024-05-27T17:59:32Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - Chimera: A Lossless Decoding Method for Accelerating Large Language Models Inference by Fusing all Tokens [15.566726645722657]
投機的サンプリングに特化して設計された新しいフレームワークを提案する。
このフレームワーク内では、以前に生成されたトークンを効果的に活用し、後続の単語を予測する軽量なドラフトモデルを導入する。
我々は、バニラ自動回帰復号方式と比較して平均遅延速度比が2.7倍になるという印象的な結果を示した。
論文 参考訳(メタデータ) (2024-02-24T08:10:39Z) - Masked Audio Generation using a Single Non-Autoregressive Transformer [90.11646612273965]
MAGNeTは、複数のオーディオトークンストリーム上で直接動作するマスク付き生成シーケンスモデリング手法である。
テキスト・トゥ・ミュージック・アンド・テキスト・トゥ・オーディオ・ジェネレーションのタスクにおけるMAGNeTの有効性を実証する。
我々は、自己回帰と非自己回帰モデリングのトレードオフを指摘するとともに、MAGNeTを構成する各コンポーネントの重要性を強調した。
論文 参考訳(メタデータ) (2024-01-09T14:29:39Z) - FastLR: Non-Autoregressive Lipreading Model with Integrate-and-Fire [74.04394069262108]
我々は,全てのターゲットトークンを同時に生成する非自己回帰(NAR)リップリーダーモデルであるFastLRを提案する。
FastLRは最先端のリップリーダーモデルと比較して10.97$times$のスピードアップを実現している。
論文 参考訳(メタデータ) (2020-08-06T08:28:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。