論文の概要: Hydra: Sequentially-Dependent Draft Heads for Medusa Decoding
- arxiv url: http://arxiv.org/abs/2402.05109v2
- Date: Mon, 07 Oct 2024 16:21:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 13:11:17.722116
- Title: Hydra: Sequentially-Dependent Draft Heads for Medusa Decoding
- Title(参考訳): Hydra: Medusaデコードのための逐次依存型ドラフトヘッド
- Authors: Zachary Ankner, Rishab Parthasarathy, Aniruddha Nrusimha, Christopher Rinard, Jonathan Ragan-Kelley, William Brandon,
- Abstract要約: 我々はHydra Headを提案する: 標準ドラフトヘッドの逐次依存型ドロップイン代替である。
Hydra++は、Medusaの復号化や自動回帰復号化と比較して、デコードスループットを最大1.31倍と2.70倍に改善している。
- 参考スコア(独自算出の注目度): 3.630985112737324
- License:
- Abstract: To combat the memory bandwidth-bound nature of autoregressive LLM inference, previous research has proposed the speculative decoding frame-work. To perform speculative decoding, a small draft model proposes candidate continuations of the input sequence that are then verified in parallel by the base model. One way to specify the draft model, as used in the recent Medusa decoding framework, is as a collection of lightweight heads, called draft heads, that operate on the base model's hidden states. To date, all existing draft heads have been sequentially independent, meaning that they speculate tokens in the candidate continuation independently of any preceding tokens in the candidate continuation. In this work, we propose Hydra heads: a sequentially-dependent drop-in replacement for standard draft heads that significantly improves the accuracy of draft head speculation. We further explore the design space of Hydra head training objectives and architectures, and propose a carefully tuned Hydra head recipe, which we call Hydra++, that improves decoding throughput by up to 1.31x and 2.70x compared to Medusa decoding and autoregressive de-coding respectively. Overall, Hydra heads are a simple and well-motivated intervention on standard draft heads that significantly improve the end-to-end speed of draft head-based speculative decoding. We make our code publicly available at https://github.com/zankner/Hydra.
- Abstract(参考訳): 自己回帰型LPM推論のメモリ帯域幅バウンド特性に対処するため,従来の研究では投機的復号化フレームワークが提案されている。
投機的復号化を行うため、小さなドラフトモデルでは、ベースモデルによって並列に検証される入力シーケンスの候補継続を提案する。
最近のMedusaデコードフレームワークで使われているドラフトモデルを指定するための1つの方法は、ドラフトヘッドと呼ばれる軽量ヘッドのコレクションであり、ベースモデルの隠れ状態で動作する。
これまで、既存のすべてのドラフトヘッドは順次独立しており、すなわち、候補継続における前のトークンとは独立に、候補継続におけるトークンを推測している。
本研究はHydra Headを提案する。Hydra Headは、標準ドラフトヘッドの逐次依存型ドロップイン代替であり、ドラフトヘッドの推測精度を大幅に向上させる。
我々はさらにHydraヘッドトレーニングの目標とアーキテクチャの設計空間を探求し、Medusaデコーディングと自動回帰デコーディングと比較して最大1.31倍と2.70倍のデコードスループットを改善するHydra++と呼ばれる、注意深く調整されたHydraヘッドレシピを提案する。
全体として、Hydraヘッドは、ドラフトヘッドベースの投機的デコーディングのエンドツーエンドのスピードを大幅に向上させる、標準ドラフトヘッドに対するシンプルで、動機のよい介入である。
コードをhttps://github.com/zankner/Hydra.comで公開しています。
関連論文リスト
- Amphista: Accelerate LLM Inference with Bi-directional Multiple Drafting Heads in a Non-autoregressive Style [17.503078808564823]
Amphistaは投機的復号化アルゴリズムであり、非自己回帰復号化パラダイムに準拠している。
本手法は自己回帰法よりも推論効率が高いことを示す。
論文 参考訳(メタデータ) (2024-06-19T02:53:39Z) - Chimera: A Lossless Decoding Method for Accelerating Large Language Models Inference by Fusing all Tokens [15.566726645722657]
投機的サンプリングに特化して設計された新しいフレームワークを提案する。
このフレームワーク内では、以前に生成されたトークンを効果的に活用し、後続の単語を予測する軽量なドラフトモデルを導入する。
我々は、バニラ自動回帰復号方式と比較して平均遅延速度比が2.7倍になるという印象的な結果を示した。
論文 参考訳(メタデータ) (2024-02-24T08:10:39Z) - Ouroboros: Generating Longer Drafts Phrase by Phrase for Faster Speculative Decoding [65.94521678103237]
投機的復号化(英: Speculative decoding)は、大規模言語モデルの生成プロセスを加速する広く使われている手法である。
我々は,草案作成プロセスの並列化のために,草案文を生成するOuroborosを紹介した。
ウロボロは投機的復号化で最大2.4倍、バニラ復号化で3.9倍のスピードアップを達成できる。
論文 参考訳(メタデータ) (2024-02-21T11:31:28Z) - Medusa: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads [60.84145004678826]
大規模言語モデル (LLM) では、逐次計算を必要とする自動回帰デコーディングを採用している。
我々は、余分なデコードヘッドを追加することでLLM推論を強化する効率的な方法であるMedusaを提案する。
ツリーベースのアテンションメカニズムを使用して、Medusaは複数の候補継続を構築し、各デコードステップでそれらを同時に検証する。
論文 参考訳(メタデータ) (2024-01-19T15:48:40Z) - Online Speculative Decoding [34.987825705622555]
大規模言語モデルの推論を高速化するオンライン投機的復号法を導入する。
主なアイデアは、観測されたユーザクエリデータに対する(複数)ドラフトモデルを継続的に更新することである。
本稿では,知識蒸留に基づくオンライン投機的デコーディングのプロトタイプを開発し,合成データと実データの両方を用いて評価する。
論文 参考訳(メタデータ) (2023-10-11T04:03:42Z) - Context Perception Parallel Decoder for Scene Text Recognition [52.620841341333524]
シーンテキスト認識手法は高い精度と高速な推論速度を達成するのに苦労している。
本稿では、STRにおけるARデコーディングの実証的研究を行い、ARデコーダが言語文脈をモデル化するだけでなく、視覚的文脈知覚のガイダンスも提供することを明らかにする。
我々は一連のCPPDモデルを構築し、提案したモジュールを既存のSTRデコーダにプラグインする。英語と中国語のベンチマーク実験により、CPPDモデルはARベースモデルよりも約8倍高速に動作し、高い競争精度を達成できることを示した。
論文 参考訳(メタデータ) (2023-07-23T09:04:13Z) - Think Twice before Driving: Towards Scalable Decoders for End-to-End
Autonomous Driving [74.28510044056706]
既存のメソッドは通常、分離されたエンコーダ-デコーダパラダイムを採用する。
本研究は,この問題を2つの原則で緩和することを目的としている。
まず、エンコーダの特徴に基づいて、粗い将来の位置と行動を予測する。
そして、その位置と動作を条件に、将来のシーンを想像して、それに従って運転した場合にその影響を確認する。
論文 参考訳(メタデータ) (2023-05-10T15:22:02Z) - HS-Diffusion: Semantic-Mixing Diffusion for Head Swapping [150.06405071177048]
ヘッドスワップ(HS-Diffusion)のための意味混合拡散モデルを提案する。
ソース・ヘッドとソース・ボディのセマンティック・レイアウトをブレンドし、その後、セマンティック・レイアウト・ジェネレータによって遷移領域を塗り替える。
画像ベースのヘッドスワップベンチマークを構築し,2つの設計基準を設計する。
論文 参考訳(メタデータ) (2022-12-13T10:04:01Z) - ED2LM: Encoder-Decoder to Language Model for Faster Document Re-ranking
Inference [70.36083572306839]
本稿では,再ランク付けのための新しいトレーニングおよび推論パラダイムを提案する。
文書形式を用いて事前訓練したエンコーダ・デコーダモデルを精査し,クエリ生成を行う。
このエンコーダ-デコーダアーキテクチャは,推論中にデコーダのみの言語モデルに分解可能であることを示す。
論文 参考訳(メタデータ) (2022-04-25T06:26:29Z) - Project-Level Encoding for Neural Source Code Summarization of
Subroutines [6.939768185086755]
コード要約のモデルを改善するプロジェクトレベルのエンコーダを提案する。
我々はこの表現を用いて、最先端のニューラルネットワーク要約技術のエンコーダを強化する。
論文 参考訳(メタデータ) (2021-03-22T06:01:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。