論文の概要: Hydra: Sequentially-Dependent Draft Heads for Medusa Decoding
- arxiv url: http://arxiv.org/abs/2402.05109v2
- Date: Mon, 07 Oct 2024 16:21:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 13:11:17.722116
- Title: Hydra: Sequentially-Dependent Draft Heads for Medusa Decoding
- Title(参考訳): Hydra: Medusaデコードのための逐次依存型ドラフトヘッド
- Authors: Zachary Ankner, Rishab Parthasarathy, Aniruddha Nrusimha, Christopher Rinard, Jonathan Ragan-Kelley, William Brandon,
- Abstract要約: 我々はHydra Headを提案する: 標準ドラフトヘッドの逐次依存型ドロップイン代替である。
Hydra++は、Medusaの復号化や自動回帰復号化と比較して、デコードスループットを最大1.31倍と2.70倍に改善している。
- 参考スコア(独自算出の注目度): 3.630985112737324
- License:
- Abstract: To combat the memory bandwidth-bound nature of autoregressive LLM inference, previous research has proposed the speculative decoding frame-work. To perform speculative decoding, a small draft model proposes candidate continuations of the input sequence that are then verified in parallel by the base model. One way to specify the draft model, as used in the recent Medusa decoding framework, is as a collection of lightweight heads, called draft heads, that operate on the base model's hidden states. To date, all existing draft heads have been sequentially independent, meaning that they speculate tokens in the candidate continuation independently of any preceding tokens in the candidate continuation. In this work, we propose Hydra heads: a sequentially-dependent drop-in replacement for standard draft heads that significantly improves the accuracy of draft head speculation. We further explore the design space of Hydra head training objectives and architectures, and propose a carefully tuned Hydra head recipe, which we call Hydra++, that improves decoding throughput by up to 1.31x and 2.70x compared to Medusa decoding and autoregressive de-coding respectively. Overall, Hydra heads are a simple and well-motivated intervention on standard draft heads that significantly improve the end-to-end speed of draft head-based speculative decoding. We make our code publicly available at https://github.com/zankner/Hydra.
- Abstract(参考訳): 自己回帰型LPM推論のメモリ帯域幅バウンド特性に対処するため,従来の研究では投機的復号化フレームワークが提案されている。
投機的復号化を行うため、小さなドラフトモデルでは、ベースモデルによって並列に検証される入力シーケンスの候補継続を提案する。
最近のMedusaデコードフレームワークで使われているドラフトモデルを指定するための1つの方法は、ドラフトヘッドと呼ばれる軽量ヘッドのコレクションであり、ベースモデルの隠れ状態で動作する。
これまで、既存のすべてのドラフトヘッドは順次独立しており、すなわち、候補継続における前のトークンとは独立に、候補継続におけるトークンを推測している。
本研究はHydra Headを提案する。Hydra Headは、標準ドラフトヘッドの逐次依存型ドロップイン代替であり、ドラフトヘッドの推測精度を大幅に向上させる。
我々はさらにHydraヘッドトレーニングの目標とアーキテクチャの設計空間を探求し、Medusaデコーディングと自動回帰デコーディングと比較して最大1.31倍と2.70倍のデコードスループットを改善するHydra++と呼ばれる、注意深く調整されたHydraヘッドレシピを提案する。
全体として、Hydraヘッドは、ドラフトヘッドベースの投機的デコーディングのエンドツーエンドのスピードを大幅に向上させる、標準ドラフトヘッドに対するシンプルで、動機のよい介入である。
コードをhttps://github.com/zankner/Hydra.comで公開しています。
関連論文リスト
- KOALA: Enhancing Speculative Decoding for LLM via Multi-Layer Draft Heads with Adversarial Learning [7.519349066367654]
大規模言語モデル(LLM)は、自己回帰的復号性のため、高い推論遅延を示す。
我々は,従来の指導訓練に対人学習を取り入れた,ドラフトヘッドへのアプローチであるKoALAを紹介する。
KOALAは、その後のトークンを予測する際に、ドラフトヘッドの精度を大幅に改善する。
この改良は、ドラフトのオーバーヘッドをわずかに増加させるコストが伴うが、KOALAはドラフトヘッドの可能性を大幅に開放する。
論文 参考訳(メタデータ) (2024-08-15T13:29:48Z) - Parallel Speculative Decoding with Adaptive Draft Length [10.36819001596531]
投機的復号化を促進するため,概念的にシンプルで柔軟で汎用的なフレームワークを提案する。
PEARLは、初期ドラフトトークンを事前に検証するためのtextitpre-verify と、検証フェーズ中により多くのドラフトトークンを生成する textitpost-verify を提案する。
PEARLは2つの戦略を適用して、ドラフトフェーズと検証フェーズを並列化し、異なるシナリオに対して適応的なドラフト長を達成する。
論文 参考訳(メタデータ) (2024-08-13T08:32:06Z) - Superposed Decoding: Multiple Generations from a Single Autoregressive Inference Pass [72.07642648108849]
Superposed Decodingは、1つの自己回帰推論パスのコストで$k$のドラフトを生成する新しい復号アルゴリズムである。
Superposed Decodingは、他のデコード戦略と組み合わせることで、推論時間計算のスケーリング時に普遍的なカバレッジが向上する。
論文 参考訳(メタデータ) (2024-05-28T17:40:48Z) - Ouroboros: Generating Longer Drafts Phrase by Phrase for Faster Speculative Decoding [65.94521678103237]
投機的復号化(英: Speculative decoding)は、大規模言語モデルの生成プロセスを加速する広く使われている手法である。
我々は,草案作成プロセスの並列化のために,草案文を生成するOuroborosを紹介した。
ウロボロは投機的復号化で最大2.8倍、バニラ復号化で3.9倍のスピードアップを達成できる。
論文 参考訳(メタデータ) (2024-02-21T11:31:28Z) - Medusa: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads [60.84145004678826]
大規模言語モデル (LLM) では、逐次計算を必要とする自動回帰デコーディングを採用している。
我々は、余分なデコードヘッドを追加することでLLM推論を強化する効率的な方法であるMedusaを提案する。
ツリーベースのアテンションメカニズムを使用して、Medusaは複数の候補継続を構築し、各デコードステップでそれらを同時に検証する。
論文 参考訳(メタデータ) (2024-01-19T15:48:40Z) - Online Speculative Decoding [34.987825705622555]
大規模言語モデルの推論を高速化するオンライン投機的復号法を導入する。
主なアイデアは、観測されたユーザクエリデータに対する(複数)ドラフトモデルを継続的に更新することである。
本稿では,知識蒸留に基づくオンライン投機的デコーディングのプロトタイプを開発し,合成データと実データの両方を用いて評価する。
論文 参考訳(メタデータ) (2023-10-11T04:03:42Z) - ED2LM: Encoder-Decoder to Language Model for Faster Document Re-ranking
Inference [70.36083572306839]
本稿では,再ランク付けのための新しいトレーニングおよび推論パラダイムを提案する。
文書形式を用いて事前訓練したエンコーダ・デコーダモデルを精査し,クエリ生成を行う。
このエンコーダ-デコーダアーキテクチャは,推論中にデコーダのみの言語モデルに分解可能であることを示す。
論文 参考訳(メタデータ) (2022-04-25T06:26:29Z) - InCoder: A Generative Model for Code Infilling and Synthesis [88.46061996766348]
InCoderは、プログラム合成(左から右への生成)と編集(埋め込み)が可能な統合生成モデルである。
InCoderは、許可されたコードの大きなコーパスからコードファイルを生成するように訓練されている。
私たちのモデルは、ゼロショットコードの埋め込みを直接実行できる最初の生成モデルです。
論文 参考訳(メタデータ) (2022-04-12T16:25:26Z) - Cross-Thought for Sentence Encoder Pre-training [89.32270059777025]
Cross-Thoughtは、事前トレーニングシーケンスエンコーダに対する新しいアプローチである。
我々は、Transformerベースのシーケンスエンコーダを、多数の短いシーケンスに対してトレーニングする。
質問応答とテキストのエンコーダタスクの実験は、事前学習したエンコーダが最先端のエンコーダより優れていることを示す。
論文 参考訳(メタデータ) (2020-10-07T21:02:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。