論文の概要: Hydra: Sequentially-Dependent Draft Heads for Medusa Decoding
- arxiv url: http://arxiv.org/abs/2402.05109v1
- Date: Wed, 7 Feb 2024 18:58:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 14:06:05.523512
- Title: Hydra: Sequentially-Dependent Draft Heads for Medusa Decoding
- Title(参考訳): hydra: medusaデコードのためのシーケンシャルなドラフトヘッド
- Authors: Zachary Ankner, Rishab Parthasarathy, Aniruddha Nrusimha, Christopher
Rinard, Jonathan Ragan-Kelley, William Brandon
- Abstract要約: 投機的復号化のための標準ドラフトヘッドのドロップイン置換であるHydra Headを提案する。
Hydra++はMedusaの復号化や自動回帰復号化と比較して、復号化のスループットを1.31倍と2.71倍に改善している。
全体として、Hydraヘッドは標準のドラフトヘッドに対する単純な介入であり、ドラフトヘッドベースの投機的デコーディングのエンドツーエンドのスピードを大幅に向上させる。
- 参考スコア(独自算出の注目度): 3.813063477868707
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To combat the memory bandwidth-bound nature of autoregressive LLM inference,
previous research has proposed the speculative decoding framework. To perform
speculative decoding, a small draft model proposes candidate continuations of
the input sequence, that are then verified in parallel by the base model. One
way to specify the draft model, as used in the recent Medusa decoding
framework, is as a collection of light-weight heads, called draft heads, that
operate on the base model's hidden states. To date, all existing draft heads
have been sequentially independent, meaning that they speculate tokens in the
candidate continuation independently of any preceding tokens in the candidate
continuation. In this work, we propose Hydra heads, a sequentially dependent,
drop-in replacement for standard draft heads that significantly improves
speculation accuracy. Decoding with Hydra heads improves throughput compared to
Medusa decoding with standard draft heads. We further explore the design space
of Hydra head training objectives and architectures, and propose a
carefully-tuned Hydra head recipe, which we call Hydra++, that improves
decoding throughput by 1.31x and 2.71x compared to Medusa decoding and
autoregressive decoding, respectively. Overall, Hydra heads are a simple
intervention on standard draft heads that significantly improve the end-to-end
speed of draft head based speculative decoding.
- Abstract(参考訳): 自己回帰型LPM推論のメモリ帯域幅バウンド特性に対処するため,従来の研究では投機的復号化フレームワークが提案されている。
投機的復号化を行うため、小さなドラフトモデルは入力シーケンスの候補継続を提案し、ベースモデルによって並列に検証される。
最近のmedusaデコーディングフレームワークで使用されているドラフトモデルを指定するひとつの方法は、ベースモデルの隠れた状態で動作するドラフトヘッドと呼ばれる軽量ヘッドのコレクションである。
これまで、既存のドラフトヘッドはすべて順次独立しており、すなわち、候補継続における前のトークンとは独立に、候補継続におけるトークンを推測している。
本研究では,投機精度を大幅に向上する標準ドラフトヘッドの逐次依存型ドロップイン置換であるHydraヘッドを提案する。
Hydraヘッドによるデコーディングは、標準的なドラフトヘッドによるMedusaデコーディングに比べてスループットが向上する。
さらに,ヒドラヘッドのトレーニング目標とアーキテクチャについてさらに検討し,メデューサのデコードと自己回帰デコードに比べてデコードスループットが1.31倍,2.71倍向上するハイドラヘッドレシピを提案する。
全体として、hydraヘッドは標準的なドラフトヘッドに対する単純な介入であり、ドラフトヘッドベースの投機的復号のエンドツーエンド速度を大幅に向上させる。
関連論文リスト
- Optimal Block-Level Draft Verification for Accelerating Speculative Decoding [25.344587643469538]
本稿では,追加の計算コストやドラフトトークンを発生させることなく,ウォールクロックの高速化を実現する,より優れたドラフト検証アルゴリズムを提案する。
提案するブロックレベルの検証アルゴリズムを,幅広いタスクやデータセットで実証的に評価する。
論文 参考訳(メタデータ) (2024-03-15T16:28:22Z) - Chimera: A Lossless Decoding Method for Accelerating Large Language Models Inference by Fusing all Tokens [15.566726645722657]
投機的サンプリングに特化して設計された新しいフレームワークを提案する。
このフレームワーク内では、以前に生成されたトークンを効果的に活用し、後続の単語を予測する軽量なドラフトモデルを導入する。
我々は、バニラ自動回帰復号方式と比較して平均遅延速度比が2.7倍になるという印象的な結果を示した。
論文 参考訳(メタデータ) (2024-02-24T08:10:39Z) - Ouroboros: Speculative Decoding with Large Model Enhanced Drafting [75.34417163859018]
我々は,大規模言語モデルの検証プロセスから句候補プールを構築するOuroborosを紹介した。
Ouroborosは、ルックアヘッドの復号化や投機的復号化と比較して、最大1.9倍と2.8倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-02-21T11:31:28Z) - Medusa: Simple LLM Inference Acceleration Framework with Multiple
Decoding Heads [63.892388404503116]
本稿では,余分なデコードヘッドを追加することで,大規模言語モデルの推論を効率化する手法であるMedusaを提案する。
ツリーベースのアテンションメカニズムを使用して、Medusaは複数の候補継続を構築し、各デコードステップでそれらを同時に検証する。
実験により,Medusa-1は生成品質を損なうことなく2.2倍以上の高速化が可能であり,Medusa-2は2.3~3.6倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-01-19T15:48:40Z) - Context Perception Parallel Decoder for Scene Text Recognition [52.620841341333524]
シーンテキスト認識手法は高い精度と高速な推論速度を達成するのに苦労している。
本稿では、STRにおけるARデコーディングの実証的研究を行い、ARデコーダが言語文脈をモデル化するだけでなく、視覚的文脈知覚のガイダンスも提供することを明らかにする。
我々は一連のCPPDモデルを構築し、提案したモジュールを既存のSTRデコーダにプラグインする。英語と中国語のベンチマーク実験により、CPPDモデルはARベースモデルよりも約8倍高速に動作し、高い競争精度を達成できることを示した。
論文 参考訳(メタデータ) (2023-07-23T09:04:13Z) - Think Twice before Driving: Towards Scalable Decoders for End-to-End
Autonomous Driving [74.28510044056706]
既存のメソッドは通常、分離されたエンコーダ-デコーダパラダイムを採用する。
本研究は,この問題を2つの原則で緩和することを目的としている。
まず、エンコーダの特徴に基づいて、粗い将来の位置と行動を予測する。
そして、その位置と動作を条件に、将来のシーンを想像して、それに従って運転した場合にその影響を確認する。
論文 参考訳(メタデータ) (2023-05-10T15:22:02Z) - HS-Diffusion: Semantic-Mixing Diffusion for Head Swapping [150.06405071177048]
ヘッドスワップ(HS-Diffusion)のための意味混合拡散モデルを提案する。
ソース・ヘッドとソース・ボディのセマンティック・レイアウトをブレンドし、その後、セマンティック・レイアウト・ジェネレータによって遷移領域を塗り替える。
画像ベースのヘッドスワップベンチマークを構築し,2つの設計基準を設計する。
論文 参考訳(メタデータ) (2022-12-13T10:04:01Z) - ED2LM: Encoder-Decoder to Language Model for Faster Document Re-ranking
Inference [70.36083572306839]
本稿では,再ランク付けのための新しいトレーニングおよび推論パラダイムを提案する。
文書形式を用いて事前訓練したエンコーダ・デコーダモデルを精査し,クエリ生成を行う。
このエンコーダ-デコーダアーキテクチャは,推論中にデコーダのみの言語モデルに分解可能であることを示す。
論文 参考訳(メタデータ) (2022-04-25T06:26:29Z) - Project-Level Encoding for Neural Source Code Summarization of
Subroutines [6.939768185086755]
コード要約のモデルを改善するプロジェクトレベルのエンコーダを提案する。
我々はこの表現を用いて、最先端のニューラルネットワーク要約技術のエンコーダを強化する。
論文 参考訳(メタデータ) (2021-03-22T06:01:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。