Fugu-MT 論文翻訳(概要): Hydra: Sequentially-Dependent Draft Heads for Medusa Decoding

論文の概要: Hydra: Sequentially-Dependent Draft Heads for Medusa Decoding

arxiv url: http://arxiv.org/abs/2402.05109v1
Date: Wed, 7 Feb 2024 18:58:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-08 14:06:05.523512
Title: Hydra: Sequentially-Dependent Draft Heads for Medusa Decoding
Title（参考訳）: hydra: medusaデコードのためのシーケンシャルなドラフトヘッド
Authors: Zachary Ankner, Rishab Parthasarathy, Aniruddha Nrusimha, Christopher Rinard, Jonathan Ragan-Kelley, William Brandon
Abstract要約: 投機的復号化のための標準ドラフトヘッドのドロップイン置換であるHydra Headを提案する。 Hydra++はMedusaの復号化や自動回帰復号化と比較して、復号化のスループットを1.31倍と2.71倍に改善している。全体として、Hydraヘッドは標準のドラフトヘッドに対する単純な介入であり、ドラフトヘッドベースの投機的デコーディングのエンドツーエンドのスピードを大幅に向上させる。
参考スコア（独自算出の注目度）: 3.813063477868707
License: http://creativecommons.org/licenses/by/4.0/
Abstract: To combat the memory bandwidth-bound nature of autoregressive LLM inference, previous research has proposed the speculative decoding framework. To perform speculative decoding, a small draft model proposes candidate continuations of the input sequence, that are then verified in parallel by the base model. One way to specify the draft model, as used in the recent Medusa decoding framework, is as a collection of light-weight heads, called draft heads, that operate on the base model's hidden states. To date, all existing draft heads have been sequentially independent, meaning that they speculate tokens in the candidate continuation independently of any preceding tokens in the candidate continuation. In this work, we propose Hydra heads, a sequentially dependent, drop-in replacement for standard draft heads that significantly improves speculation accuracy. Decoding with Hydra heads improves throughput compared to Medusa decoding with standard draft heads. We further explore the design space of Hydra head training objectives and architectures, and propose a carefully-tuned Hydra head recipe, which we call Hydra++, that improves decoding throughput by 1.31x and 2.71x compared to Medusa decoding and autoregressive decoding, respectively. Overall, Hydra heads are a simple intervention on standard draft heads that significantly improve the end-to-end speed of draft head based speculative decoding.
Abstract（参考訳）: 自己回帰型LPM推論のメモリ帯域幅バウンド特性に対処するため,従来の研究では投機的復号化フレームワークが提案されている。投機的復号化を行うため、小さなドラフトモデルは入力シーケンスの候補継続を提案し、ベースモデルによって並列に検証される。最近のmedusaデコーディングフレームワークで使用されているドラフトモデルを指定するひとつの方法は、ベースモデルの隠れた状態で動作するドラフトヘッドと呼ばれる軽量ヘッドのコレクションである。これまで、既存のドラフトヘッドはすべて順次独立しており、すなわち、候補継続における前のトークンとは独立に、候補継続におけるトークンを推測している。本研究では,投機精度を大幅に向上する標準ドラフトヘッドの逐次依存型ドロップイン置換であるHydraヘッドを提案する。 Hydraヘッドによるデコーディングは、標準的なドラフトヘッドによるMedusaデコーディングに比べてスループットが向上する。さらに,ヒドラヘッドのトレーニング目標とアーキテクチャについてさらに検討し,メデューサのデコードと自己回帰デコードに比べてデコードスループットが1.31倍,2.71倍向上するハイドラヘッドレシピを提案する。全体として、hydraヘッドは標準的なドラフトヘッドに対する単純な介入であり、ドラフトヘッドベースの投機的復号のエンドツーエンド速度を大幅に向上させる。

関連論文リスト

VOCABTRIM: Vocabulary Pruning for Efficient Speculative Decoding in LLMs [15.508475101753715]
本研究では,プロダクタに基づく投機的復号法(SpD)の性能向上のためのトレーニングフリー手法を提案する。ドラフトラダーベースの投機的復号法は、複数のトークンからなるドラフトシーケンスまたはツリーをサンプリングするために、ドラフトラダーまたはドラフトモデルと呼ばれる1つ以上のより小さな言語モデルを利用する。提案手法は,Spec-Bench上でのLlama-3モデルのメモリバウンド速度を,特にLlama-3.2-3B-Instructの16%向上できることを示す。
論文参考訳（メタデータ） (2025-06-28T00:26:40Z)
ML-SpecQD: Multi-Level Speculative Decoding with Quantized Drafts [79.62448915248926]
16ビットモデル推論の精度を犠牲にすることなくLSM推論を高速化する手法として、投機復号法(SD)が登場した。 MXFP4Weight-Only-Quantization (WOQ)は、単にBF16ターゲットモデルの重みをMXFP4に直接キャストするだけなので、MXFP4モデルをプラグアンドプレイ方式でドラフトとして使用することを提案する。私たちのプラグアンドプレイソリューションでは,BF16ベースラインの最大2倍のスピードアップを実現しています。
論文参考訳（メタデータ） (2025-03-17T08:38:45Z)
Falcon: Faster and Parallel Inference of Large Language Models through Enhanced Semi-Autoregressive Drafting and Custom-Designed Decoding Tree [7.438117410146904]
Falconは、ドラフト作成者の並列性と出力品質の両方を増強するために設計された革新的な投機的復号化フレームワークである。 FalconにはCoupled Sequential Glancing Distillation(英語版)技術が組み込まれている。
論文参考訳（メタデータ） (2024-12-17T08:02:08Z)
Speculative Decoding with CTC-based Draft Model for LLM Inference Acceleration [14.011702040133848]
ドラフトフェーズにおけるドラフトトークン間の相関性を強化するCTCベースのドラフトモデルを提案する。実験結果から,提案手法は強いベースラインに比べて高い受理率と高速な推論速度が得られることがわかった。
論文参考訳（メタデータ） (2024-11-25T14:10:21Z)
KOALA: Enhancing Speculative Decoding for LLM via Multi-Layer Draft Heads with Adversarial Learning [7.519349066367654]
大規模言語モデル(LLM)は、自己回帰的復号性のため、高い推論遅延を示す。我々は,従来の指導訓練に対人学習を取り入れた,ドラフトヘッドへのアプローチであるKoALAを紹介する。 KOALAは、その後のトークンを予測する際に、ドラフトヘッドの精度を大幅に改善する。この改良は、ドラフトのオーバーヘッドをわずかに増加させるコストが伴うが、KOALAはドラフトヘッドの可能性を大幅に開放する。
論文参考訳（メタデータ） (2024-08-15T13:29:48Z)
Parallel Speculative Decoding with Adaptive Draft Length [10.36819001596531]
投機的復号化を促進するため,概念的にシンプルで柔軟で汎用的なフレームワークを提案する。 PEARLは、初期ドラフトトークンを事前に検証するためのtextitpre-verify と、検証フェーズ中により多くのドラフトトークンを生成する textitpost-verify を提案する。 PEARLは2つの戦略を適用して、ドラフトフェーズと検証フェーズを並列化し、異なるシナリオに対して適応的なドラフト長を達成する。
論文参考訳（メタデータ） (2024-08-13T08:32:06Z)
Superposed Decoding: Multiple Generations from a Single Autoregressive Inference Pass [72.07642648108849]
Superposed Decodingは、1つの自己回帰推論パスのコストで$k$のドラフトを生成する新しい復号アルゴリズムである。 Superposed Decodingは、他のデコード戦略と組み合わせることで、推論時間計算のスケーリング時に普遍的なカバレッジが向上する。
論文参考訳（メタデータ） (2024-05-28T17:40:48Z)
Ouroboros: Generating Longer Drafts Phrase by Phrase for Faster Speculative Decoding [65.94521678103237]
投機的復号化(英: Speculative decoding)は、大規模言語モデルの生成プロセスを加速する広く使われている手法である。我々は,草案作成プロセスの並列化のために,草案文を生成するOuroborosを紹介した。ウロボロは投機的復号化で最大2.8倍、バニラ復号化で3.9倍のスピードアップを達成できる。
論文参考訳（メタデータ） (2024-02-21T11:31:28Z)
Medusa: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads [60.84145004678826]
大規模言語モデル (LLM) では、逐次計算を必要とする自動回帰デコーディングを採用している。我々は、余分なデコードヘッドを追加することでLLM推論を強化する効率的な方法であるMedusaを提案する。ツリーベースのアテンションメカニズムを使用して、Medusaは複数の候補継続を構築し、各デコードステップでそれらを同時に検証する。
論文参考訳（メタデータ） (2024-01-19T15:48:40Z)
Online Speculative Decoding [34.987825705622555]
大規模言語モデルの推論を高速化するオンライン投機的復号法を導入する。主なアイデアは、観測されたユーザクエリデータに対する(複数)ドラフトモデルを継続的に更新することである。本稿では,知識蒸留に基づくオンライン投機的デコーディングのプロトタイプを開発し,合成データと実データの両方を用いて評価する。
論文参考訳（メタデータ） (2023-10-11T04:03:42Z)
ED2LM: Encoder-Decoder to Language Model for Faster Document Re-ranking Inference [70.36083572306839]
本稿では,再ランク付けのための新しいトレーニングおよび推論パラダイムを提案する。文書形式を用いて事前訓練したエンコーダ・デコーダモデルを精査し,クエリ生成を行う。このエンコーダ-デコーダアーキテクチャは,推論中にデコーダのみの言語モデルに分解可能であることを示す。
論文参考訳（メタデータ） (2022-04-25T06:26:29Z)
InCoder: A Generative Model for Code Infilling and Synthesis [88.46061996766348]
InCoderは、プログラム合成(左から右への生成)と編集(埋め込み)が可能な統合生成モデルである。 InCoderは、許可されたコードの大きなコーパスからコードファイルを生成するように訓練されている。私たちのモデルは、ゼロショットコードの埋め込みを直接実行できる最初の生成モデルです。
論文参考訳（メタデータ） (2022-04-12T16:25:26Z)
Cross-Thought for Sentence Encoder Pre-training [89.32270059777025]
Cross-Thoughtは、事前トレーニングシーケンスエンコーダに対する新しいアプローチである。我々は、Transformerベースのシーケンスエンコーダを、多数の短いシーケンスに対してトレーニングする。質問応答とテキストのエンコーダタスクの実験は、事前学習したエンコーダが最先端のエンコーダより優れていることを示す。
論文参考訳（メタデータ） (2020-10-07T21:02:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。