Fugu-MT 論文翻訳(概要): Hydra: Sequentially-Dependent Draft Heads for Medusa Decoding

論文の概要: Hydra: Sequentially-Dependent Draft Heads for Medusa Decoding

arxiv url: http://arxiv.org/abs/2402.05109v2
Date: Mon, 07 Oct 2024 16:21:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-04 07:09:54.898976
Title: Hydra: Sequentially-Dependent Draft Heads for Medusa Decoding
Title（参考訳）: Hydra: Medusaデコードのための逐次依存型ドラフトヘッド
Authors: Zachary Ankner, Rishab Parthasarathy, Aniruddha Nrusimha, Christopher Rinard, Jonathan Ragan-Kelley, William Brandon,
Abstract要約: 我々はHydra Headを提案する: 標準ドラフトヘッドの逐次依存型ドロップイン代替である。 Hydra++は、Medusaの復号化や自動回帰復号化と比較して、デコードスループットを最大1.31倍と2.70倍に改善している。
参考スコア（独自算出の注目度）: 3.630985112737324
License: http://creativecommons.org/licenses/by/4.0/
Abstract: To combat the memory bandwidth-bound nature of autoregressive LLM inference, previous research has proposed the speculative decoding frame-work. To perform speculative decoding, a small draft model proposes candidate continuations of the input sequence that are then verified in parallel by the base model. One way to specify the draft model, as used in the recent Medusa decoding framework, is as a collection of lightweight heads, called draft heads, that operate on the base model's hidden states. To date, all existing draft heads have been sequentially independent, meaning that they speculate tokens in the candidate continuation independently of any preceding tokens in the candidate continuation. In this work, we propose Hydra heads: a sequentially-dependent drop-in replacement for standard draft heads that significantly improves the accuracy of draft head speculation. We further explore the design space of Hydra head training objectives and architectures, and propose a carefully tuned Hydra head recipe, which we call Hydra++, that improves decoding throughput by up to 1.31x and 2.70x compared to Medusa decoding and autoregressive de-coding respectively. Overall, Hydra heads are a simple and well-motivated intervention on standard draft heads that significantly improve the end-to-end speed of draft head-based speculative decoding. We make our code publicly available at https://github.com/zankner/Hydra.
Abstract（参考訳）: 自己回帰型LPM推論のメモリ帯域幅バウンド特性に対処するため,従来の研究では投機的復号化フレームワークが提案されている。投機的復号化を行うため、小さなドラフトモデルでは、ベースモデルによって並列に検証される入力シーケンスの候補継続を提案する。最近のMedusaデコードフレームワークで使われているドラフトモデルを指定するための1つの方法は、ドラフトヘッドと呼ばれる軽量ヘッドのコレクションであり、ベースモデルの隠れ状態で動作する。これまで、既存のすべてのドラフトヘッドは順次独立しており、すなわち、候補継続における前のトークンとは独立に、候補継続におけるトークンを推測している。本研究はHydra Headを提案する。Hydra Headは、標準ドラフトヘッドの逐次依存型ドロップイン代替であり、ドラフトヘッドの推測精度を大幅に向上させる。我々はさらにHydraヘッドトレーニングの目標とアーキテクチャの設計空間を探求し、Medusaデコーディングと自動回帰デコーディングと比較して最大1.31倍と2.70倍のデコードスループットを改善するHydra++と呼ばれる、注意深く調整されたHydraヘッドレシピを提案する。全体として、Hydraヘッドは、ドラフトヘッドベースの投機的デコーディングのエンドツーエンドのスピードを大幅に向上させる、標準ドラフトヘッドに対するシンプルで、動機のよい介入である。コードをhttps://github.com/zankner/Hydra.comで公開しています。

関連論文リスト

VOCABTRIM: Vocabulary Pruning for Efficient Speculative Decoding in LLMs [15.508475101753715]
本研究では,プロダクタに基づく投機的復号法(SpD)の性能向上のためのトレーニングフリー手法を提案する。ドラフトラダーベースの投機的復号法は、複数のトークンからなるドラフトシーケンスまたはツリーをサンプリングするために、ドラフトラダーまたはドラフトモデルと呼ばれる1つ以上のより小さな言語モデルを利用する。提案手法は,Spec-Bench上でのLlama-3モデルのメモリバウンド速度を,特にLlama-3.2-3B-Instructの16%向上できることを示す。
論文参考訳（メタデータ） (2025-06-28T00:26:40Z)
ML-SpecQD: Multi-Level Speculative Decoding with Quantized Drafts [79.62448915248926]
16ビットモデル推論の精度を犠牲にすることなくLSM推論を高速化する手法として、投機復号法(SD)が登場した。 MXFP4Weight-Only-Quantization (WOQ)は、単にBF16ターゲットモデルの重みをMXFP4に直接キャストするだけなので、MXFP4モデルをプラグアンドプレイ方式でドラフトとして使用することを提案する。私たちのプラグアンドプレイソリューションでは,BF16ベースラインの最大2倍のスピードアップを実現しています。
論文参考訳（メタデータ） (2025-03-17T08:38:45Z)
Falcon: Faster and Parallel Inference of Large Language Models through Enhanced Semi-Autoregressive Drafting and Custom-Designed Decoding Tree [7.438117410146904]
Falconは、ドラフト作成者の並列性と出力品質の両方を増強するために設計された革新的な投機的復号化フレームワークである。 FalconにはCoupled Sequential Glancing Distillation(英語版)技術が組み込まれている。
論文参考訳（メタデータ） (2024-12-17T08:02:08Z)
Speculative Decoding with CTC-based Draft Model for LLM Inference Acceleration [14.011702040133848]
ドラフトフェーズにおけるドラフトトークン間の相関性を強化するCTCベースのドラフトモデルを提案する。実験結果から,提案手法は強いベースラインに比べて高い受理率と高速な推論速度が得られることがわかった。
論文参考訳（メタデータ） (2024-11-25T14:10:21Z)
KOALA: Enhancing Speculative Decoding for LLM via Multi-Layer Draft Heads with Adversarial Learning [7.519349066367654]
大規模言語モデル(LLM)は、自己回帰的復号性のため、高い推論遅延を示す。我々は,従来の指導訓練に対人学習を取り入れた,ドラフトヘッドへのアプローチであるKoALAを紹介する。 KOALAは、その後のトークンを予測する際に、ドラフトヘッドの精度を大幅に改善する。この改良は、ドラフトのオーバーヘッドをわずかに増加させるコストが伴うが、KOALAはドラフトヘッドの可能性を大幅に開放する。
論文参考訳（メタデータ） (2024-08-15T13:29:48Z)
Parallel Speculative Decoding with Adaptive Draft Length [10.36819001596531]
投機的復号化を促進するため,概念的にシンプルで柔軟で汎用的なフレームワークを提案する。 PEARLは、初期ドラフトトークンを事前に検証するためのtextitpre-verify と、検証フェーズ中により多くのドラフトトークンを生成する textitpost-verify を提案する。 PEARLは2つの戦略を適用して、ドラフトフェーズと検証フェーズを並列化し、異なるシナリオに対して適応的なドラフト長を達成する。
論文参考訳（メタデータ） (2024-08-13T08:32:06Z)
Superposed Decoding: Multiple Generations from a Single Autoregressive Inference Pass [72.07642648108849]
Superposed Decodingは、1つの自己回帰推論パスのコストで$k$のドラフトを生成する新しい復号アルゴリズムである。 Superposed Decodingは、他のデコード戦略と組み合わせることで、推論時間計算のスケーリング時に普遍的なカバレッジが向上する。
論文参考訳（メタデータ） (2024-05-28T17:40:48Z)
Ouroboros: Generating Longer Drafts Phrase by Phrase for Faster Speculative Decoding [65.94521678103237]
投機的復号化(英: Speculative decoding)は、大規模言語モデルの生成プロセスを加速する広く使われている手法である。我々は,草案作成プロセスの並列化のために,草案文を生成するOuroborosを紹介した。ウロボロは投機的復号化で最大2.8倍、バニラ復号化で3.9倍のスピードアップを達成できる。
論文参考訳（メタデータ） (2024-02-21T11:31:28Z)
Medusa: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads [60.84145004678826]
大規模言語モデル (LLM) では、逐次計算を必要とする自動回帰デコーディングを採用している。我々は、余分なデコードヘッドを追加することでLLM推論を強化する効率的な方法であるMedusaを提案する。ツリーベースのアテンションメカニズムを使用して、Medusaは複数の候補継続を構築し、各デコードステップでそれらを同時に検証する。
論文参考訳（メタデータ） (2024-01-19T15:48:40Z)
Online Speculative Decoding [34.987825705622555]
大規模言語モデルの推論を高速化するオンライン投機的復号法を導入する。主なアイデアは、観測されたユーザクエリデータに対する(複数)ドラフトモデルを継続的に更新することである。本稿では,知識蒸留に基づくオンライン投機的デコーディングのプロトタイプを開発し,合成データと実データの両方を用いて評価する。
論文参考訳（メタデータ） (2023-10-11T04:03:42Z)
ED2LM: Encoder-Decoder to Language Model for Faster Document Re-ranking Inference [70.36083572306839]
本稿では,再ランク付けのための新しいトレーニングおよび推論パラダイムを提案する。文書形式を用いて事前訓練したエンコーダ・デコーダモデルを精査し,クエリ生成を行う。このエンコーダ-デコーダアーキテクチャは,推論中にデコーダのみの言語モデルに分解可能であることを示す。
論文参考訳（メタデータ） (2022-04-25T06:26:29Z)
InCoder: A Generative Model for Code Infilling and Synthesis [88.46061996766348]
InCoderは、プログラム合成(左から右への生成)と編集(埋め込み)が可能な統合生成モデルである。 InCoderは、許可されたコードの大きなコーパスからコードファイルを生成するように訓練されている。私たちのモデルは、ゼロショットコードの埋め込みを直接実行できる最初の生成モデルです。
論文参考訳（メタデータ） (2022-04-12T16:25:26Z)
Cross-Thought for Sentence Encoder Pre-training [89.32270059777025]
Cross-Thoughtは、事前トレーニングシーケンスエンコーダに対する新しいアプローチである。我々は、Transformerベースのシーケンスエンコーダを、多数の短いシーケンスに対してトレーニングする。質問応答とテキストのエンコーダタスクの実験は、事前学習したエンコーダが最先端のエンコーダより優れていることを示す。
論文参考訳（メタデータ） (2020-10-07T21:02:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。