論文の概要: Gumiho: A Hybrid Architecture to Prioritize Early Tokens in Speculative Decoding
- arxiv url: http://arxiv.org/abs/2503.10135v1
- Date: Thu, 13 Mar 2025 07:55:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:55:18.131563
- Title: Gumiho: A Hybrid Architecture to Prioritize Early Tokens in Speculative Decoding
- Title(参考訳): Gumiho: 投機的デコーディングにおける初期トークンの優先順位付けのためのハイブリッドアーキテクチャ
- Authors: Jinze Li, Yixing Xu, Haiduo Huang, Xuanwu Yin, Dong Li, Edith C. H. Ngai, Emad Barsoum,
- Abstract要約: 投機的復号化は、ターゲットの大規模言語モデルの自動回帰トークン生成プロセスを加速することを目的としている。
いくつかのアプローチでは、複数のヘッドを持つドラフトモデルを使用して、各ヘッドがシーケンス内のトークンを処理する将来のトークンのシーケンスを予測する。
本稿では,シリアルヘッドと並列ヘッドを組み合わせたハイブリッドモデルであるGumihoを提案する。
- 参考スコア(独自算出の注目度): 11.07450742824775
- License:
- Abstract: Speculative decoding (SPD) aims to accelerate the auto-regressive token generation process of a target Large Language Model (LLM). Some approaches employ a draft model with multiple heads to predict a sequence of future tokens, where each head handles a token in the sequence. The target LLM verifies the predicted sequence and accepts aligned tokens, enabling efficient multi-token generation. However, existing methods assume that all tokens within a sequence are equally important, employing identical head structures and relying on a single-generation paradigm, either serial or parallel. To this end, we theoretically demonstrate that initial tokens in the draft sequence are more important than later ones. Building on this insight, we propose Gumiho, a hybrid model combining serial and parallel heads. Specifically, given the critical importance of early tokens, we employ a sophisticated Transformer architecture for the early draft heads in a serial configuration to improve accuracy. For later tokens, we utilize multiple lightweight MLP heads operating in parallel to enhance efficiency. By allocating more advanced model structures and longer running times to the early heads, Gumiho achieves improved overall performance. The experimental results demonstrate that our method outperforms existing approaches, fully validating its effectiveness.
- Abstract(参考訳): 投機的復号化(SPD)は、ターゲットであるLarge Language Model(LLM)の自動回帰トークン生成プロセスを高速化することを目的としている。
いくつかのアプローチでは、複数のヘッドを持つドラフトモデルを使用して、各ヘッドがシーケンス内のトークンを処理する将来のトークンのシーケンスを予測する。
ターゲットLLMは、予測シーケンスを検証し、整列トークンを受け入れることにより、効率的なマルチトークン生成を実現する。
しかし、既存の手法では、シーケンス内の全てのトークンは同様に重要であり、同一のヘッド構造を使用し、シリアルまたはパラレルの1世代パラダイムに依存していると仮定している。
この目的のために、我々はドラフトシーケンスの初期トークンがその後のトークンよりも重要であることを理論的に証明した。
この知見に基づいて,シリアルヘッドと並列ヘッドを組み合わせたハイブリッドモデルであるGumihoを提案する。
具体的には、初期トークンの重要性を考慮し、初期ドラフトヘッドに洗練されたトランスフォーマーアーキテクチャをシリアル構成で採用し、精度を向上させる。
後続のトークンに対しては,複数の軽量MLPヘッドを並列に動作させて効率を向上させる。
より高度なモデル構造とより長い実行時間をアーリーヘッドに割り当てることで、Gumihoは全体的なパフォーマンスを向上させることができる。
実験の結果,提案手法は既存の手法よりも優れており,その有効性が検証された。
関連論文リスト
- Jakiro: Boosting Speculative Decoding with Decoupled Multi-Head via MoE [15.003006630308517]
投機的復号(SD)は、より小さなドラフトモデルを用いて複数のトークンを予測することで、大きな言語モデル推論を加速する。
本稿では,専門家の混在(Mixture of Experts, MoE)を利用したJakiroを提案する。
提案手法は予測精度を大幅に向上し,推論高速化を実現する。
論文 参考訳(メタデータ) (2025-02-10T09:24:06Z) - FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。
いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-27T15:53:49Z) - ParallelSpec: Parallel Drafter for Efficient Speculative Decoding [62.68430939686566]
提案するParallelSpecは,最先端の投機的復号化手法における自己回帰的起草戦略の代替となる。
投機段階における自己回帰的起草とは対照的に,効率的な投機モデルとして機能する並列投機を訓練する。
論文 参考訳(メタデータ) (2024-10-08T01:05:08Z) - PEARL: Parallel Speculative Decoding with Adaptive Draft Length [12.166703341906242]
本稿では,適応dRaft Length(PEARL)を用いた投機的復号化(Parallel speculative decoding)を促進するための,概念的にシンプルでフレキシブルで汎用的なフレームワークを提案する。
PEARLは、ドラフトフェーズ中に事前に最初のドラフトトークンを検証し、検証フェーズ中により多くのドラフトトークンを生成するための後検証を提案する。
各種テキスト生成ベンチマークの実験では、PEARLの有効性が実証されており、自動回帰復号法とバニラ投機復号法と比較して、パフォーマンスが4.43$times$と1.50$times$に向上した。
論文 参考訳(メタデータ) (2024-08-13T08:32:06Z) - Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。
本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。
我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文 参考訳(メタデータ) (2024-07-23T06:21:24Z) - TokenUnify: Scalable Autoregressive Visual Pre-training with Mixture Token Prediction [61.295716741720284]
TokenUnifyは、ランダムトークン予測、次のトークン予測、次のトークン予測を統合する新しい事前学習手法である。
TokenUnifyと共同で,超高解像度の大規模電子顕微鏡画像データセットを構築した。
このデータセットには1億2000万以上の注釈付きボクセルが含まれており、これまでで最大のニューロンセグメンテーションデータセットとなっている。
論文 参考訳(メタデータ) (2024-05-27T05:45:51Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - ProPD: Dynamic Token Tree Pruning and Generation for LLM Parallel
Decoding [12.449023969197684]
ProPDは動的トークンツリーのプルーニングと生成に基づく効率的な並列デコードフレームワークである。
ProPD は既存の復号アルゴリズムを 1.1-3.2x で一貫的に上回っている。
論文 参考訳(メタデータ) (2024-02-21T02:51:07Z) - SPEED: Speculative Pipelined Execution for Efficient Decoding [35.45955948053644]
本稿では,現在のトークンと並行して複数の将来トークンを投機的に実行することで,推論効率を向上させるSPEEDを提案する。
パラメータ共有を使用するTransformerデコーダでは、並列に実行されるトークンのメモリ操作を償却することができる。
モデル精度に対する遅延低減の観点から,本手法の有効性を実証し,パラメータ共有によるより深いデコーダのトレーニングを最小限のランタイムオーバーヘッドで行う方法を示した。
論文 参考訳(メタデータ) (2023-10-18T16:07:01Z) - Pre-training Co-evolutionary Protein Representation via A Pairwise
Masked Language Model [93.9943278892735]
タンパク質配列表現学習の鍵となる問題は、配列中の残基間の共変量によって反映される共進化情報をキャプチャすることである。
Pairwise Masked Language Model (PMLM) と呼ばれる専用言語モデルによる事前学習により,この情報を直接キャプチャする新しい手法を提案する。
提案手法は, 相互関係を効果的に把握し, ベースラインと比較して, 接触予測性能を最大9%向上できることを示す。
論文 参考訳(メタデータ) (2021-10-29T04:01:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。