論文の概要: Dynamic Depth Decoding: Faster Speculative Decoding for LLMs
- arxiv url: http://arxiv.org/abs/2409.00142v1
- Date: Fri, 30 Aug 2024 03:27:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 16:50:17.417490
- Title: Dynamic Depth Decoding: Faster Speculative Decoding for LLMs
- Title(参考訳): 動的深さデコーディング: LLMの高速な投機的デコーディング
- Authors: Oscar Brown, Zhengjie Wang, Andrea Do, Nikhil Mathew, Cheng Yu,
- Abstract要約: 本稿では,Eagle-2のツリードラフト手法を動的深度を用いて最適化した動的深度復号法(DDD)を提案する。
これにより、Eagle-2がEagle上で達成した平均スピードアップが44%向上し、DDDの平均スピードアップが3.16$xになった。
- 参考スコア(独自算出の注目度): 8.071750249796459
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The acceleration of Large Language Models (LLMs) with speculative decoding provides a significant runtime improvement without any loss of accuracy. Currently, EAGLE-2 is the state-of-the-art speculative decoding method, improving on EAGLE with a dynamic draft tree. We introduce Dynamic Depth Decoding (DDD), which optimises EAGLE-2's tree drafting method using a dynamic depth. This extends the average speedup that EAGLE-2 achieves over EAGLE by $44\%$, giving DDD an average speedup of $3.16$x.
- Abstract(参考訳): 投機的復号化によるLarge Language Models (LLM) の高速化は、精度を損なうことなく、大幅なランタイム改善をもたらす。
現在、ERGLE-2は最先端の投機的復号法であり、動的なドラフトツリーを用いてERGLEを改善する。
動的深度を用いてEAGLE-2のツリー起草法を最適化する動的深度復号法(DDD)を導入する。
これは、EAGLE-2がEAGLEで達成した平均スピードアップを44 %$で拡張し、DDDの平均スピードアップを3.16$xにする。
関連論文リスト
- EAGLE-2: Faster Inference of Language Models with Dynamic Draft Trees [25.703729145091483]
本稿では,コンテキスト認識型動的ドラフトツリーの新しい手法を提案する。
我々は,3つの大言語モデル(LLM)と6つのタスクについて広範囲に評価を行った。
論文 参考訳(メタデータ) (2024-06-24T17:59:11Z) - Ouroboros: Generating Longer Drafts Phrase by Phrase for Faster Speculative Decoding [65.94521678103237]
投機的復号化(英: Speculative decoding)は、大規模言語モデルの生成プロセスを加速する広く使われている手法である。
我々は,草案作成プロセスの並列化のために,草案文を生成するOuroborosを紹介した。
ウロボロは投機的復号化で最大2.8倍、バニラ復号化で3.9倍のスピードアップを達成できる。
論文 参考訳(メタデータ) (2024-02-21T11:31:28Z) - GliDe with a CaPE: A Low-Hassle Method to Accelerate Speculative
Decoding [81.01996600734616]
GliDe と CaPE を導入し,バニラ投機復号への2つの低ハードル修正を行った。
GliDeは、ターゲットのLLMからキャッシュされたキーと値を再利用する、修正されたドラフトモデルアーキテクチャである。
コード、データ、トレーニング済みのドラフトモデルをリリースします。
論文 参考訳(メタデータ) (2024-02-03T08:44:11Z) - EAGLE: Speculative Sampling Requires Rethinking Feature Uncertainty [28.07947754770082]
機能(第2層から第2層まで)の自己回帰はトークンレベルよりも単純です。
機能(第2から第2層)レベルの固有の不確実性は、そのパフォーマンスを制約します。
論文 参考訳(メタデータ) (2024-01-26T18:59:01Z) - ASAG: Building Strong One-Decoder-Layer Sparse Detectors via Adaptive
Sparse Anchor Generation [50.01244854344167]
適応スパースアンカージェネレータ(ASAG)の提案により、スパース検出器と密度検出器のパフォーマンスギャップを橋渡しする。
ASAGは、グリッドではなくパッチの動的なアンカーを予測することで、機能競合の問題を軽減する。
提案手法は高密度な手法より優れ,高速かつ高精度なトレードオフを実現する。
論文 参考訳(メタデータ) (2023-08-18T02:06:49Z) - Improving Dual-Encoder Training through Dynamic Indexes for Negative
Mining [61.09807522366773]
本稿では,ソフトマックスを証明可能な境界で近似し,木を動的に維持するアルゴリズムを提案する。
我々は,2000万以上のターゲットを持つデータセットについて検討し,オラクル・ブルート力負の鉱業に関して,誤差を半分に削減した。
論文 参考訳(メタデータ) (2023-03-27T15:18:32Z) - Highly Parallel Autoregressive Entity Linking with Discriminative
Correction [51.947280241185]
自己回帰リンクを全ての潜在的な言及に対して並列化する,非常に効率的な手法を提案する。
我々のモデルは以前の生成法より70倍高速で精度が高い。
論文 参考訳(メタデータ) (2021-09-08T17:28:26Z) - Orthros: Non-autoregressive End-to-end Speech Translation with
Dual-decoder [64.55176104620848]
NARと自己回帰(AR)デコーダの両方を共有音声エンコーダで共同で訓練する新しいNAR E2E-STフレームワークOrthrosを提案する。
後者は、前者から生成される様々な長の候補間のより良い翻訳を選択するために使用され、これは、無視できるオーバーヘッドを持つ大きな長のビームの有効性を劇的に向上させる。
4つのベンチマーク実験により、競合翻訳品質を維持しつつ、推論速度を向上させる手法の有効性が示された。
論文 参考訳(メタデータ) (2020-10-25T06:35:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。