論文の概要: EAGLE: Speculative Sampling Requires Rethinking Feature Uncertainty
- arxiv url: http://arxiv.org/abs/2401.15077v2
- Date: Sun, 4 Feb 2024 17:18:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 02:42:10.179406
- Title: EAGLE: Speculative Sampling Requires Rethinking Feature Uncertainty
- Title(参考訳): EAGLE: 投機的サンプリングは機能不確かさを再考する必要がある
- Authors: Yuhui Li, Fangyun Wei, Chao Zhang, Hongyang Zhang
- Abstract要約: 機能(第2層から第2層まで)の自己回帰はトークンレベルよりも単純です。
機能(第2から第2層)レベルの固有の不確実性は、そのパフォーマンスを制約します。
- 参考スコア(独自算出の注目度): 28.07947754770082
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoregressive decoding makes the inference of Large Language Models (LLMs)
time-consuming. In this paper, we reconsider speculative sampling and derive
two key observations. Firstly, autoregression at the feature
(second-to-top-layer) level is more straightforward than at the token level.
Secondly, the inherent uncertainty in feature (second-to-top-layer) level
autoregression constrains its performance. Based on these insights, we
introduce EAGLE (Extrapolation Algorithm for Greater Language-model
Efficiency), a simple yet highly efficient speculative sampling framework. By
incorporating a token sequence advanced by one time step, EAGLE effectively
resolves the uncertainty, enabling precise second-to-top-layer feature
prediction with minimal overhead. We conducted comprehensive evaluations of
EAGLE, including all models from the Vicuna and LLaMA2-Chat series, the MoE
model Mixtral 8x7B Instruct, and tasks in dialogue, code generation,
mathematical reasoning, and instruction following. For LLaMA2-Chat 70B, EAGLE
achieved a latency speedup ratio of 2.7x-3.5x, doubled throughput, while
maintaining the distribution of the generated text.
- Abstract(参考訳): 自己回帰デコーディングは、LLM(Large Language Models)の推論に時間を要する。
本稿では,投機的サンプリングを再考し,二つの重要な観測結果を得る。
第一に、機能(第2から第2層)レベルでの自己回帰はトークンレベルよりも単純です。
第二に、機能(第2から第2層)レベルの固有の不確実性は、そのパフォーマンスを制約します。
これらの知見に基づき, 単純かつ高効率な投機的サンプリングフレームワークであるEAGLE(Extrapolation Algorithm for Greater Language-model efficiency)を導入する。
1回のステップで進行するトークンシーケンスを組み込むことで、EAGLEは不確実性を効果的に解決し、最小限のオーバーヘッドで正確に第2層から第2層までの特徴予測を可能にする。
我々は、VicunaとLLaMA2-Chatシリーズの全てのモデル、MoEモデルMixtral 8x7Bインストラクション、対話、コード生成、数学的推論、命令追従のタスクを含むEAGLEの包括的な評価を行った。
LLaMA2-Chat 70Bでは、EAGLEは2.7x-3.5xというレイテンシのスピードアップ比を達成した。
関連論文リスト
- Chimera: A Lossless Decoding Method for Accelerating Large Language
Models Inference by Fusing all Tokens [25.677308132947218]
投機的サンプリングに特化して設計された新しいフレームワークを提案する。
このフレームワーク内では、以前に生成されたトークンを効果的に活用し、後続の単語を予測する軽量なドラフトモデルを導入する。
我々は、バニラ自動回帰復号方式と比較して平均遅延速度比が2.7倍になるという印象的な結果を示した。
論文 参考訳(メタデータ) (2024-02-24T08:10:39Z) - Evidence to Generate (E2G): A Single-agent Two-step Prompting for
Context Grounded and Retrieval Augmented Reasoning [3.117335706912261]
Evidence to Generate(E2G)は、新しいシングルエージェント、2ステッププロンプトフレームワークである。
証明されていない推論の主張の代わりに、E2Gは文脈で明確に言及された思考列にのみ焦点をあてる。
ツールは、幅広い知識集約的な推論と生成タスクにおいて、顕著な結果を達成する。
論文 参考訳(メタデータ) (2024-01-11T09:49:15Z) - Skeleton2vec: A Self-supervised Learning Framework with Contextualized
Target Representations for Skeleton Sequence [56.092059713922744]
予測対象として高レベルな文脈化機能を使用することで,優れた性能が得られることを示す。
具体的には、シンプルで効率的な3D行動表現学習フレームワークであるSkeleton2vecを提案する。
提案するSkeleton2vecは,従来の手法より優れ,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-01-01T12:08:35Z) - Draft & Verify: Lossless Large Language Model Acceleration via
Self-Speculative Decoding [26.286435804599524]
本稿では,Large Language Models (LLMs) の高速化を目的とした新しい推論手法,自己投機的デコーディングを提案する。
提案手法では、追加のニューラルネットワークトレーニングを必要とせず、メモリフットプリントを必要とせず、推論アクセラレーションのためのプラグアンドプレイソリューションとなる。
LLaMA-2とその微調整されたモデルによるベンチマークでは、最大1.73$times$まで高速化された。
論文 参考訳(メタデータ) (2023-09-15T05:34:32Z) - Consensus-Adaptive RANSAC [104.87576373187426]
本稿では,パラメータ空間の探索を学習する新しいRANSACフレームワークを提案する。
注意機構は、ポイント・ツー・モデル残差のバッチで動作し、軽量のワンステップ・トランスフォーマーで見いだされたコンセンサスを考慮するために、ポイント・ツー・モデル推定状態を更新する。
論文 参考訳(メタデータ) (2023-07-26T08:25:46Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - Paraformer: Fast and Accurate Parallel Transformer for
Non-autoregressive End-to-End Speech Recognition [62.83832841523525]
そこで我々はParaformerと呼ばれる高速かつ高精度な並列トランスを提案する。
出力トークンの数を正確に予測し、隠れた変数を抽出する。
10倍以上のスピードアップで、最先端のARトランスフォーマーに匹敵するパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2022-06-16T17:24:14Z) - E2S2: Encoding-Enhanced Sequence-to-Sequence Pretraining for Language
Understanding and Generation [95.49128988683191]
シークエンス・ツー・シークエンス(seq2seq)学習は、大規模事前学習言語モデルにおいて一般的な方法である。
本稿では,エンコーディング強化のseq2seq事前学習戦略,すなわちE2S2を提案する。
E2S2は、より効率的な自己教師付き情報をエンコーダに統合することで、Seq2seqモデルを改善する。
論文 参考訳(メタデータ) (2022-05-30T08:25:36Z) - A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。
本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。
提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-04-11T18:31:53Z) - Latency Adjustable Transformer Encoder for Language Understanding [0.9790236766474201]
本稿では,提案する推論遅延の高速化により,推論コストを適応的に調整する効率的なトランスフォーマーアーキテクチャを提案する。
提案手法は,重要でないシークエンス要素(ワードベクター)を検出し,Actent Context Contribution (ACC) メトリックを用いて,各エンコーダ層でそれらを除去する。
提案手法は,BERTベースとGPT-2の推論遅延を最大4.8倍,3.72倍に改善し,0.75%の精度低下と平均パープレキシティが得られた。
論文 参考訳(メタデータ) (2022-01-10T13:04:39Z) - Meta-learning via Language Model In-context Tuning [16.306733033119897]
メタラーニングの目標は、いくつかのラベル付き例で新しいタスクに適応することを学ぶことだ。
適応と予測をリキャストする$textitin-context tuningを提案する。
LAMAとBinaryClfsの2種類のテキスト分類タスクについて,本手法のベンチマークを行った。
論文 参考訳(メタデータ) (2021-10-15T02:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。