Fugu-MT 論文翻訳(概要): EAGLE: Speculative Sampling Requires Rethinking Feature Uncertainty

論文の概要: EAGLE: Speculative Sampling Requires Rethinking Feature Uncertainty

arxiv url: http://arxiv.org/abs/2401.15077v2
Date: Sun, 4 Feb 2024 17:18:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-07 02:42:10.179406
Title: EAGLE: Speculative Sampling Requires Rethinking Feature Uncertainty
Title（参考訳）: EAGLE: 投機的サンプリングは機能不確かさを再考する必要がある
Authors: Yuhui Li, Fangyun Wei, Chao Zhang, Hongyang Zhang
Abstract要約: 機能(第2層から第2層まで)の自己回帰はトークンレベルよりも単純です。機能(第2から第2層)レベルの固有の不確実性は、そのパフォーマンスを制約します。
参考スコア（独自算出の注目度）: 28.07947754770082
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Autoregressive decoding makes the inference of Large Language Models (LLMs) time-consuming. In this paper, we reconsider speculative sampling and derive two key observations. Firstly, autoregression at the feature (second-to-top-layer) level is more straightforward than at the token level. Secondly, the inherent uncertainty in feature (second-to-top-layer) level autoregression constrains its performance. Based on these insights, we introduce EAGLE (Extrapolation Algorithm for Greater Language-model Efficiency), a simple yet highly efficient speculative sampling framework. By incorporating a token sequence advanced by one time step, EAGLE effectively resolves the uncertainty, enabling precise second-to-top-layer feature prediction with minimal overhead. We conducted comprehensive evaluations of EAGLE, including all models from the Vicuna and LLaMA2-Chat series, the MoE model Mixtral 8x7B Instruct, and tasks in dialogue, code generation, mathematical reasoning, and instruction following. For LLaMA2-Chat 70B, EAGLE achieved a latency speedup ratio of 2.7x-3.5x, doubled throughput, while maintaining the distribution of the generated text.
Abstract（参考訳）: 自己回帰デコーディングは、LLM(Large Language Models)の推論に時間を要する。本稿では,投機的サンプリングを再考し,二つの重要な観測結果を得る。第一に、機能(第2から第2層)レベルでの自己回帰はトークンレベルよりも単純です。第二に、機能(第2から第2層)レベルの固有の不確実性は、そのパフォーマンスを制約します。これらの知見に基づき, 単純かつ高効率な投機的サンプリングフレームワークであるEAGLE(Extrapolation Algorithm for Greater Language-model efficiency)を導入する。 1回のステップで進行するトークンシーケンスを組み込むことで、EAGLEは不確実性を効果的に解決し、最小限のオーバーヘッドで正確に第2層から第2層までの特徴予測を可能にする。我々は、VicunaとLLaMA2-Chatシリーズの全てのモデル、MoEモデルMixtral 8x7Bインストラクション、対話、コード生成、数学的推論、命令追従のタスクを含むEAGLEの包括的な評価を行った。 LLaMA2-Chat 70Bでは、EAGLEは2.7x-3.5xというレイテンシのスピードアップ比を達成した。

関連論文リスト

xLSTMAD: A Powerful xLSTM-based Method for Anomaly Detection [0.794682109939797]
フルエンコーダ・デコーダxLSTMアーキテクチャを統合した最初の異常検出手法であるxLSTMADを提案する。実世界の17のデータセットにまたがる包括的TSB-AD-Mベンチマークを用いて,本手法の評価を行った。以上の結果から、xLSTMは最先端の精度を示し、23の異常検出基準を上回りました。
論文参考訳（メタデータ） (2025-06-28T10:39:09Z)
Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文参考訳（メタデータ） (2025-05-28T14:03:02Z)
DEL: Context-Aware Dynamic Exit Layer for Efficient Self-Speculative Decoding [7.204881999658682]
DELは、推論中に出口層と投機長を適応的に選択するプラグイン・アンド・プレイ方式である。 Delは、全体的なスピードアップを$2.16times$$$sim$$2.50times$ over vanilla auto-regressive decoding で達成している。
論文参考訳（メタデータ） (2025-04-08T01:12:59Z)
EAGLE-3: Scaling up Inference Acceleration of Large Language Models via Training-Time Test [25.703729145091483]
LLMコミュニティのトレンドは、推論コストを増大させることなく、モデルインテリジェンスを改善するためにトレーニングデータをスケールアップすることです。 EAGLE-3は直接トークン予測に賛成して機能予測を放棄し、トップ層機能への依存を多層機能融合に置き換える。これらの改善により、パフォーマンスが大幅に向上し、ドラフトモデルがトレーニングデータのスケールアップの恩恵を完全に受けられるようになりました。
論文参考訳（メタデータ） (2025-03-03T18:59:04Z)
FR-Spec: Accelerating Large-Vocabulary Language Models via Frequency-Ranked Speculative Sampling [59.8051705468084]
投機的サンプリングは,大規模言語モデルの自己回帰生成プロセスを促進する重要な手法として登場した。本稿では、語彙空間圧縮によるドラフト候補選択を最適化する周波数ランクの投機的サンプリングフレームワークFR-Specを提案する。
論文参考訳（メタデータ） (2025-02-20T18:58:10Z)
Dynamic layer selection in decoder-only transformers [21.18795712840146]
自然言語生成のための2つの一般的な動的推論手法を実証的に検討する。トレーニング済みのデコーダのみのモデルでは,層スキップによる層除去が著しく堅牢であることがわかった。また、シーケンス毎の動的計算割り当ては、大きな効率向上を約束することを示す。
論文参考訳（メタデータ） (2024-10-26T00:44:11Z)
COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文参考訳（メタデータ） (2024-10-12T23:56:19Z)
Boosting Lossless Speculative Decoding via Feature Sampling and Partial Alignment Distillation [8.046705062670096]
損失のない投機的復号化は、ターゲットとする大言語モデル推論を加速する。 FSPAD (Feature Sampling and partial Alignment Distillation for Lossless Speculative Decoding) を提案する。我々の実験は、ヴィクナ級数とLLaMA3-インストラクト級数で最大かつ最小のモデルにおいて、欲求と非欲求デコーディングの両方を含む。
論文参考訳（メタデータ） (2024-08-28T06:28:01Z)
Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文参考訳（メタデータ） (2024-07-23T06:21:24Z)
EAGLE-2: Faster Inference of Language Models with Dynamic Draft Trees [25.703729145091483]
本稿では,コンテキスト認識型動的ドラフトツリーの新しい手法を提案する。我々は,3つの大言語モデル(LLM)と6つのタスクについて広範囲に評価を行った。
論文参考訳（メタデータ） (2024-06-24T17:59:11Z)
Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-05-29T17:59:07Z)
Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文参考訳（メタデータ） (2024-05-06T16:03:32Z)
Chimera: A Lossless Decoding Method for Accelerating Large Language Models Inference by Fusing all Tokens [15.566726645722657]
投機的サンプリングに特化して設計された新しいフレームワークを提案する。このフレームワーク内では、以前に生成されたトークンを効果的に活用し、後続の単語を予測する軽量なドラフトモデルを導入する。我々は、バニラ自動回帰復号方式と比較して平均遅延速度比が2.7倍になるという印象的な結果を示した。
論文参考訳（メタデータ） (2024-02-24T08:10:39Z)
Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文参考訳（メタデータ） (2022-07-14T17:00:19Z)
E2S2: Encoding-Enhanced Sequence-to-Sequence Pretraining for Language Understanding and Generation [95.49128988683191]
シークエンス・ツー・シークエンス(seq2seq)学習は、大規模事前学習言語モデルにおいて一般的な方法である。本稿では,エンコーディング強化のseq2seq事前学習戦略,すなわちE2S2を提案する。 E2S2は、より効率的な自己教師付き情報をエンコーダに統合することで、Seq2seqモデルを改善する。
論文参考訳（メタデータ） (2022-05-30T08:25:36Z)
Meta-learning via Language Model In-context Tuning [16.306733033119897]
メタラーニングの目標は、いくつかのラベル付き例で新しいタスクに適応することを学ぶことだ。適応と予測をリキャストする$textitin-context tuningを提案する。 LAMAとBinaryClfsの2種類のテキスト分類タスクについて,本手法のベンチマークを行った。
論文参考訳（メタデータ） (2021-10-15T02:29:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。