Fugu-MT 論文翻訳(概要): EAGLE: Speculative Sampling Requires Rethinking Feature Uncertainty

論文の概要: EAGLE: Speculative Sampling Requires Rethinking Feature Uncertainty

arxiv url: http://arxiv.org/abs/2401.15077v1
Date: Fri, 26 Jan 2024 18:59:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-29 14:18:45.671815
Title: EAGLE: Speculative Sampling Requires Rethinking Feature Uncertainty
Title（参考訳）: EAGLE: 投機的サンプリングは機能不確かさを再考する必要がある
Authors: Yuhui Li, Fangyun Wei, Chao Zhang, Hongyang Zhang
Abstract要約: より規則的な(上層)機能レベルで自動回帰的に起草プロセスを実行するフレームワークを提案する。アクセラレーションされたテキストは、バニラ自動回帰復号と同じ分布を維持している。平均160トークン/秒のLLaMA2-Chat 13Bを1つの3090 GPU上で達成し、Huggingfaceの実装の24トークン/秒と比較した。
参考スコア（独自算出の注目度）: 28.07947754770082
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Auto-regressive decoding makes the inference of Large Language Models (LLMs) time-consuming. We propose a simple framework, EAGLE (Extrapolation Algorithm for Greater Language-model Efficiency), for lossless acceleration. Unlike traditional speculative sampling methods, EAGLE operates the drafting process auto-regressively at the more regular (second-top-layer) feature level and addresses the sampling uncertainty issues in the next-feature prediction problems by integrating tokens from one time step ahead. The acceleration provided by EAGLE is lossless: it involves no fine-tuning of the target LLM, and the generated text maintains the same distribution as that of vanilla auto-regressive decoding. As of the submission of this paper, EAGLE is the fastest known framework within the speculative sampling family. On MT-bench, EAGLE is 3x faster than vanilla decoding, 2x faster than Lookahead, and 1.6x faster than Medusa. Using gpt-fast, EAGLE attains on average 160 tokens/s with LLaMA2-Chat 13B on a single RTX 3090 GPU, compared to 24 tokens/s of Huggingface's implementations.
Abstract（参考訳）: 自動回帰デコーディングは、LLM(Large Language Models)の推論に時間を要する。本稿では,損失のないアクセラレーションのための単純なフレームワーク EAGLE (Extrapolation Algorithm for Greater Language-model efficiency) を提案する。従来の投機的サンプリング手法とは異なり、eagleはより正規な(第2層)機能レベルで自動的にドラフトプロセスを実行し、次の機能予測問題におけるサンプリングの不確実性問題に対処する。 EAGLEが提供する加速度は損失がなく、ターゲットのLSMの微調整を伴わず、生成されたテキストはバニラ自動回帰復号と同じ分布を保持する。本論文の提出時点で,ERGLEは投機的サンプリングファミリの中では最速のフレームワークである。 MT-benchでは、EAGLEはバニラ復号より3倍、Lookaheadより2倍、Medusaより1.6倍高速である。 gpt-fastを使用すると、1つのRTX 3090 GPU上でLLaMA2-Chat 13Bで平均160トークン/秒を達成する。

関連論文リスト

xLSTMAD: A Powerful xLSTM-based Method for Anomaly Detection [0.794682109939797]
フルエンコーダ・デコーダxLSTMアーキテクチャを統合した最初の異常検出手法であるxLSTMADを提案する。実世界の17のデータセットにまたがる包括的TSB-AD-Mベンチマークを用いて,本手法の評価を行った。以上の結果から、xLSTMは最先端の精度を示し、23の異常検出基準を上回りました。
論文参考訳（メタデータ） (2025-06-28T10:39:09Z)
Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文参考訳（メタデータ） (2025-05-28T14:03:02Z)
DEL: Context-Aware Dynamic Exit Layer for Efficient Self-Speculative Decoding [7.204881999658682]
DELは、推論中に出口層と投機長を適応的に選択するプラグイン・アンド・プレイ方式である。 Delは、全体的なスピードアップを$2.16times$$$sim$$2.50times$ over vanilla auto-regressive decoding で達成している。
論文参考訳（メタデータ） (2025-04-08T01:12:59Z)
EAGLE-3: Scaling up Inference Acceleration of Large Language Models via Training-Time Test [25.703729145091483]
LLMコミュニティのトレンドは、推論コストを増大させることなく、モデルインテリジェンスを改善するためにトレーニングデータをスケールアップすることです。 EAGLE-3は直接トークン予測に賛成して機能予測を放棄し、トップ層機能への依存を多層機能融合に置き換える。これらの改善により、パフォーマンスが大幅に向上し、ドラフトモデルがトレーニングデータのスケールアップの恩恵を完全に受けられるようになりました。
論文参考訳（メタデータ） (2025-03-03T18:59:04Z)
FR-Spec: Accelerating Large-Vocabulary Language Models via Frequency-Ranked Speculative Sampling [59.8051705468084]
投機的サンプリングは,大規模言語モデルの自己回帰生成プロセスを促進する重要な手法として登場した。本稿では、語彙空間圧縮によるドラフト候補選択を最適化する周波数ランクの投機的サンプリングフレームワークFR-Specを提案する。
論文参考訳（メタデータ） (2025-02-20T18:58:10Z)
Dynamic layer selection in decoder-only transformers [21.18795712840146]
自然言語生成のための2つの一般的な動的推論手法を実証的に検討する。トレーニング済みのデコーダのみのモデルでは,層スキップによる層除去が著しく堅牢であることがわかった。また、シーケンス毎の動的計算割り当ては、大きな効率向上を約束することを示す。
論文参考訳（メタデータ） (2024-10-26T00:44:11Z)
COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文参考訳（メタデータ） (2024-10-12T23:56:19Z)
Boosting Lossless Speculative Decoding via Feature Sampling and Partial Alignment Distillation [8.046705062670096]
損失のない投機的復号化は、ターゲットとする大言語モデル推論を加速する。 FSPAD (Feature Sampling and partial Alignment Distillation for Lossless Speculative Decoding) を提案する。我々の実験は、ヴィクナ級数とLLaMA3-インストラクト級数で最大かつ最小のモデルにおいて、欲求と非欲求デコーディングの両方を含む。
論文参考訳（メタデータ） (2024-08-28T06:28:01Z)
Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文参考訳（メタデータ） (2024-07-23T06:21:24Z)
EAGLE-2: Faster Inference of Language Models with Dynamic Draft Trees [25.703729145091483]
本稿では,コンテキスト認識型動的ドラフトツリーの新しい手法を提案する。我々は,3つの大言語モデル(LLM)と6つのタスクについて広範囲に評価を行った。
論文参考訳（メタデータ） (2024-06-24T17:59:11Z)
Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-05-29T17:59:07Z)
Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文参考訳（メタデータ） (2024-05-06T16:03:32Z)
Chimera: A Lossless Decoding Method for Accelerating Large Language Models Inference by Fusing all Tokens [15.566726645722657]
投機的サンプリングに特化して設計された新しいフレームワークを提案する。このフレームワーク内では、以前に生成されたトークンを効果的に活用し、後続の単語を予測する軽量なドラフトモデルを導入する。我々は、バニラ自動回帰復号方式と比較して平均遅延速度比が2.7倍になるという印象的な結果を示した。
論文参考訳（メタデータ） (2024-02-24T08:10:39Z)
Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文参考訳（メタデータ） (2022-07-14T17:00:19Z)
E2S2: Encoding-Enhanced Sequence-to-Sequence Pretraining for Language Understanding and Generation [95.49128988683191]
シークエンス・ツー・シークエンス(seq2seq)学習は、大規模事前学習言語モデルにおいて一般的な方法である。本稿では,エンコーディング強化のseq2seq事前学習戦略,すなわちE2S2を提案する。 E2S2は、より効率的な自己教師付き情報をエンコーダに統合することで、Seq2seqモデルを改善する。
論文参考訳（メタデータ） (2022-05-30T08:25:36Z)
Meta-learning via Language Model In-context Tuning [16.306733033119897]
メタラーニングの目標は、いくつかのラベル付き例で新しいタスクに適応することを学ぶことだ。適応と予測をリキャストする$textitin-context tuningを提案する。 LAMAとBinaryClfsの2種類のテキスト分類タスクについて,本手法のベンチマークを行った。
論文参考訳（メタデータ） (2021-10-15T02:29:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。