論文の概要: EAGLE-3: Scaling up Inference Acceleration of Large Language Models via Training-Time Test
- arxiv url: http://arxiv.org/abs/2503.01840v1
- Date: Mon, 03 Mar 2025 18:59:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:20:06.375998
- Title: EAGLE-3: Scaling up Inference Acceleration of Large Language Models via Training-Time Test
- Title(参考訳): EAGLE-3: 学習時間テストによる大規模言語モデルの推論高速化
- Authors: Yuhui Li, Fangyun Wei, Chao Zhang, Hongyang Zhang,
- Abstract要約: LLMコミュニティのトレンドは、推論コストを増大させることなく、モデルインテリジェンスを改善するためにトレーニングデータをスケールアップすることです。
データのスケールアップがEagleプログラムに限定的な改善をもたらすことを観察する。
直接トークン予測に有利な特徴予測を放棄し,マルチ層機能融合によるトップ層機能への依存を代替するEagle-3を導入する。
- 参考スコア(独自算出の注目度): 25.703729145091483
- License:
- Abstract: The sequential nature of modern LLMs makes them expensive and slow, and speculative sampling has proven to be an effective solution to this problem. Methods like EAGLE perform autoregression at the feature level, reusing top-layer features from the target model to achieve better results than vanilla speculative sampling. A growing trend in the LLM community is scaling up training data to improve model intelligence without increasing inference costs. However, we observe that scaling up data provides limited improvements for EAGLE. We identify that this limitation arises from EAGLE's feature prediction constraints. In this paper, we introduce EAGLE-3, which abandons feature prediction in favor of direct token prediction and replaces reliance on top-layer features with multi-layer feature fusion via a technique named training-time test. These improvements significantly enhance performance and enable the draft model to fully benefit from scaling up training data. Our experiments include both chat models and reasoning models, evaluated on five tasks. The results show that EAGLE-3 achieves a speedup ratio up to 6.5x, with about 1.4x improvement over EAGLE-2. The code is available at https://github.com/SafeAILab/EAGLE.
- Abstract(参考訳): 現代のLSMのシーケンシャルな性質は、それらを高価で遅いものにし、投機的サンプリングはこの問題に対する効果的な解決策であることが証明されている。
EAGLEのようなメソッドは機能レベルで自己回帰を行い、ターゲットモデルから上位層機能を再利用して、バニラ投機サンプリングよりも優れた結果を得る。
LLMコミュニティのトレンドは、推論コストを増大させることなく、モデルインテリジェンスを改善するためにトレーニングデータをスケールアップすることです。
しかし、データのスケールアップがEAGLEに限定的な改善をもたらすことを観察する。
この制限はEAGLEの特徴予測制約から生じる。
本稿では,EAGLE-3を提案する。これは直接トークン予測に代えて特徴予測を放棄し,トレーニングタイムテストと呼ばれる技術を用いて,上位層の特徴への依存を多層特徴融合に置き換えるものである。
これらの改善により、パフォーマンスが大幅に向上し、ドラフトモデルがトレーニングデータのスケールアップの恩恵を完全に受けられるようになりました。
私たちの実験には、5つのタスクで評価されたチャットモデルと推論モデルの両方が含まれています。
その結果,EAGLE-3の速度比は最大6.5倍となり,EAGLE-2よりも1.4倍向上した。
コードはhttps://github.com/SafeAILab/EAGLEで公開されている。
関連論文リスト
- S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。
以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文 参考訳(メタデータ) (2025-02-18T13:40:22Z) - Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling [52.34735382627312]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示した。
既存のアプローチは主に、効果的なテストタイムスケーリングを達成するために、模倣学習と苦労に依存しています。
我々は、探索を奨励し、推論スケーリングを理解することで、強化学習をスケールするためにT1を提案する。
論文 参考訳(メタデータ) (2025-01-20T18:33:33Z) - Multi-Objective Large Language Model Unlearning [3.372396620898397]
グラディエント・アセント(GA)は、対象データ上のモデルの予測確率を減少させるプロアクティブな方法である。
本稿では,多目的大規模言語モデル学習(MOLLM)アルゴリズムを提案する。
実験の結果,MLLM が SOTA GA をベースとした LLM アンラーニング法よりも非ラーニング効果とモデルユーティリティ保存の点で優れていたことが確認された。
論文 参考訳(メタデータ) (2024-12-29T09:35:56Z) - What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - EAGLE-2: Faster Inference of Language Models with Dynamic Draft Trees [25.703729145091483]
本稿では,コンテキスト認識型動的ドラフトツリーの新しい手法を提案する。
我々は,3つの大言語モデル(LLM)と6つのタスクについて広範囲に評価を行った。
論文 参考訳(メタデータ) (2024-06-24T17:59:11Z) - Efficient Continual Pre-training by Mitigating the Stability Gap [68.49269649759005]
本研究では,Large Language Models (LLM) の継続事前学習における挙動について検討する。
固定された計算予算内でのLLM性能を向上させるための3つの効果的な戦略を提案する。
当社の戦略は,OpenLlama-3Bモデルの平均医療タスク性能を36.2%から40.7%に改善し,当初のトレーニング予算の40%に過ぎなかった。
論文 参考訳(メタデータ) (2024-06-21T02:28:37Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with
Gradient-Disentangled Embedding Sharing [117.41016786835452]
本稿では,DeBERTaモデルの改良を目的とした,事前学習型言語モデルDeBERTaV3を提案する。
ELECTRAでのバニラ埋め込み共有は、トレーニング効率とモデルパフォーマンスを損なう。
そこで本研究では、タグ・オブ・ウォーのダイナミクスを回避するために、新しい勾配距離の埋め込み方式を提案する。
論文 参考訳(メタデータ) (2021-11-18T06:48:00Z) - Training with Multi-Layer Embeddings for Model Reduction [0.9046327456472286]
複数層埋め込み学習アーキテクチャを導入し, 一連の線形層を通して埋め込みを訓練する。
その結果,メモリフットプリントの精度が向上し,dを4~8倍削減できることがわかった。
論文 参考訳(メタデータ) (2020-06-10T02:47:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。