論文の概要: EAGLE-2: Faster Inference of Language Models with Dynamic Draft Trees
- arxiv url: http://arxiv.org/abs/2406.16858v2
- Date: Sun, 30 Jun 2024 15:03:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-02 12:51:40.289714
- Title: EAGLE-2: Faster Inference of Language Models with Dynamic Draft Trees
- Title(参考訳): EAGLE-2:動的ドラフト木を用いた言語モデルの高速推論
- Authors: Yuhui Li, Fangyun Wei, Chao Zhang, Hongyang Zhang,
- Abstract要約: 本稿では,コンテキスト認識型動的ドラフトツリーの新しい手法を提案する。
我々は,3つの大言語モデル(LLM)と6つのタスクについて広範囲に評価を行った。
- 参考スコア(独自算出の注目度): 25.703729145091483
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inference with modern Large Language Models (LLMs) is expensive and time-consuming, and speculative sampling has proven to be an effective solution. Most speculative sampling methods such as EAGLE use a static draft tree, implicitly assuming that the acceptance rate of draft tokens depends only on their position. Interestingly, we found that the acceptance rate of draft tokens is also context-dependent. In this paper, building upon EAGLE, we propose EAGLE-2, which introduces a new technique of context-aware dynamic draft tree into drafting modeling. This improvement leverages the fact that the draft model of EAGLE is well-calibrated: the confidence scores from the draft model approximate acceptance rates with small errors. We conducted extensive evaluations on three series of LLMs and six tasks, with EAGLE-2 achieving speedup ratios 3.05x-4.26x, which is 20%-40% faster than EAGLE-1. EAGLE-2 also ensures that the distribution of the generated text remains unchanged, making it a lossless acceleration algorithm.
- Abstract(参考訳): 現代の大規模言語モデル(LLM)による推論は高価で時間を要するものであり、投機的サンプリングは効果的な解であることが証明されている。
EAGLEのような投機的サンプリング手法の多くは静的なドラフトツリーを使用しており、ドラフトトークンの受け入れ率はそれらの位置のみに依存すると暗黙的に仮定している。
興味深いことに、ドラフトトークンの受け入れ率も文脈に依存していることがわかった。
本稿では,EAGLEをベースとしたEAGLE-2を提案する。
この改善は、ERGLEのドラフトモデルが十分に校正されているという事実を活用している。
EAGLE-2 の高速化比 3.05x-4.26x は EAGLE-1 よりも20%-40% 高速である。
EAGLE-2はまた、生成されたテキストの分布が変わらないことを保証する。
関連論文リスト
- AIC CTU system at AVeriTeC: Re-framing automated fact-checking as a simple RAG task [0.0]
本稿では、簡易な検索・拡張生成法(RAG)を用いて、野生で回収された証拠を用いた事実確認の課題に対する解決法について述べる。
我々は、その2つのモジュール、Retriever と Evidence & Label ジェネレータを詳細に説明し、MMR-re rank や Likert-scale confidence estimation などの特徴を正当化します。
我々は、予測の欠陥がデータ内のノイズや曖昧な事実チェックとよく一致し、さらなる研究とデータの増大を引き起こすことを実証的エラー解析により確認する。
論文 参考訳(メタデータ) (2024-10-15T09:50:19Z) - Dynamic Depth Decoding: Faster Speculative Decoding for LLMs [8.071750249796459]
本稿では,Eagle-2のツリードラフト手法を動的深度を用いて最適化した動的深度復号法(DDD)を提案する。
これにより、Eagle-2がEagle上で達成した平均スピードアップが44%向上し、DDDの平均スピードアップが3.16$xになった。
論文 参考訳(メタデータ) (2024-08-30T03:27:48Z) - Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。
本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。
我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文 参考訳(メタデータ) (2024-07-23T06:21:24Z) - Speculative RAG: Enhancing Retrieval Augmented Generation through Drafting [68.90949377014742]
Speculative RAG(投機的RAG)は、より大規模なジェネラリストLMを利用して、より小さな蒸留専門のLMによって並列に生成された複数のRAGドラフトを効率よく検証するフレームワークである。
提案手法は,より小さな専門家のLMにドラフト作成を委譲することでRAGを加速し,より大きなジェネラリストのLMがドラフトに1回の検証パスを実行する。
PubHealthの従来のRAGシステムと比較して、レイテンシを51%削減しながら、最大12.97%の精度向上を実現している。
論文 参考訳(メタデータ) (2024-07-11T06:50:19Z) - GliDe with a CaPE: A Low-Hassle Method to Accelerate Speculative
Decoding [81.01996600734616]
GliDe と CaPE を導入し,バニラ投機復号への2つの低ハードル修正を行った。
GliDeは、ターゲットのLLMからキャッシュされたキーと値を再利用する、修正されたドラフトモデルアーキテクチャである。
コード、データ、トレーニング済みのドラフトモデルをリリースします。
論文 参考訳(メタデータ) (2024-02-03T08:44:11Z) - EAGLE: Speculative Sampling Requires Rethinking Feature Uncertainty [28.07947754770082]
機能(第2層から第2層まで)の自己回帰はトークンレベルよりも単純です。
機能(第2から第2層)レベルの固有の不確実性は、そのパフォーマンスを制約します。
論文 参考訳(メタデータ) (2024-01-26T18:59:01Z) - BOOST: Harnessing Black-Box Control to Boost Commonsense in LMs'
Generation [60.77990074569754]
本稿では,凍結した事前学習言語モデルを,より汎用的な生成に向けて操る,計算効率のよいフレームワークを提案する。
具体的には、まず、文に常識的スコアを割り当てる参照なし評価器を構築する。
次に、スコアラをコモンセンス知識のオラクルとして使用し、NADOと呼ばれる制御可能な生成法を拡張して補助ヘッドを訓練する。
論文 参考訳(メタデータ) (2023-10-25T23:32:12Z) - ELMER: A Non-Autoregressive Pre-trained Language Model for Efficient and
Effective Text Generation [97.64625999380425]
事前学習言語モデル(PLM)のアプローチによるテキスト生成タスクについて検討する。
早期出口技術を活用することで、ELMERは予測信頼度に応じて異なるレイヤでのトークン生成を可能にする。
3つのテキスト生成タスクの実験では、EMMERはNARモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-24T14:46:47Z) - Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。
計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。
また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文 参考訳(メタデータ) (2022-03-23T06:24:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。