Fugu-MT 論文翻訳(概要): EAGLE-2: Faster Inference of Language Models with Dynamic Draft Trees

論文の概要: EAGLE-2: Faster Inference of Language Models with Dynamic Draft Trees

arxiv url: http://arxiv.org/abs/2406.16858v2
Date: Sun, 30 Jun 2024 15:03:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-02 12:51:40.289714
Title: EAGLE-2: Faster Inference of Language Models with Dynamic Draft Trees
Title（参考訳）: EAGLE-2:動的ドラフト木を用いた言語モデルの高速推論
Authors: Yuhui Li, Fangyun Wei, Chao Zhang, Hongyang Zhang,
Abstract要約: 本稿では,コンテキスト認識型動的ドラフトツリーの新しい手法を提案する。我々は,3つの大言語モデル(LLM)と6つのタスクについて広範囲に評価を行った。
参考スコア（独自算出の注目度）: 25.703729145091483
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Inference with modern Large Language Models (LLMs) is expensive and time-consuming, and speculative sampling has proven to be an effective solution. Most speculative sampling methods such as EAGLE use a static draft tree, implicitly assuming that the acceptance rate of draft tokens depends only on their position. Interestingly, we found that the acceptance rate of draft tokens is also context-dependent. In this paper, building upon EAGLE, we propose EAGLE-2, which introduces a new technique of context-aware dynamic draft tree into drafting modeling. This improvement leverages the fact that the draft model of EAGLE is well-calibrated: the confidence scores from the draft model approximate acceptance rates with small errors. We conducted extensive evaluations on three series of LLMs and six tasks, with EAGLE-2 achieving speedup ratios 3.05x-4.26x, which is 20%-40% faster than EAGLE-1. EAGLE-2 also ensures that the distribution of the generated text remains unchanged, making it a lossless acceleration algorithm.
Abstract（参考訳）: 現代の大規模言語モデル(LLM)による推論は高価で時間を要するものであり、投機的サンプリングは効果的な解であることが証明されている。 EAGLEのような投機的サンプリング手法の多くは静的なドラフトツリーを使用しており、ドラフトトークンの受け入れ率はそれらの位置のみに依存すると暗黙的に仮定している。興味深いことに、ドラフトトークンの受け入れ率も文脈に依存していることがわかった。本稿では,EAGLEをベースとしたEAGLE-2を提案する。この改善は、ERGLEのドラフトモデルが十分に校正されているという事実を活用している。 EAGLE-2 の高速化比 3.05x-4.26x は EAGLE-1 よりも20%-40% 高速である。 EAGLE-2はまた、生成されたテキストの分布が変わらないことを保証する。

関連論文リスト

RASD: Retrieval-Augmented Speculative Decoding [5.3926068062773895]
投機的復号化は大規模言語モデル(LLM)における推論を加速する本稿では,モデルに基づく投機的復号化を促進する検索手法を採用したRASD(Retrieval-Augmented Speculative Decoding)を提案する。
論文参考訳（メタデータ） (2025-03-05T12:10:14Z)
EAGLE-3: Scaling up Inference Acceleration of Large Language Models via Training-Time Test [25.703729145091483]
LLMコミュニティのトレンドは、推論コストを増大させることなく、モデルインテリジェンスを改善するためにトレーニングデータをスケールアップすることです。 EAGLE-3は直接トークン予測に賛成して機能予測を放棄し、トップ層機能への依存を多層機能融合に置き換える。これらの改善により、パフォーマンスが大幅に向上し、ドラフトモデルがトレーニングデータのスケールアップの恩恵を完全に受けられるようになりました。
論文参考訳（メタデータ） (2025-03-03T18:59:04Z)
CORAL: Learning Consistent Representations across Multi-step Training with Lighter Speculative Drafter [9.631036588583248]
投機的復号化は,軽量な投機的ドラフトモデルを活用することで,Large Language Model (LLM)推論を高速化する強力な手法である。近年の手法では、多段階のトレーニング戦略を採用することでこの問題の解決が試みられているが、異なるトレーニングステップの複雑な入力によって、ドラフトモデルを収束させるのが難しくなっている。投機的起草における精度と効率を両立させる新しいフレームワークであるCORALを提案する。
論文参考訳（メタデータ） (2025-02-24T06:28:26Z)
FR-Spec: Accelerating Large-Vocabulary Language Models via Frequency-Ranked Speculative Sampling [59.8051705468084]
投機的サンプリングは,大規模言語モデルの自己回帰生成プロセスを促進する重要な手法として登場した。本稿では、語彙空間圧縮によるドラフト候補選択を最適化する周波数ランクの投機的サンプリングフレームワークFR-Specを提案する。
論文参考訳（メタデータ） (2025-02-20T18:58:10Z)
Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。 LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文参考訳（メタデータ） (2024-12-19T18:08:04Z)
AIC CTU system at AVeriTeC: Re-framing automated fact-checking as a simple RAG task [0.0]
本稿では、簡易な検索・拡張生成法(RAG)を用いて、野生で回収された証拠を用いた事実確認の課題に対する解決法について述べる。我々は、その2つのモジュール、Retriever と Evidence & Label ジェネレータを詳細に説明し、MMR-re rank や Likert-scale confidence estimation などの特徴を正当化します。我々は、予測の欠陥がデータ内のノイズや曖昧な事実チェックとよく一致し、さらなる研究とデータの増大を引き起こすことを実証的エラー解析により確認する。
論文参考訳（メタデータ） (2024-10-15T09:50:19Z)
Language Model Preference Evaluation with Multiple Weak Evaluators [78.53743237977677]
GED(Preference Graph Ensemble and Denoise)は、複数のモデルベースの評価器を活用して嗜好グラフを構築する新しいアプローチである。特に,本手法は,評価を統一グラフに集約し,デノナイジングプロセスを適用する2つの主要な段階から構成される。我々は,本枠組みの理論的保証を行い,真理優先構造を回復する上での有効性を示す。
論文参考訳（メタデータ） (2024-10-14T01:57:25Z)
Dynamic Depth Decoding: Faster Speculative Decoding for LLMs [8.071750249796459]
本稿では,Eagle-2のツリードラフト手法を動的深度を用いて最適化した動的深度復号法(DDD)を提案する。これにより、Eagle-2がEagle上で達成した平均スピードアップが44%向上し、DDDの平均スピードアップが3.16$xになった。
論文参考訳（メタデータ） (2024-08-30T03:27:48Z)
Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文参考訳（メタデータ） (2024-07-23T06:21:24Z)
Speculative RAG: Enhancing Retrieval Augmented Generation through Drafting [68.90949377014742]
Speculative RAG(投機的RAG)は、より大規模なジェネラリストLMを利用して、より小さな蒸留専門のLMによって並列に生成された複数のRAGドラフトを効率よく検証するフレームワークである。提案手法は,より小さな専門家のLMにドラフト作成を委譲することでRAGを加速し,より大きなジェネラリストのLMがドラフトに1回の検証パスを実行する。 PubHealthの従来のRAGシステムと比較して、レイテンシを51%削減しながら、最大12.97%の精度向上を実現している。
論文参考訳（メタデータ） (2024-07-11T06:50:19Z)
GliDe with a CaPE: A Low-Hassle Method to Accelerate Speculative Decoding [81.01996600734616]
GliDe と CaPE を導入し,バニラ投機復号への2つの低ハードル修正を行った。 GliDeは、ターゲットのLLMからキャッシュされたキーと値を再利用する、修正されたドラフトモデルアーキテクチャである。コード、データ、トレーニング済みのドラフトモデルをリリースします。
論文参考訳（メタデータ） (2024-02-03T08:44:11Z)
EAGLE: Speculative Sampling Requires Rethinking Feature Uncertainty [28.07947754770082]
機能(第2層から第2層まで)の自己回帰はトークンレベルよりも単純です。機能(第2から第2層)レベルの固有の不確実性は、そのパフォーマンスを制約します。
論文参考訳（メタデータ） (2024-01-26T18:59:01Z)
BOOST: Harnessing Black-Box Control to Boost Commonsense in LMs' Generation [60.77990074569754]
本稿では,凍結した事前学習言語モデルを,より汎用的な生成に向けて操る,計算効率のよいフレームワークを提案する。具体的には、まず、文に常識的スコアを割り当てる参照なし評価器を構築する。次に、スコアラをコモンセンス知識のオラクルとして使用し、NADOと呼ばれる制御可能な生成法を拡張して補助ヘッドを訓練する。
論文参考訳（メタデータ） (2023-10-25T23:32:12Z)
ELMER: A Non-Autoregressive Pre-trained Language Model for Efficient and Effective Text Generation [97.64625999380425]
事前学習言語モデル(PLM)のアプローチによるテキスト生成タスクについて検討する。早期出口技術を活用することで、ELMERは予測信頼度に応じて異なるレイヤでのトークン生成を可能にする。 3つのテキスト生成タスクの実験では、EMMERはNARモデルよりも大幅に優れていた。
論文参考訳（メタデータ） (2022-10-24T14:46:47Z)
Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文参考訳（メタデータ） (2022-03-23T06:24:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。