Fugu-MT 論文翻訳(概要): AdaEAGLE: Optimizing Speculative Decoding via Explicit Modeling of Adaptive Draft Structures

論文の概要: AdaEAGLE: Optimizing Speculative Decoding via Explicit Modeling of Adaptive Draft Structures

arxiv url: http://arxiv.org/abs/2412.18910v1
Date: Wed, 25 Dec 2024 13:57:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-30 21:44:04.997847
Title: AdaEAGLE: Optimizing Speculative Decoding via Explicit Modeling of Adaptive Draft Structures
Title（参考訳）: AdaEAGLE: 適応ドラフト構造の明示的モデリングによる投機的デコーディングの最適化
Authors: Situo Zhang, Hankun Wang, Da Ma, Zichen Zhu, Lu Chen, Kunyao Lan, Kai Yu,
Abstract要約: 適応型ドラフト構造を明示的にモデル化する最初のSDフレームワークであるAdaEAGLEを紹介する。 AdaEAGLEは、バニラARデコードよりも1.62倍のスピードアップを実現し、固定長のSotAベースラインを上回っている。
参考スコア（独自算出の注目度）: 11.436315332919245
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Speculative Decoding (SD) is a popular lossless technique for accelerating the inference of Large Language Models (LLMs). We show that the decoding speed of SD frameworks with static draft structures can be significantly improved by incorporating context-aware adaptive draft structures. However, current studies on adaptive draft structures are limited by their performance, modeling approaches, and applicability. In this paper, we introduce AdaEAGLE, the first SD framework that explicitly models adaptive draft structures. AdaEAGLE leverages the Lightweight Draft Length Predictor (LDLP) module to explicitly predict the optimal number of draft tokens during inference to guide the draft model. It achieves comparable speedup results without manual thresholds and allows for deeper, more specialized optimizations. Moreover, together with threshold-based strategies, AdaEAGLE achieves a $1.62\times$ speedup over the vanilla AR decoding and outperforms fixed-length SotA baseline while maintaining output quality.
Abstract（参考訳）: 投機的復号法 (SD) は、Large Language Models (LLMs) の推論を高速化するための一般的なロスレス手法である。静的なドラフト構造を持つSDフレームワークのデコード速度は、コンテキスト対応のドラフト構造を組み込むことで大幅に向上できることを示す。しかし、適応型ドラフト構造に関する最近の研究は、その性能、モデリングアプローチ、適用性によって制限されている。本稿では,適応型ドラフト構造を明示的にモデル化する最初のSDフレームワークであるAdaEAGLEを紹介する。 AdaEAGLEは、LDLP(Lightweight Draft Length Predictor)モジュールを利用して、推論中のドラフトトークンの最適な数を明示的に予測し、ドラフトモデルをガイドする。手動のしきい値なしで同等のスピードアップ結果を達成し、より深く、より専門的な最適化を可能にします。さらに、しきい値ベースの戦略とともに、AdaEAGLEはバニラARデコードよりも1.62\times$のスピードアップを達成し、出力品質を維持しながら、固定長のSotAベースラインを上回っている。

関連論文リスト

A Novel Self-Evolution Framework for Large Language Models [18.62332474172811]
本稿では,ユーザの嗜好適応とドメイン固有能力を協調的に最適化する新しいDual-Phase Self-Evolutionフレームワークを提案する。一般的なNLPベンチマークと長期対話タスクによる実験は、DPSEが常にSupervised Fine-Tuning、Preference Optimization、Memory-Augmented baselinesより優れていることを示している。
論文参考訳（メタデータ） (2025-07-21T06:30:39Z)
Mamba Drafters for Speculative Decoding [58.080550222549064]
SSM(State-of-the-art State Space Model)であるMambaをベースとした新しいドラフトモデルを提案する。 SSMの線形構造を活用することにより、従来のトランスフォーマー法に固有の二次的複雑性を回避することができる。高品質なドラフト候補を生成するための新しいテスト時間木探索アルゴリズムにより、効率をさらに向上する。
論文参考訳（メタデータ） (2025-06-01T22:52:47Z)
Leveraging Importance Sampling to Detach Alignment Modules from Large Language Models [50.19188692497892]
伝統的なアライメント手法では、しばしば大きな事前訓練されたモデルを再訓練する必要がある。本稿では,アライメント処理を重要サンプリングの一種として形式化する新しいtextitResidual Alignment Model (textitRAM) を提案する。本稿では,トークンレベルの復号化を反復的に行う再サンプリングアルゴリズムを開発した。
論文参考訳（メタデータ） (2025-05-26T08:53:02Z)
Scalable Language Models with Posterior Inference of Latent Thought Vectors [52.63299874322121]
Latent-Thought Language Models (LTM) には、潜在空間における明示的な事前モデルに従う明示的な潜在思考ベクトルが含まれている。 LTMは従来のLLMを超える拡張次元を持ち、構造化された設計空間を提供する。 LTMは従来の自己回帰モデルや離散拡散モデルよりも、検証の難易度やゼロショット言語モデリングにおいて著しく優れている。
論文参考訳（メタデータ） (2025-02-03T17:50:34Z)
Reward-Guided Speculative Decoding for Efficient LLM Reasoning [80.55186052123196]
Reward-Guided Speculative Decoding (RSD)は,大規模言語モデル(LLM)における推論の効率向上を目的とした新しいフレームワークである。 RSDは、厳密な偏りを強制する既存の投機的復号法とは対照的に、制御されたバイアスをハイリワード出力の優先順位付けに取り入れている。 RSDは,対象モデルのみでの復号化に対して,高い効率向上を実現し,並列復号法よりも高い精度を実現している。
論文参考訳（メタデータ） (2025-01-31T17:19:57Z)
Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。 In-Context Learning (ICL) など。効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。下流タスクへのLLM。我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文参考訳（メタデータ） (2024-09-30T10:48:20Z)
Improving Multi-candidate Speculative Decoding [1.6291177798903276]
投機的復号化(SD)とは,大規模言語モデル(LLM)の推論を高速化する手法である。そこで本研究では,ターゲットモデルによるマルチ候補生成を含むMCSDの新バージョンを提案する。また、異なるドラフトモデルを用いたターゲットモデルマルチ候補プロセスが出力品質に及ぼす影響についても検討した。
論文参考訳（メタデータ） (2024-09-16T18:20:38Z)
Boosting Lossless Speculative Decoding via Feature Sampling and Partial Alignment Distillation [8.046705062670096]
損失のない投機的復号化は、ターゲットとする大言語モデル推論を加速する。 FSPAD (Feature Sampling and partial Alignment Distillation for Lossless Speculative Decoding) を提案する。我々の実験は、ヴィクナ級数とLLaMA3-インストラクト級数で最大かつ最小のモデルにおいて、欲求と非欲求デコーディングの両方を含む。
論文参考訳（メタデータ） (2024-08-28T06:28:01Z)
Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文参考訳（メタデータ） (2024-07-23T06:21:24Z)
Adaptive Draft-Verification for Efficient Large Language Model Decoding [24.347886232342862]
大規模言語モデル(LLM)デコードでは、与えられたコンテキストに基づいてトークンのシーケンスを生成する。典型的な自己回帰復号法では、生成されたトークンごとに別の前方通過が必要となる。微調整を必要とせずにLDMデコーディングを高速化するADEDを導入する。
論文参考訳（メタデータ） (2024-06-27T22:20:39Z)
Accelerating Production LLMs with Combined Token/Embedding Speculators [4.649953910785797]
本報告では,新規な投機的復号化ドラフトモデルの設計と訓練について述べる。文脈ベクトルとサンプリングトークンの両方にドラフト予測を条件付けすることで、投機器を訓練して高品質なn-gramを効率的に予測することができる。
論文参考訳（メタデータ） (2024-04-29T21:59:07Z)
Large Language Model Agent as a Mechanical Designer [7.136205674624813]
本研究では、FEMモジュールと協調して事前訓練された大規模言語モデル(LLM)を利用して、構造設計を自律的に生成、評価、洗練するフレームワークを提案する。 LLMはドメイン固有の微調整なしで動作し、設計候補を提案し、FEMから派生した性能指標を解釈し、構造的な音響修正を適用する。 NSGA-II (Non-Sorting Genetic Algorithm II) と比較して,本手法はより高速に収束し,より少ないFEM評価を実現する。
論文参考訳（メタデータ） (2024-04-26T16:41:24Z)
GliDe with a CaPE: A Low-Hassle Method to Accelerate Speculative Decoding [81.01996600734616]
GliDe と CaPE を導入し,バニラ投機復号への2つの低ハードル修正を行った。 GliDeは、ターゲットのLLMからキャッシュされたキーと値を再利用する、修正されたドラフトモデルアーキテクチャである。コード、データ、トレーニング済みのドラフトモデルをリリースします。
論文参考訳（メタデータ） (2024-02-03T08:44:11Z)
DistillSpec: Improving Speculative Decoding via Knowledge Distillation [70.61777015900272]
投機的復号(SD)は、複数のトークンを生成するためにより高速なドラフトモデルを使用することで、大きな言語モデル推論を加速する。本稿では,SDを適用する前に,知識蒸留を用いて,ドラフトモデルとターゲットモデルとの整合性を向上するDistillSpecを提案する。 DistillSpecは標準SDよりも10～45%のスピードアップを実現しています。
論文参考訳（メタデータ） (2023-10-12T16:21:04Z)
Bayesian Prompt Learning for Image-Language Model Generalization [64.50204877434878]
我々はベイズ法の正規化能力を用いて、変分推論問題としてプロンプト学習をフレーム化する。提案手法は,プロンプト空間を正規化し,目に見えないプロンプトへの過剰適合を低減し,目に見えないプロンプトのプロンプト一般化を改善する。ベイジアン・プロンプト学習がプロンプト空間の適切なカバレッジを提供する15のベンチマークを実証的に示す。
論文参考訳（メタデータ） (2022-10-05T17:05:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。