論文の概要: HeteroSpec: Leveraging Contextual Heterogeneity for Efficient Speculative Decoding
- arxiv url: http://arxiv.org/abs/2505.13254v1
- Date: Mon, 19 May 2025 15:38:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.704524
- Title: HeteroSpec: Leveraging Contextual Heterogeneity for Efficient Speculative Decoding
- Title(参考訳): HeteroSpec: 効率的な投機的デコーディングのためのコンテキスト不均一性を活用する
- Authors: Siran Liu, Yang Ye, Qianchao Zhu, Zheng Cao, Yongchao He,
- Abstract要約: HeteroSpecは異種適応型投機的復号化フレームワークである。
5つのベンチマークと4つのモデルで評価しました
ドラフトモデルの再トレーニングを必要とせず、オーバーヘッドを最小限に抑え、他のアクセラレーションテクニックも必要です。
- 参考スコア(独自算出の注目度): 6.211711244698551
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoregressive decoding, the standard approach for Large Language Model (LLM) inference, remains a significant bottleneck due to its sequential nature. While speculative decoding algorithms mitigate this inefficiency through parallel verification, they fail to exploit the inherent heterogeneity in linguistic complexity, a key factor leading to suboptimal resource allocation. We address this by proposing HeteroSpec, a heterogeneity-adaptive speculative decoding framework that dynamically optimizes computational resource allocation based on linguistic context complexity. HeteroSpec introduces two key mechanisms: (1) A novel cumulative meta-path Top-$K$ entropy metric for efficiently identifying predictable contexts. (2) A dynamic resource allocation strategy based on data-driven entropy partitioning, enabling adaptive speculative expansion and pruning tailored to local context difficulty. Evaluated on five public benchmarks and four models, HeteroSpec achieves an average speedup of 4.26$\times$. It consistently outperforms state-of-the-art EAGLE-3 across speedup rates, average acceptance length, and verification cost. Notably, HeteroSpec requires no draft model retraining, incurs minimal overhead, and is orthogonal to other acceleration techniques. It demonstrates enhanced acceleration with stronger draft models, establishing a new paradigm for context-aware LLM inference acceleration.
- Abstract(参考訳): 大規模言語モデル(LLM)推論の標準的なアプローチである自己回帰復号法は、そのシーケンシャルな性質のため、依然として大きなボトルネックとなっている。
投機的復号アルゴリズムは並列検証によってこの非効率性を緩和するが、言語的複雑さにおける固有の不均一性(英語版)を活用できない。
HeteroSpecは言語文脈の複雑さに基づいて動的に計算資源割り当てを最適化する異質性適応型投機的復号化フレームワークである。
HeteroSpecは、(1)予測可能なコンテキストを効率的に識別するための新しい累積メタパス Top-$K$エントロピーメトリック。
2)データ駆動型エントロピーパーティショニングに基づく動的資源配分戦略により,局所的コンテキストの難易度に合わせて,適応的投機的拡張と刈取を可能にする。
5つの公開ベンチマークと4つのモデルで評価され、平均速度は4.26$\times$である。
スピードアップ速度、平均受入距離、検証コストで最先端のEAGLE-3を上回っている。
特に、HeteroSpecはドラフトモデルの再トレーニングを必要とせず、最小限のオーバーヘッドを発生させ、他のアクセラレーションテクニックと直交する。
より強力なドラフトモデルによる拡張アクセラレーションを示し、コンテキスト対応のLLM推論アクセラレーションのための新しいパラダイムを確立する。
関連論文リスト
- SpecRouter: Adaptive Routing for Multi-Level Speculative Decoding in Large Language Models [21.933379266533098]
大規模言語モデル(LLM)は、推論品質と計算コストの間に重要なトレードオフをもたらす。
既存のサービス戦略では、固定されたモデルスケールや静的な2段階の投機的デコードを用いることが多い。
本稿では,LLM推論を適応的ルーティング問題として再定義する新しいフレームワークであるsystemnameを紹介する。
論文 参考訳(メタデータ) (2025-05-12T15:46:28Z) - Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは 違法にコストがかかる
LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。
我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-04-07T18:30:18Z) - HAFLQ: Heterogeneous Adaptive Federated LoRA Fine-tuned LLM with Quantization [55.972018549438964]
LLM(Federated Fine-tuning of Pre-trained Large Language Models)は、さまざまなデータセットにまたがるタスク固有の適応を可能にすると同時に、プライバシの保護を可能にする。
本研究では, HAFLQ (Heterogeneous Adaptive Federated Low-Rank Adaptation Fine-tuned LLM with Quantization) を提案する。
テキスト分類タスクの実験結果から,HAFLQはメモリ使用量を31%削減し,通信コストを49%削減し,精度を50%向上し,ベースライン法よりも高速な収束を実現している。
論文 参考訳(メタデータ) (2024-11-10T19:59:54Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - Transducer Consistency Regularization for Speech to Text Applications [4.510630624936377]
本稿では,トランスデューサモデルの整合正則化手法であるTransducer Consistency Regularization (TCR)を提案する。
作業確率を利用してトランスデューサ出力分布に異なる重みを与えるので、オラクルアライメントに近いアライメントのみがモデル学習に寄与する。
提案手法は他の整合正規化実装よりも優れていることを示すとともに,textscLibrispeechデータセットの強いベースラインと比較して,単語誤り率(WER)を4.3%削減できることを示した。
論文 参考訳(メタデータ) (2024-10-09T23:53:13Z) - Speculative Diffusion Decoding: Accelerating Language Generation through Diffusion [55.0194604505437]
投機的復号化は,大規模言語モデル推論を高速化する手法として広く採用されている。
本稿では,離散拡散モデルを用いてドラフトシーケンスを生成する投機的復号法を提案する。
論文 参考訳(メタデータ) (2024-08-10T21:24:25Z) - Semantics-Aware Dynamic Localization and Refinement for Referring Image
Segmentation [102.25240608024063]
画像の参照は、言語表現からのイメージセグメントを参照する。
そこで我々は,局所化中心からセグメンテーション言語へ移行するアルゴリズムを開発した。
比較すると,本手法はより汎用的で有効である。
論文 参考訳(メタデータ) (2023-03-11T08:42:40Z) - Rich Feature Construction for the Optimization-Generalization Dilemma [18.721567020497968]
我々は、モデルで使用できる潜在的に有用な機能のパレットを含むリッチな表現(RFC)を構築する。
RFCは、6つのOoDメソッドが挑戦的な不変トレーニングベンチマークで最高のパフォーマンスを達成するのを一貫して支援します。
現実的な Camelyon17 タスクでは,OoD と OoD の両手法が,従来の計算可能な結果に対して少なくとも 5% 以上の性能を発揮する。
論文 参考訳(メタデータ) (2022-03-24T20:39:33Z) - On the Convergence of Heterogeneous Federated Learning with Arbitrary
Adaptive Online Model Pruning [15.300983585090794]
任意適応型オンラインモデルプルーニングを用いた異種FLアルゴリズムの一元化フレームワークを提案する。
特に、ある十分な条件下では、これらのアルゴリズムは一般的なスムーズなコスト関数に対して標準FLの定常点に収束する。
コンバージェンスに影響を与える2つの要因として,プルーニング誘導雑音と最小カバレッジ指数を照らす。
論文 参考訳(メタデータ) (2022-01-27T20:43:38Z) - FedPD: A Federated Learning Framework with Optimal Rates and Adaptivity
to Non-IID Data [59.50904660420082]
フェデレートラーニング(FL)は、分散データから学ぶための一般的なパラダイムになっています。
クラウドに移行することなく、さまざまなデバイスのデータを効果的に活用するために、Federated Averaging(FedAvg)などのアルゴリズムでは、"Computation then aggregate"(CTA)モデルを採用している。
論文 参考訳(メタデータ) (2020-05-22T23:07:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。