論文の概要: HeteroSpec: Leveraging Contextual Heterogeneity for Efficient Speculative Decoding
- arxiv url: http://arxiv.org/abs/2505.13254v2
- Date: Fri, 24 Oct 2025 10:25:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:14.906581
- Title: HeteroSpec: Leveraging Contextual Heterogeneity for Efficient Speculative Decoding
- Title(参考訳): HeteroSpec: 効率的な投機的デコーディングのためのコンテキスト不均一性を活用する
- Authors: Siran Liu, Yang Ye, Qianchao Zhu, Zane Cao, Yongchao He,
- Abstract要約: HeteroSpecは投機的復号化フレームワークで、検証の労力を候補の不確実性に比例して割り当てる。
平均4.24$times$decoding speedup over-of-the-artメソッドを提供する。
HeteroSpecはモデルの再トレーニングを必要とせず、他の推論最適化と互換性がある。
- 参考スコア(独自算出の注目度): 2.2491281629568687
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoregressive decoding inherently limits the inference throughput of Large Language Model (LLM) due to its sequential dependency. Speculative decoding mitigates this by verifying multiple predicted tokens in parallel, but its efficiency remains constrained by what we identify as verification heterogeneity -- the uneven difficulty of verifying different speculative candidates. In practice, a small subset of high-confidence predictions accounts for most successful verifications, yet existing methods treat all candidates uniformly, leading to redundant computation. We present HeteroSpec, a heterogeneity-adaptive speculative decoding framework that allocates verification effort in proportion to candidate uncertainty. HeteroSpec estimates verification complexity using a lightweight entropy-based quantifier, partitions candidates via a data-driven stratification policy, and dynamically tunes speculative depth and pruning thresholds through coordinated optimization. Across five benchmarks and four LLMs, HeteroSpec delivers an average 4.24$\times$ decoding speedup over state-of-the-art methods such as EAGLE-3, while preserving exact output distributions. Crucially, HeteroSpec requires no model retraining and remains compatible with other inference optimizations, making it a practical direction for improving speculative decoding efficiency.
- Abstract(参考訳): 自己回帰復号化は、そのシーケンシャルな依存性のため、Large Language Model (LLM)の推論スループットを本質的に制限する。
投機的復号化は、複数の予測トークンを並列に検証することによってこれを緩和するが、その効率性は、異なる投機的候補を検証することの不均一な困難さである検証異質性によって制約される。
実際には、信頼性の高い予測の小さなサブセットが最も成功した検証の原因となっているが、既存の手法では全ての候補を均一に扱うことができ、冗長な計算に繋がる。
本稿では,不確実性に比例して検証作業を割り当てる不均一性適応型投機的復号化フレームワークHeteroSpecを提案する。
HeteroSpecは、軽量エントロピーベースの量子化器を用いて検証複雑性を推定し、データ駆動層化ポリシーを介して候補を分割し、協調最適化により投機深度とプルーニング閾値を動的に調整する。
5つのベンチマークと4つの LLM で、HeteroSpec は EAGLE-3 のような最先端のメソッドのデコード速度を平均4.24$\times$で提供し、正確な出力分布を保存する。
重要なのは、HeteroSpecはモデルの再トレーニングを必要とせず、他の推論最適化と互換性が保たれており、投機的復号効率を改善するための実用的な方向である。
関連論文リスト
- CAAD: Context-Aware Adaptive Decoding for Truthful Text Generation [31.469511576774252]
大規模言語モデルに対する文脈対応適応型復号法を提案する。
当社のアプローチは、TrathfulQAで平均2.8%の改善を実現しています。
モデルに依存しない,スケーラブルで,効率的な手法では,1世代パスしか必要としない。
論文 参考訳(メタデータ) (2025-08-04T08:28:25Z) - Scaling Linear Attention with Sparse State Expansion [58.161410995744596]
トランスフォーマーアーキテクチャは、2次計算と線形メモリ成長による長期コンテキストシナリオに苦慮している。
本稿では,情報分類として状態更新を概念化し,線形注意のための行スパース更新定式化を提案する。
次に、スパースフレームワーク内にスパース状態拡張(SSE)を示し、コンテキスト状態を複数のパーティションに拡張する。
論文 参考訳(メタデータ) (2025-07-22T13:27:31Z) - An Enhanced Model-based Approach for Short Text Clustering [58.60681789677676]
Twitter、Google+、Facebookなどのソーシャルメディアの人気が高まり、短いテキストのクラスタリングがますます重要になっている。
既存の手法は、トピックモデルに基づくアプローチと深層表現学習に基づくアプローチの2つのパラダイムに大別することができる。
短文の空間性と高次元性を効果的に扱えるDirichlet Multinomial Mixture Model (GSDMM) のギブスサンプリングアルゴリズムを提案する。
さらなる改良を保証しているGSDMMのいくつかの側面に基づいて,さらなる性能向上を目的とした改良されたアプローチであるGSDMM+を提案する。
論文 参考訳(メタデータ) (2025-07-18T10:07:42Z) - Singular Value Decomposition on Kronecker Adaptation for Large Language Model [0.8747606955991707]
大規模な事前訓練されたトランスフォーマーモデルは、様々な言語や推論タスクにまたがって最先端の結果が得られる。
完全な微調整は、かなりのストレージ、メモリ、計算オーバーヘッドを発生させる。
我々は, Kronecker-product tensor factorization と SVD-driven initialization と Dynamic rank selection を組み合わせた新しい PEFT 戦略である SoKA を提案する。
論文 参考訳(メタデータ) (2025-06-18T08:28:53Z) - SpecRouter: Adaptive Routing for Multi-Level Speculative Decoding in Large Language Models [21.933379266533098]
大規模言語モデル(LLM)は、推論品質と計算コストの間に重要なトレードオフをもたらす。
既存のサービス戦略では、固定されたモデルスケールや静的な2段階の投機的デコードを用いることが多い。
本稿では,LLM推論を適応的ルーティング問題として再定義する新しいフレームワークであるsystemnameを紹介する。
論文 参考訳(メタデータ) (2025-05-12T15:46:28Z) - Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは 違法にコストがかかる
LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。
我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-04-07T18:30:18Z) - HAFLQ: Heterogeneous Adaptive Federated LoRA Fine-tuned LLM with Quantization [55.972018549438964]
LLM(Federated Fine-tuning of Pre-trained Large Language Models)は、さまざまなデータセットにまたがるタスク固有の適応を可能にすると同時に、プライバシの保護を可能にする。
本研究では, HAFLQ (Heterogeneous Adaptive Federated Low-Rank Adaptation Fine-tuned LLM with Quantization) を提案する。
テキスト分類タスクの実験結果から,HAFLQはメモリ使用量を31%削減し,通信コストを49%削減し,精度を50%向上し,ベースライン法よりも高速な収束を実現している。
論文 参考訳(メタデータ) (2024-11-10T19:59:54Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - Transducer Consistency Regularization for Speech to Text Applications [4.510630624936377]
本稿では,トランスデューサモデルの整合正則化手法であるTransducer Consistency Regularization (TCR)を提案する。
作業確率を利用してトランスデューサ出力分布に異なる重みを与えるので、オラクルアライメントに近いアライメントのみがモデル学習に寄与する。
提案手法は他の整合正規化実装よりも優れていることを示すとともに,textscLibrispeechデータセットの強いベースラインと比較して,単語誤り率(WER)を4.3%削減できることを示した。
論文 参考訳(メタデータ) (2024-10-09T23:53:13Z) - In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。
これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。
本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-04T03:39:28Z) - Speculative Diffusion Decoding: Accelerating Language Generation through Diffusion [55.0194604505437]
投機的復号化は,大規模言語モデル推論を高速化する手法として広く採用されている。
本稿では,離散拡散モデルを用いてドラフトシーケンスを生成する投機的復号法を提案する。
論文 参考訳(メタデータ) (2024-08-10T21:24:25Z) - Semantics-Aware Dynamic Localization and Refinement for Referring Image
Segmentation [102.25240608024063]
画像の参照は、言語表現からのイメージセグメントを参照する。
そこで我々は,局所化中心からセグメンテーション言語へ移行するアルゴリズムを開発した。
比較すると,本手法はより汎用的で有効である。
論文 参考訳(メタデータ) (2023-03-11T08:42:40Z) - Rich Feature Construction for the Optimization-Generalization Dilemma [18.721567020497968]
我々は、モデルで使用できる潜在的に有用な機能のパレットを含むリッチな表現(RFC)を構築する。
RFCは、6つのOoDメソッドが挑戦的な不変トレーニングベンチマークで最高のパフォーマンスを達成するのを一貫して支援します。
現実的な Camelyon17 タスクでは,OoD と OoD の両手法が,従来の計算可能な結果に対して少なくとも 5% 以上の性能を発揮する。
論文 参考訳(メタデータ) (2022-03-24T20:39:33Z) - On the Convergence of Heterogeneous Federated Learning with Arbitrary
Adaptive Online Model Pruning [15.300983585090794]
任意適応型オンラインモデルプルーニングを用いた異種FLアルゴリズムの一元化フレームワークを提案する。
特に、ある十分な条件下では、これらのアルゴリズムは一般的なスムーズなコスト関数に対して標準FLの定常点に収束する。
コンバージェンスに影響を与える2つの要因として,プルーニング誘導雑音と最小カバレッジ指数を照らす。
論文 参考訳(メタデータ) (2022-01-27T20:43:38Z) - FedPD: A Federated Learning Framework with Optimal Rates and Adaptivity
to Non-IID Data [59.50904660420082]
フェデレートラーニング(FL)は、分散データから学ぶための一般的なパラダイムになっています。
クラウドに移行することなく、さまざまなデバイスのデータを効果的に活用するために、Federated Averaging(FedAvg)などのアルゴリズムでは、"Computation then aggregate"(CTA)モデルを採用している。
論文 参考訳(メタデータ) (2020-05-22T23:07:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。