論文の概要: KnapSpec: Self-Speculative Decoding via Adaptive Layer Selection as a Knapsack Problem
- arxiv url: http://arxiv.org/abs/2602.20217v1
- Date: Mon, 23 Feb 2026 08:13:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.47347
- Title: KnapSpec: Self-Speculative Decoding via Adaptive Layer Selection as a Knapsack Problem
- Title(参考訳): KnapSpec: Knapsack問題としての適応層選択による自己投機的デコーディング
- Authors: Seongjin Cha, Gyuwan Kim, Dongsu Han, Tao Yang, Insu Han,
- Abstract要約: KnapSpecは、knapsack問題としてドラフトモデル選択を再構成し、トークン毎のスループットを最大化する、トレーニング不要のフレームワークである。
本稿では,トークンの受入率の数学的代用として,隠れ状態間のコサイン類似性を証明した最初の厳密な理論的解析を行う。
Qwen3とLlama3の実験は、KnapSpecが最先端のベースラインを一貫して上回ることを示した。
- 参考スコア(独自算出の注目度): 12.668341559890605
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-speculative decoding (SSD) accelerates LLM inference by skipping layers to create an efficient draft model, yet existing methods often rely on static heuristics that ignore the dynamic computational overhead of attention in long-context scenarios. We propose KnapSpec, a training-free framework that reformulates draft model selection as a knapsack problem to maximize tokens-per-time throughput. By decoupling Attention and MLP layers and modeling their hardware-specific latencies as functions of context length, KnapSpec adaptively identifies optimal draft configurations on the fly via a parallel dynamic programming algorithm. Furthermore, we provide the first rigorous theoretical analysis establishing cosine similarity between hidden states as a mathematically sound proxy for the token acceptance rate. This foundation allows our method to maintain high drafting faithfulness while navigating the shifting bottlenecks of real-world hardware. Our experiments on Qwen3 and Llama3 demonstrate that KnapSpec consistently outperforms state-of-the-art SSD baselines, achieving up to 1.47x wall-clock speedup across various benchmarks. Our plug-and-play approach ensures high-speed inference for long sequences without requiring additional training or compromising the target model's output distribution.
- Abstract(参考訳): 自己投機的デコーディング(SSD)は、レイヤをスキップして効率的なドラフトモデルを作成することでLCM推論を加速するが、既存の手法は、長いコンテキストシナリオにおける注意の動的計算オーバーヘッドを無視する静的ヒューリスティックに依存していることが多い。
KnapSpecは、knapsack問題としてドラフトモデル選択を再構成し、トークン毎のスループットを最大化する、トレーニング不要のフレームワークである。
注意層とMLP層を分離し、ハードウェア固有のレイテンシをコンテキスト長の関数としてモデル化することにより、KnapSpecは並列動的プログラミングアルゴリズムを通じて、リアルタイムで最適なドラフト設定を適応的に特定する。
さらに,隠れ状態間のコサイン類似性を確立するための厳密な理論解析を行った。
この基盤は,現実のハードウェアのボトルネックのシフトをナビゲートしながら,高い起草忠実性を維持することができる。
Qwen3とLlama3の実験では、KnapSpecは最先端のSSDベースラインを一貫して上回り、様々なベンチマークで最大1.47倍の高速化を実現している。
我々のプラグ・アンド・プレイアプローチは、目標モデルの出力分布を補足したり、追加のトレーニングを必要とせずに、長いシーケンスに対する高速な推論を可能にする。
関連論文リスト
- Training-free Context-adaptive Attention for Efficient Long Context Modeling [57.703159205740185]
トレーニングフリーコンテキスト適応注意(TCA-Attention)は、学習不要なスパースアテンション機構であり、効率的な長文推論のための情報トークンのみに選択的に参画する。
TCA-Attentionは2.8$times$のスピードアップを実現し、128Kのコンテキスト長でKVキャッシュを61%削減し、フルアテンションに匹敵するパフォーマンスを維持している。
論文 参考訳(メタデータ) (2025-12-10T01:54:57Z) - Training-Free Loosely Speculative Decoding: Accepting Semantically Correct Drafts Beyond Exact Match [21.810129153556044]
訓練不要な投機的復号法(FLy)は、厳密な検証基準を緩める新しい手法である。
FLyは目標モデルの精度の99%以上を維持し,平均2.81倍の高速化を実現している。
論文 参考訳(メタデータ) (2025-11-28T08:23:30Z) - Rethinking Autoregressive Models for Lossless Image Compression via Hierarchical Parallelism and Progressive Adaptation [75.58269386927076]
自己回帰(AR)モデルは、しばしば計算コストの禁止のために非現実的に除外される。
この研究は、階層的並列性とプログレッシブ適応に基づくフレームワークを導入して、このパラダイムを再考する。
各種データセット(自然,衛星,医療)の実験により,本手法が新たな最先端圧縮を実現することを確認した。
論文 参考訳(メタデータ) (2025-11-14T06:27:58Z) - Fast Inference via Hierarchical Speculative Decoding [65.40448210801763]
階層的投機的復号法(HSD)は,各モデルがトークンを提案し,次に大きなモデルが1つのフォワードパスで検証する階層構造に,ドラフトモデルを積み重ねるアルゴリズムである。
HSDは最高の単軸ベースラインよりも1.2倍のスピードアップを達成している。
論文 参考訳(メタデータ) (2025-10-22T15:56:19Z) - TokenTiming: A Dynamic Alignment Method for Universal Speculative Decoding Model Pairs [12.056664630923896]
投機的復号化は推論効率を大幅に向上させる。
ドラフトとターゲットモデルは、同じ語彙を共有しなければならない。
普遍的な投機的復号化のためのアルゴリズムTokenTimingを提案する。
論文 参考訳(メタデータ) (2025-10-17T11:25:36Z) - READER: Retrieval-Assisted Drafter for Efficient LLM Inference [0.0386965802948046]
自己回帰言語モデルはトークンシーケンスよりも分解された確率をインスタンス化するが、その厳密なシーケンシャルなデコーディングプロセスは、遅延推論に固有の低いバウンドを課す。
このボトルネックは、大規模生成モデルのスケーラブルなデプロイにおける中心的な障害として現れています。
本稿では,補助的ドラフトモデルのトレーニングを回避した投機的復号化フレームワークREADERを提案する。
論文 参考訳(メタデータ) (2025-08-12T16:47:48Z) - Accelerating Diffusion LLMs via Adaptive Parallel Decoding [60.407727995313074]
並列にサンプリングされたトークンの数を動的に調整する新しい手法であるアダプティブ並列復号法(APD)を導入する。
APDは、ダウンストリームベンチマークで最小限の品質劣化を伴って、非常に高いスループットを提供する。
論文 参考訳(メタデータ) (2025-05-31T06:10:10Z) - KNN-SSD: Enabling Dynamic Self-Speculative Decoding via Nearest Neighbor Layer Set Optimization [20.230236656479207]
投機的復号化(SD)は、大規模言語モデル(LLM)の推論を加速するために広く使われているパラダイムとして登場した。
KNN-SSDは、K-Nearest Neighbor(KNN)探索を利用して、異なるスキップ層と様々なドメイン入力をマッチングするアルゴリズムである。
論文 参考訳(メタデータ) (2025-05-22T03:04:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。