論文の概要: Mistletoe: Stealthy Acceleration-Collapse Attacks on Speculative Decoding
- arxiv url: http://arxiv.org/abs/2605.14005v1
- Date: Wed, 13 May 2026 18:11:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.453973
- Title: Mistletoe: Stealthy Acceleration-Collapse Attacks on Speculative Decoding
- Title(参考訳): Mistletoe: 投機的デコーディングにおけるステルス的アクセラレーション-崩壊攻撃
- Authors: Shuoyang Sun, Chang Da, Hao Fang, Kuofeng Gao, Xinhao Zhong, Yi Sun, Fan Mo, Shu-Tao Xia, Bin Chen,
- Abstract要約: 投機的復号化は大規模言語モデル(LLM)推論を高速化する手法として広く採用されている。
モデルに基づく投機的復号化における新しいメカニズムレベルの脆弱性を同定する。
提案するMistletoeは、投機的復号化に対するステルス的な加速・崩壊攻撃である。
- 参考スコア(独自算出の注目度): 47.771248673145614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speculative decoding has become a widely adopted technique for accelerating large language model (LLM) inference by drafting multiple candidate tokens and verifying them with a target model in parallel. Its efficiency, however, critically depends on the average accepted length $τ$, i.e., how many draft tokens survive each verification step. In this work, we identify a new mechanism-level vulnerability in model-based speculative decoding: the drafter is trained to approximate the target model distribution, but this approximation is inevitably imperfect. Such a drafter-target mismatch creates a hidden attack surface where small perturbations can preserve the target model's visible behavior while substantially reducing draft-token acceptability. We propose Mistletoe, a stealthy acceleration-collapse attack against speculative decoding. Mistletoe directly targets the acceptance mechanism of speculative decoding. It jointly optimizes a degradation objective that decreases drafter-target agreement and a semantic-preservation objective that constrains the target model's output distribution. To resolve the conflict between these objectives, we introduce a null-space projection mechanism, where degradation gradients are projected away from the local semantic-preserving direction, suppressing draft acceptance while minimizing semantic drift. Experiments on various speculative decoding systems show that Mistletoe substantially reduces average accepted length $τ$, collapses speedup, and lowers averaged token throughput, while preserving output quality and perplexity. Our work highlights that speculative decoding introduces a mechanism-level attack surface beyond existing output robustness, calling for more robust designs of LLM acceleration systems.
- Abstract(参考訳): 投機的復号化は、複数の候補トークンを起草し、それらを並列にターゲットモデルで検証することにより、大規模言語モデル(LLM)推論を高速化する手法として広く採用されている。
しかし、その効率性は、平均許容される長さ$τ$、すなわち、各検証ステップでどれだけのドラフトトークンが生き残るかに依存する。
本研究では,モデルに基づく投機的復号法において,新たなメカニズムレベルの脆弱性を同定する: 設計者は,対象モデル分布を近似するために訓練されるが,この近似は必然的に不完全である。
このようなドラフト・ターゲットミスマッチは、小さな摂動がターゲットモデルの可視性を維持しつつ、ドラフト・ツー・ケンの受容性を著しく低減できる隠れた攻撃面を生成する。
提案するMistletoeは、投機的復号化に対するステルス的な加速・崩壊攻撃である。
Mistletoeは投機的復号化の受け入れメカニズムを直接ターゲットとしている。
これは、ドラフト・ターゲット合意を減少させる劣化目標と、目標モデルの出力分布を制限する意味保存目標を共同で最適化する。
これらの目的の対立を解決するため、局所的な意味保存方向から劣化勾配を投影するヌル空間投影機構を導入し、意味的ドリフトを最小限に抑えながらドラフト受け入れを抑える。
様々な投機的復号システムの実験により、Mistletoeは出力品質とパープレキシティを保ちながら、平均許容長をτ$で大幅に削減し、スピードアップを崩壊させ、平均トークンスループットを低下させることが示されている。
我々の研究は、投機的復号化が既存の出力の堅牢性を超えた機構レベルの攻撃面を導入し、LCM加速システムのより堅牢な設計を要求することを強調している。
関連論文リスト
- CASCADE: Context-Aware Relaxation for Speculative Image Decoding [9.004650208708235]
自己回帰生成は高忠実度画像合成のための強力なアプローチである。
現在のアプローチでは、テキスト生成で見られるものと同等の効率向上を達成できない。
木に基づく投機的復号法で自然に現れる対象モデルの振舞いにおいて,これまで見過ごされていたパターンを同定する。
論文 参考訳(メタデータ) (2026-05-08T04:32:17Z) - Multi-Scale Local Speculative Decoding for Image Generation [10.239314110594249]
マルチスケールローカル投機復号(MuLo-SD)を導入する。
MuLo-SDは、多重解像度のドラフトと空間情報による検証を組み合わせることで、AR画像生成を高速化する。
我々は MuLo-SD が $mathbf1.7times$ までの大幅な高速化を実現することを示した。
論文 参考訳(メタデータ) (2026-01-08T17:39:35Z) - Arbitrage: Efficient Reasoning via Advantage-Aware Speculation [71.45710345765528]
投機的復号化は、高速だが不正確なドラフトモデルを用いて推論を加速し、自動回帰的にトークンを提案する。
しかし、意味論的に等価なステップにおけるトークンミスマッチによる不要な拒絶のため、従来のトークンレベルの投機的デコーディングは、タスクの推論に苦労する。
提案するArbitrageは,ドラフトモデルとターゲットモデルとの相対的優位性に基づいて動的に生成をルーティングする,新しいステップレベルの投機生成フレームワークである。
論文 参考訳(メタデータ) (2025-12-04T17:50:53Z) - Training-Free Loosely Speculative Decoding: Accepting Semantically Correct Drafts Beyond Exact Match [21.810129153556044]
訓練不要な投機的復号法(FLy)は、厳密な検証基準を緩める新しい手法である。
FLyは目標モデルの精度の99%以上を維持し,平均2.81倍の高速化を実現している。
論文 参考訳(メタデータ) (2025-11-28T08:23:30Z) - Improving Black-Box Generative Attacks via Generator Semantic Consistency [51.470649503929344]
ジェネレーティブアタックは テスト時に 1つのフォワードパスで 敵の例を生成する
初期ジェネレータの中間機能をEMA教師に整列させることで意味的整合性を実現する。
我々のアプローチは、ブラックボックス転送の一貫性を保ちながら、既存のジェネレーティブアタックにシームレスに統合することができる。
論文 参考訳(メタデータ) (2025-06-23T02:35:09Z) - GRIFFIN: Effective Token Alignment for Faster Speculative Decoding [33.26750782762635]
GRIFFINは、トークン指向のトレーニング戦略とトークン指向のドラフトモデルを組み込んだ、新しいフレームワークである。
LLaMA, Vicuna, Qwen, Mixtral モデルを用いた実験では, GRIFFIN が平均受容長 8% 以上, スピードアップ比 7% 以上を達成している。
論文 参考訳(メタデータ) (2025-02-16T07:06:00Z) - Continual-MAE: Adaptive Distribution Masked Autoencoders for Continual Test-Time Adaptation [49.827306773992376]
連続的テスト時間適応(CTTA)は、ソース事前学習モデルから目標分布の連続的な変化に移行するために提案される。
提案手法は,CTTAタスクの分類とセグメンテーションの両方において,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-12-19T15:34:52Z) - Luring of transferable adversarial perturbations in the black-box
paradigm [0.0]
我々は、ブラックボックス転送攻撃に対するモデルの堅牢性を改善するための新しいアプローチを提案する。
除去可能な追加ニューラルネットワークが対象モデルに含まれており、テクスチャリング効果を誘導するように設計されている。
提案手法は,対象モデルの予測にのみアクセス可能であり,ラベル付きデータセットを必要としない。
論文 参考訳(メタデータ) (2020-04-10T06:48:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。