論文の概要: Rethinking Latency Denial-of-Service: Attacking the LLM Serving Framework, Not the Model
- arxiv url: http://arxiv.org/abs/2602.07878v1
- Date: Sun, 08 Feb 2026 09:05:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.844228
- Title: Rethinking Latency Denial-of-Service: Attacking the LLM Serving Framework, Not the Model
- Title(参考訳): Latency Denial-of-Serviceを再考する: LLM Serving Frameworkをモデルではなく攻撃する
- Authors: Tianyi Wang, Huawei Fan, Yuanchao Shu, Peng Cheng, Cong Wang,
- Abstract要約: 大規模言語モデルは、レイテンシーアタックとして知られる、新しくて重要な脅威に直面します。
推論は本質的に高価であるため、控えめなスローダウンでさえ、相当な運用コストと深刻な可用性リスクに変換される可能性がある。
本研究では,スケジューラの状態遷移をターゲットとした新たなFill and Squeeze攻撃戦略を提案する。
- 参考スコア(独自算出の注目度): 12.046157489400457
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models face an emerging and critical threat known as latency attacks. Because LLM inference is inherently expensive, even modest slowdowns can translate into substantial operating costs and severe availability risks. Recently, a growing body of research has focused on algorithmic complexity attacks by crafting inputs to trigger worst-case output lengths. However, we report a counter-intuitive finding that these algorithmic latency attacks are largely ineffective against modern LLM serving systems. We reveal that system-level optimization such as continuous batching provides a logical isolation to mitigate contagious latency impact on co-located users. To this end, in this paper, we shift the focus from the algorithm to the system layer, and introduce a new Fill and Squeeze attack strategy targeting the state transition of the scheduler. "Fill" first exhausts the global KV cache to induce Head-of-Line blocking, while "Squeeze" forces the system into repetitive preemption. By manipulating output lengths using methods from simple plain-text prompts to more complex prompt engineering, and leveraging side-channel probing of memory status, we demonstrate that the attack can be orchestrated in a black-box setting with much less cost. Extensive evaluations indicate by up to 20-280x average slowdown on Time to First Token and 1.5-4x average slowdown on Time Per Output Token compared to existing attacks with 30-40% lower attack cost.
- Abstract(参考訳): 大規模言語モデルは、レイテンシーアタックとして知られる、新しくて重要な脅威に直面します。
LLM推論は本質的に高価であるため、控えめなスローダウンでさえ、相当な運用コストと深刻な可用性リスクに変換できる。
近年、アルゴリズムによる複雑性攻撃に注目する研究機関が、最悪ケースの出力長をトリガーするインプットを作成している。
しかし、これらのアルゴリズムによる遅延攻撃は、現代のLLMサービスシステムに対してほとんど効果がないという反直感的な発見を報告している。
連続バッチ処理のようなシステムレベルの最適化は、同時配置ユーザに対する感染性の遅延の影響を軽減するための論理的な分離を提供する。
そこで本稿では,スケジューラの状態遷移をターゲットとした新たなFill and Squeeze攻撃戦略を導入する。
Fill"はまずグローバルなKVキャッシュを浪費してヘッド・オブ・ラインのブロッキングを誘導し、"Squeeze"は繰り返しプリエンプションを強制する。
単純な平文プロンプトからより複雑なプロンプトエンジニアリングまでの手法を用いて出力長を演算し、メモリ状態のサイドチャネル探索を活用することにより、攻撃をブラックボックスでより低コストで処理できることを実証する。
大規模評価では、攻撃コストが30~40%低い既存の攻撃と比較して、タイム・トゥ・ファースト・トーケン平均20~280倍、タイム・パー・アウトプット・トーケン平均1.5~4倍のスローダウンを示した。
関連論文リスト
- Probe and Skip: Self-Predictive Token Skipping for Efficient Long-Context LLM Inference [29.81657023400426]
プルーニングやスキップといったトークン指向の手法は、推論レイテンシの低減を約束している。
本研究では,SPTS(Self-Predictive Token Skipping)を提案する。
論文 参考訳(メタデータ) (2026-01-19T15:34:29Z) - HALO: Semantic-Aware Distributed LLM Inference in Lossy Edge Network [50.33808558714122]
エッジでの大規模言語モデル(LLM)推論は、ユーザのプライバシを保護すると同時に、サービスの応答性を促進する。
損失エッジネットワークにおける分散LLM推論を向上する新しいフレームワークであるHALOを提案する。
Raspberry Piクラスタによる実験の結果、HALOは信頼性の低いネットワーク条件下でLLaMAシリーズLLMの3.41倍のエンドツーエンドのスピードアップを達成した。
論文 参考訳(メタデータ) (2026-01-16T07:37:23Z) - SecInfer: Preventing Prompt Injection via Inference-time Scaling [54.21558811232143]
emphSecInferは,インセンジェンス時間スケーリングに基づくインジェクション攻撃に対する新しい防御法である。
SecInferは、既存のインジェクション攻撃と適応的なインジェクション攻撃の両方を効果的に軽減し、最先端の防御と既存の推論時間スケーリングアプローチより優れていることを示す。
論文 参考訳(メタデータ) (2025-09-29T16:00:41Z) - FFN-SkipLLM: A Hidden Gem for Autoregressive Decoding with Adaptive Feed Forward Skipping [49.66872823080736]
自己回帰型大規模言語モデル(LLaMa, GPT)は、言語理解と生成において顕著な成功を収めている。
発生時に発生する過負荷を軽減するため、いくつかの早期退避および層下降戦略が提案されている。
本稿では,入力適応型フィードフォワードスキップ戦略であるFFN-SkipLLMを提案する。
論文 参考訳(メタデータ) (2024-04-05T02:35:43Z) - No-Skim: Towards Efficiency Robustness Evaluation on Skimming-based
Language Models [27.469321590884903]
本研究では,スキー用LLMの所有者が加速スキームのロバスト性を理解し,測定するのを支援するため,No-Skimを提案する。
具体的には,文字レベルおよびトークンレベルにおける最小かつ無意味な摂動を探索し,残りのトークン比を十分に増大させる逆入力を生成する。
最悪の場合、No-Skimが発見した摂動はLLMのランニングコストを平均145%以上増加させる。
論文 参考訳(メタデータ) (2023-12-15T02:42:05Z) - Overload: Latency Attacks on Object Detection for Edge Devices [47.9744734181236]
本稿では,ディープラーニングアプリケーションに対する遅延攻撃について検討する。
誤分類に対する一般的な敵攻撃とは異なり、遅延攻撃の目標は推論時間を増やすことである。
このような攻撃がどのように動作するかを示すために、オブジェクト検出を使用します。
論文 参考訳(メタデータ) (2023-04-11T17:24:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。