Fugu-MT 論文翻訳(概要): Rethinking Latency Denial-of-Service: Attacking the LLM Serving Framework, Not the Model

論文の概要: Rethinking Latency Denial-of-Service: Attacking the LLM Serving Framework, Not the Model

arxiv url: http://arxiv.org/abs/2602.07878v1
Date: Sun, 08 Feb 2026 09:05:54 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-10 20:26:24.844228
Title: Rethinking Latency Denial-of-Service: Attacking the LLM Serving Framework, Not the Model
Title（参考訳）: Latency Denial-of-Serviceを再考する: LLM Serving Frameworkをモデルではなく攻撃する
Authors: Tianyi Wang, Huawei Fan, Yuanchao Shu, Peng Cheng, Cong Wang,
Abstract要約: 大規模言語モデルは、レイテンシーアタックとして知られる、新しくて重要な脅威に直面します。推論は本質的に高価であるため、控えめなスローダウンでさえ、相当な運用コストと深刻な可用性リスクに変換される可能性がある。本研究では,スケジューラの状態遷移をターゲットとした新たなFill and Squeeze攻撃戦略を提案する。
参考スコア（独自算出の注目度）: 12.046157489400457
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models face an emerging and critical threat known as latency attacks. Because LLM inference is inherently expensive, even modest slowdowns can translate into substantial operating costs and severe availability risks. Recently, a growing body of research has focused on algorithmic complexity attacks by crafting inputs to trigger worst-case output lengths. However, we report a counter-intuitive finding that these algorithmic latency attacks are largely ineffective against modern LLM serving systems. We reveal that system-level optimization such as continuous batching provides a logical isolation to mitigate contagious latency impact on co-located users. To this end, in this paper, we shift the focus from the algorithm to the system layer, and introduce a new Fill and Squeeze attack strategy targeting the state transition of the scheduler. "Fill" first exhausts the global KV cache to induce Head-of-Line blocking, while "Squeeze" forces the system into repetitive preemption. By manipulating output lengths using methods from simple plain-text prompts to more complex prompt engineering, and leveraging side-channel probing of memory status, we demonstrate that the attack can be orchestrated in a black-box setting with much less cost. Extensive evaluations indicate by up to 20-280x average slowdown on Time to First Token and 1.5-4x average slowdown on Time Per Output Token compared to existing attacks with 30-40% lower attack cost.
Abstract（参考訳）: 大規模言語モデルは、レイテンシーアタックとして知られる、新しくて重要な脅威に直面します。 LLM推論は本質的に高価であるため、控えめなスローダウンでさえ、相当な運用コストと深刻な可用性リスクに変換できる。近年、アルゴリズムによる複雑性攻撃に注目する研究機関が、最悪ケースの出力長をトリガーするインプットを作成している。しかし、これらのアルゴリズムによる遅延攻撃は、現代のLLMサービスシステムに対してほとんど効果がないという反直感的な発見を報告している。連続バッチ処理のようなシステムレベルの最適化は、同時配置ユーザに対する感染性の遅延の影響を軽減するための論理的な分離を提供する。そこで本稿では,スケジューラの状態遷移をターゲットとした新たなFill and Squeeze攻撃戦略を導入する。 Fill"はまずグローバルなKVキャッシュを浪費してヘッド・オブ・ラインのブロッキングを誘導し、"Squeeze"は繰り返しプリエンプションを強制する。単純な平文プロンプトからより複雑なプロンプトエンジニアリングまでの手法を用いて出力長を演算し、メモリ状態のサイドチャネル探索を活用することにより、攻撃をブラックボックスでより低コストで処理できることを実証する。大規模評価では、攻撃コストが30～40%低い既存の攻撃と比較して、タイム・トゥ・ファースト・トーケン平均20～280倍、タイム・パー・アウトプット・トーケン平均1.5～4倍のスローダウンを示した。

関連論文リスト

DualSentinel: A Lightweight Framework for Detecting Targeted Attacks in Black-box LLM via Dual Entropy Lull Pattern [23.834578989358423]
軽量で統一された防衛フレームワークであるDualSentinelを紹介する。大規模言語モデル生成プロセスと共にターゲット攻撃のアクティベートを正確かつ迅速に検出することができる。それは非常に効果的(ほぼゼロの偽陽性による事前検出精度)で、非常に効率的(無視できる追加コスト)である。
論文参考訳（メタデータ） (2026-03-02T08:02:47Z)
Time Is All It Takes: Spike-Retiming Attacks on Event-Driven Spiking Neural Networks [87.16809558673403]
スパイキングニューラルネットワーク(SNN)は離散スパイクで計算し、時間構造を利用する。イベント駆動SNNにおけるスパイク数と振幅を保存しながら、既存のスパイクを繰り返すタイミングのみの敵について検討する。
論文参考訳（メタデータ） (2026-02-03T09:06:53Z)
Probe and Skip: Self-Predictive Token Skipping for Efficient Long-Context LLM Inference [29.81657023400426]
プルーニングやスキップといったトークン指向の手法は、推論レイテンシの低減を約束している。本研究では,SPTS(Self-Predictive Token Skipping)を提案する。
論文参考訳（メタデータ） (2026-01-19T15:34:29Z)
HALO: Semantic-Aware Distributed LLM Inference in Lossy Edge Network [50.33808558714122]
エッジでの大規模言語モデル(LLM)推論は、ユーザのプライバシを保護すると同時に、サービスの応答性を促進する。損失エッジネットワークにおける分散LLM推論を向上する新しいフレームワークであるHALOを提案する。 Raspberry Piクラスタによる実験の結果、HALOは信頼性の低いネットワーク条件下でLLaMAシリーズLLMの3.41倍のエンドツーエンドのスピードアップを達成した。
論文参考訳（メタデータ） (2026-01-16T07:37:23Z)
Behavior-Equivalent Token: Single-Token Replacement for Long Prompts in LLMs [55.827877498548965]
単一プロンプト固有の振る舞い等価トークン([BE])を学習する軽量なトレーニングフレームワークを提案する。フレームワークはまず[BE]に、元のシステムプロンプトの自然言語内容を再構成してエンコードし、その後、プロンプトの下流の振る舞いをこの単一のトークンに蒸留するように訓練する。 3つのデータセットに対する実証的な評価は、1つの[BE]トークンが3000倍の高速化を実現し、元のシステムの下流性能の約98%を維持していることを示している。
論文参考訳（メタデータ） (2025-11-28T15:22:52Z)
SecInfer: Preventing Prompt Injection via Inference-time Scaling [54.21558811232143]
emphSecInferは,インセンジェンス時間スケーリングに基づくインジェクション攻撃に対する新しい防御法である。 SecInferは、既存のインジェクション攻撃と適応的なインジェクション攻撃の両方を効果的に軽減し、最先端の防御と既存の推論時間スケーリングアプローチより優れていることを示す。
論文参考訳（メタデータ） (2025-09-29T16:00:41Z)
FFN-SkipLLM: A Hidden Gem for Autoregressive Decoding with Adaptive Feed Forward Skipping [49.66872823080736]
自己回帰型大規模言語モデル(LLaMa, GPT)は、言語理解と生成において顕著な成功を収めている。発生時に発生する過負荷を軽減するため、いくつかの早期退避および層下降戦略が提案されている。本稿では,入力適応型フィードフォワードスキップ戦略であるFFN-SkipLLMを提案する。
論文参考訳（メタデータ） (2024-04-05T02:35:43Z)
Attacking Large Language Models with Projected Gradient Descent [49.19426387912186]
逆数プロンプトの射影勾配 Descent (PGD) は、最先端の離散最適化よりも最大1桁高速である。我々のLPM用PGDは、同じ破壊的な攻撃結果を達成するために、最先端の離散最適化よりも最大1桁高速である。
論文参考訳（メタデータ） (2024-02-14T13:13:26Z)
No-Skim: Towards Efficiency Robustness Evaluation on Skimming-based Language Models [27.469321590884903]
本研究では,スキー用LLMの所有者が加速スキームのロバスト性を理解し,測定するのを支援するため,No-Skimを提案する。具体的には,文字レベルおよびトークンレベルにおける最小かつ無意味な摂動を探索し,残りのトークン比を十分に増大させる逆入力を生成する。最悪の場合、No-Skimが発見した摂動はLLMのランニングコストを平均145%以上増加させる。
論文参考訳（メタデータ） (2023-12-15T02:42:05Z)
Overload: Latency Attacks on Object Detection for Edge Devices [47.9744734181236]
本稿では,ディープラーニングアプリケーションに対する遅延攻撃について検討する。誤分類に対する一般的な敵攻撃とは異なり、遅延攻撃の目標は推論時間を増やすことである。このような攻撃がどのように動作するかを示すために、オブジェクト検出を使用します。
論文参考訳（メタデータ） (2023-04-11T17:24:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。