論文の概要: Continuous Discovery of Vulnerabilities in LLM Serving Systems with Fuzzing
- arxiv url: http://arxiv.org/abs/2605.11202v1
- Date: Mon, 11 May 2026 20:10:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.401624
- Title: Continuous Discovery of Vulnerabilities in LLM Serving Systems with Fuzzing
- Title(参考訳): ファジィを用いたLDMサービングシステムにおける脆弱性の連続発見
- Authors: Yunze Zhao, Yibo Zhao, Yuchen Zhang, Zaoxing Liu, Michelle L. Mazurek,
- Abstract要約: 本稿では,LLM推論エンジン用のグレーボックスファザであるGRIEFについて述べる。
vLLMとLangに関する初期のキャンペーンで、GRIEFは15の脆弱性を発見し、2つのCVE、KV-cache分離障害、クロスリクエストパフォーマンス干渉、クラッシュまたはライブネスバグを含む10のエンジン開発者によって確認された。
- 参考スコア(独自算出の注目度): 17.965821693370625
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM inference and serving systems have become security-critical infrastructure; however, many of their most concerning failures arise from the serving layer rather than from model behavior alone. Modern inference engines combine KV cache, batching, prefix sharing, speculative decoding, adapters, and multi-tenant scheduling, creating shared-state behavior that only emerges under realistic concurrent workloads and is missed by standard model, safety, and API tests. We present GRIEF, a greybox fuzzer for LLM inference engines that treats timed multi-request traces as first-class inputs, uses lightweight oracles to detect crashes, hangs, performance pathologies, and silent output corruption, and applies controlled replay with log-probability checks to confirm reproducible serving-layer failures. Across early campaigns on vLLM and SGLang, GRIEF discovers 15 vulnerabilities, 10 confirmed by engine developers, including 2 CVEs, spanning KV-cache isolation failures, cross-request performance interference, and crash or liveness bugs. These results show that concurrency, caching, and state reuse can induce silent cross-request contamination, noisy-neighbor denial of service, and delayed crashes without malformed inputs or explicit server errors, making concurrent serving behavior a first-class security and reliability boundary for LLM infrastructure.
- Abstract(参考訳): LLM推論とサービス提供システムは、セキュリティクリティカルなインフラとなっているが、最も関係の深い障害の多くは、モデル動作のみからではなく、サービス層から発生している。
現代的な推論エンジンは、KVキャッシュ、バッチ処理、プレフィックス共有、投機的デコーディング、アダプタ、マルチテナントスケジューリングを組み合わせることで、現実的な並列ワークロード下でのみ発生し、標準モデル、安全性、APIテストによって見逃される共有状態の振る舞いを生成する。
本稿では,LLM推論エンジン用のグレーボックスファズーであるGRIEFを,タイムドマルチリクエストトレースを第1級入力として扱い,クラッシュ,ハング,パフォーマンスパス,サイレントアウトプットの破損を検出するために軽量のオーラクルを使用し,再現性のあるサービス層障害を確認するためにログ確率チェックによる制御されたリプレイを適用した。
vLLMとSGLangに関する初期のキャンペーンで、GRIEFは15の脆弱性を発見し、2つのCVE、KV-cache分離障害、クロスリクエストパフォーマンス干渉、クラッシュまたはライブネスバグを含む10のエンジン開発者によって確認された。
これらの結果から, 並行処理, キャッシュ, 状態再利用は, LLMインフラストラクチャのセキュリティと信頼性の第一級境界となるように, 異常な入力や明示的なサーバエラーを伴わずに, サイレントなクロスリクエスト汚染, ノイズに隣接するサービス拒否, 遅延クラッシュを発生させる可能性が示唆された。
関連論文リスト
- The Cognitive Circuit Breaker: A Systems Engineering Framework for Intrinsic AI Reliability [0.0]
大規模言語モデル(LLM)は、ミッションクリティカルなソフトウェアシステムにますます多くデプロイされている。
本稿では,遅延のオーバーヘッドを最小限に抑えた本質的な信頼性監視を実現する,新しいシステムエンジニアリングフレームワークであるCognitive Circuit Breakerを提案する。
本稿では,認知的不協和の統計的に有意な検出,アーキテクチャに依存したout-of-Distribution(OOD)の一般化,およびこのフレームワークがアクティブな推論パイプラインに無視可能な計算オーバーヘッドを付加することを示す。
論文 参考訳(メタデータ) (2026-04-15T02:34:37Z) - RealSec-bench: A Benchmark for Evaluating Secure Code Generation in Real-World Repositories [58.32028251925354]
LLM(Large Language Models)は、コード生成において顕著な能力を示しているが、セキュアなコードを生成する能力は依然として重要で、未調査の領域である。
我々はRealSec-benchを紹介します。RealSec-benchは、現実世界の高リスクなJavaリポジトリから慎重に構築されたセキュアなコード生成のための新しいベンチマークです。
論文 参考訳(メタデータ) (2026-01-30T08:29:01Z) - Why Does the LLM Stop Computing: An Empirical Study of User-Reported Failures in Open-Source LLMs [50.075587392477935]
オープンソースのDeepSeek、Llama、Qwenのエコシステムから、705の現実世界の失敗に関する大規模な実証的研究を行った。
ホワイトボックスオーケストレーションは、モデルアルゴリズムの欠陥からデプロイメントスタックのシステム的脆弱性へと、信頼性のボトルネックを移動させます。
論文 参考訳(メタデータ) (2026-01-20T06:42:56Z) - LatencyPrism: Online Non-intrusive Latency Sculpting for SLO-Guaranteed LLM Inference [1.280379756275477]
我々は,最初のゼロ侵入型マルチプラットフォーム遅延推論システムPrismを提示する。
パイプライン全体のレイテンシの彫刻を分解し、予測異常を積極的に警告し、コードやサービスの再起動を必要とせずにSLOへの準拠を保証することを目的としている。
我々は、根本原因分析に関する広範な実験と調査を行い、Prismの能力を実証する。
論文 参考訳(メタデータ) (2026-01-14T07:46:59Z) - DRIFT: Dynamic Rule-Based Defense with Injection Isolation for Securing LLM Agents [52.92354372596197]
大規模言語モデル(LLM)は、強力な推論と計画能力のため、エージェントシステムの中心となってきています。
この相互作用は、外部ソースからの悪意のある入力がエージェントの振る舞いを誤解させる可能性がある、インジェクション攻撃のリスクも引き起こす。
本稿では,信頼に値するエージェントシステムのための動的ルールベースの分離フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-13T05:01:09Z) - Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding [51.711605076319216]
拡散に基づく大規模言語モデル (Diffusion LLM) は、並列復号機能を持つ非自己回帰テキスト生成を約束している。
本稿では,双方向拡散モデルに適したブロック単位で近似したKVキャッシュ機構を提案する。
本稿では,信頼しきい値を超えるトークンを選択的に復号し,依存関係違反を軽減し,生成品質を維持できる信頼度対応並列復号方式を提案する。
論文 参考訳(メタデータ) (2025-05-28T17:39:15Z) - FLAC: Practical Failure-Aware Atomic Commit Protocol for Distributed
Transactions [27.20381433013882]
FLAC(Failure-Aware Atomic Commit)は、3つの異なる環境向けに設計されている。
FLACは障害が発生したかどうかを監視し、最も適切なサブプロトコルを操作するように切り替える。
最大2.22倍のスループット向上と2.82倍のレイテンシ高速化を実現している。
論文 参考訳(メタデータ) (2023-02-09T08:52:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。