論文の概要: Taxonomy, Evaluation and Exploitation of IPI-Centric LLM Agent Defense Frameworks
- arxiv url: http://arxiv.org/abs/2511.15203v1
- Date: Wed, 19 Nov 2025 07:47:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.691184
- Title: Taxonomy, Evaluation and Exploitation of IPI-Centric LLM Agent Defense Frameworks
- Title(参考訳): IPI-Centric LLMエージェント防衛フレームワークの分類・評価・爆発
- Authors: Zimo Ji, Xunguang Wang, Zongjie Li, Pingchuan Ma, Yudong Gao, Daoyuan Wu, Xincheng Yan, Tian Tian, Shuai Wang,
- Abstract要約: IPI中心の防衛フレームワークを包括的に分析する。
我々は、これらの防衛を包括的に分類し、5次元で分類する。
次に、代表的防衛フレームワークのセキュリティとユーザビリティを徹底的に評価する。
- 参考スコア(独自算出の注目度): 14.131197965001988
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Model (LLM)-based agents with function-calling capabilities are increasingly deployed, but remain vulnerable to Indirect Prompt Injection (IPI) attacks that hijack their tool calls. In response, numerous IPI-centric defense frameworks have emerged. However, these defenses are fragmented, lacking a unified taxonomy and comprehensive evaluation. In this Systematization of Knowledge (SoK), we present the first comprehensive analysis of IPI-centric defense frameworks. We introduce a comprehensive taxonomy of these defenses, classifying them along five dimensions. We then thoroughly assess the security and usability of representative defense frameworks. Through analysis of defensive failures in the assessment, we identify six root causes of defense circumvention. Based on these findings, we design three novel adaptive attacks that significantly improve attack success rates targeting specific frameworks, demonstrating the severity of the flaws in these defenses. Our paper provides a foundation and critical insights for the future development of more secure and usable IPI-centric agent defense frameworks.
- Abstract(参考訳): 関数呼び出し機能を備えたLLM(Large Language Model)ベースのエージェントはますますデプロイされるが、ツールコールをハイジャックするIPI(Indirect Prompt Injection)攻撃に弱いままである。
これに対して、ITI中心の防衛フレームワークが数多く出現している。
しかし、これらの防御は断片化され、統一された分類学と包括的な評価が欠如している。
The Systematization of Knowledge (SoK)では、IPI中心の防衛フレームワークを包括的に分析する。
我々は、これらの防衛を包括的に分類し、5次元で分類する。
次に、代表的防衛フレームワークのセキュリティとユーザビリティを徹底的に評価する。
評価における防御障害の分析を通じて,防衛回避の根本原因を6つ同定した。
これらの知見に基づいて,攻撃成功率を大幅に向上させる3つの新たな適応攻撃を設計し,これらの防御における欠陥の深刻さを実証した。
本稿は、よりセキュアで使用可能なIPI中心のエージェント防衛フレームワークの開発に向けた基礎的かつ重要な知見を提供する。
関連論文リスト
- SoK: The Last Line of Defense: On Backdoor Defense Evaluation [21.126129826672894]
バックドア攻撃は、悪意のある入力によってアクティベート可能な隠れた脆弱性を埋め込むことで、ディープラーニングモデルに重大な脅威をもたらす。
本研究は,総合的な文献レビューと実証的評価を通じて,バックドアディフェンスの系統的(メタ-)分析を行う。
私たちは2018年から2025年にかけて発行された183件のバックドア・ディフェンス・ペーパーを分析した。
論文 参考訳(メタデータ) (2025-11-17T08:51:18Z) - A Survey on Model Extraction Attacks and Defenses for Large Language Models [55.60375624503877]
モデル抽出攻撃は、デプロイされた言語モデルに重大なセキュリティ脅威をもたらす。
この調査は、抽出攻撃と防御攻撃の包括的分類、機能抽出への攻撃の分類、データ抽出の訓練、およびプロンプトターゲット攻撃を提供する。
モデル保護,データプライバシ保護,迅速なターゲット戦略に編成された防御機構について検討し,その効果を異なる展開シナリオで評価する。
論文 参考訳(メタデータ) (2025-06-26T22:02:01Z) - Benchmarking Misuse Mitigation Against Covert Adversaries [80.74502950627736]
既存の言語モデルの安全性評価は、オーバースト攻撃と低レベルのタスクに重点を置いている。
我々は、隠蔽攻撃と対応する防御の評価を自動化するデータ生成パイプラインである、ステートフルディフェンスのためのベンチマーク(BSD)を開発した。
評価の結果,分解攻撃は有効な誤用防止剤であり,その対策としてステートフルディフェンスを強調した。
論文 参考訳(メタデータ) (2025-06-06T17:33:33Z) - A Critical Evaluation of Defenses against Prompt Injection Attacks [95.81023801370073]
大型言語モデル (LLM) はインジェクション攻撃に弱い。
いくつかの防衛策が提案され、しばしばこれらの攻撃をうまく緩和すると主張した。
既存の研究は、これらの防衛を評価するための原則的なアプローチを欠いていると論じる。
論文 参考訳(メタデータ) (2025-05-23T19:39:56Z) - LLM Security: Vulnerabilities, Attacks, Defenses, and Countermeasures [49.1574468325115]
本調査は,大規模言語モデル(LLM)を対象とした各種攻撃を定義し,分類することを目的とする。
これらの攻撃を徹底的に分析し、そのような脅威を軽減するために設計された防御機構を探索する。
論文 参考訳(メタデータ) (2025-05-02T10:35:26Z) - Decoding FL Defenses: Systemization, Pitfalls, and Remedies [16.907513505608666]
FL(Federated Learning)のディフェンスを評価するためのガイドラインはありません。
FLディフェンスの総合的なシステム化を3次元に沿って設計する。
我々は,トップレベル防衛紙50点を調査し,それらの評価設定でよく使用されるコンポーネントを特定した。
論文 参考訳(メタデータ) (2025-02-03T23:14:02Z) - The VLLM Safety Paradox: Dual Ease in Jailbreak Attack and Defense [56.32083100401117]
Vision Large Language Models(VLLMs)のジェイルブレイク攻撃に対する脆弱性は、驚くにあたらない。
これらの攻撃に対する最近の防御機構は、ベンチマーク評価においてほぼ飽和状態に達している。
論文 参考訳(メタデータ) (2024-11-13T07:57:19Z) - Randomness in ML Defenses Helps Persistent Attackers and Hinders
Evaluators [49.52538232104449]
堅牢なMLディフェンスを設計することがますます重要になっている。
近年の研究では、当初最先端の攻撃に抵抗する多くの防衛は、適応的な敵によって破壊される可能性があることが判明している。
我々は、防御設計をシンプルにし、ホワイトボックスの防御は可能な限りランダム性を損なうべきだと論じる。
論文 参考訳(メタデータ) (2023-02-27T01:33:31Z) - A Comprehensive Evaluation Framework for Deep Model Robustness [44.20580847861682]
ディープニューラルネットワーク(DNN)は、幅広いアプリケーションで顕著なパフォーマンスを達成しています。
彼らは敵の防御を動機付ける敵の例に弱い。
本稿では,包括的で厳密で一貫性のある評価指標を含むモデル評価フレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-24T01:04:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。