論文の概要: Design Patterns for Securing LLM Agents against Prompt Injections
- arxiv url: http://arxiv.org/abs/2506.08837v1
- Date: Tue, 10 Jun 2025 14:23:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:42.576311
- Title: Design Patterns for Securing LLM Agents against Prompt Injections
- Title(参考訳): LLM剤のプロンプト注入防止のための設計パターン
- Authors: Luca Beurer-Kellner, Beat Buesser Ana-Maria Creţu, Edoardo Debenedetti, Daniel Dobos, Daniel Fabian, Marc Fischer, David Froelicher, Kathrin Grosse, Daniel Naeff, Ezinwanne Ozoani, Andrew Paverd, Florian Tramèr, Václav Volhejn,
- Abstract要約: インジェクション攻撃は 自然言語入力に対する エージェントの弾力性を利用してる
本稿では,AIエージェントのインジェクションに対する抵抗性を証明可能な設計パターンのセットを提案する。
- 参考スコア(独自算出の注目度): 26.6158979023607
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As AI agents powered by Large Language Models (LLMs) become increasingly versatile and capable of addressing a broad spectrum of tasks, ensuring their security has become a critical challenge. Among the most pressing threats are prompt injection attacks, which exploit the agent's resilience on natural language inputs -- an especially dangerous threat when agents are granted tool access or handle sensitive information. In this work, we propose a set of principled design patterns for building AI agents with provable resistance to prompt injection. We systematically analyze these patterns, discuss their trade-offs in terms of utility and security, and illustrate their real-world applicability through a series of case studies.
- Abstract(参考訳): LLM(Large Language Models)を利用したAIエージェントは、ますます汎用性が高くなり、幅広いタスクに対処できるようになり、セキュリティが重要な課題になっている。
特に危険な脅威は、自然言語入力に対するエージェントの弾力性を利用するインジェクション攻撃だ。
本研究では,AIエージェントをインジェクションの迅速化に抵抗しうる設計パターンの集合を提案する。
我々はこれらのパターンを体系的に分析し、実用性とセキュリティの観点からそれらのトレードオフを議論し、一連のケーススタディを通して実世界の適用性を説明する。
関連論文リスト
- AGENTFUZZER: Generic Black-Box Fuzzing for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentFuzzerを提案する。
我々はAgentFuzzerをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - Securing Agentic AI: A Comprehensive Threat Model and Mitigation Framework for Generative AI Agents [0.0]
本稿では,GenAIエージェントに特化した包括的脅威モデルを提案する。
研究は、9つの主要な脅威を特定し、5つの主要なドメインにまたがってそれらを整理する。
論文 参考訳(メタデータ) (2025-04-28T16:29:24Z) - Security of AI Agents [5.468745160706382]
システムセキュリティの観点から、AIエージェントの潜在的な脆弱性を特定し、記述する。
本研究では,各脆弱性に対応する防御機構を設計と実験で導入し,その生存性を評価する。
本稿では、現在のAIエージェント開発におけるセキュリティ問題を文脈的に分析し、AIエージェントをより安全で信頼性の高いものにするための方法を解説する。
論文 参考訳(メタデータ) (2024-06-12T23:16:45Z) - On Prompt-Driven Safeguarding for Large Language Models [172.13943777203377]
表現空間では、入力クエリは通常、安全プロンプトによって「より高い拒絶」方向に移動される。
これらの知見に触発されて,安全性向上,すなわちDROの最適化手法を提案する。
安全性プロンプトを継続的かつトレーニング可能な埋め込みとして扱うことで、DROは、その有害性に応じて、クエリの表現を拒否方向に沿ってあるいは反対に移動させることを学ぶ。
論文 参考訳(メタデータ) (2024-01-31T17:28:24Z) - Towards more Practical Threat Models in Artificial Intelligence Security [66.67624011455423]
最近の研究で、人工知能のセキュリティの研究と実践のギャップが特定されている。
我々は、AIセキュリティ研究で最も研究されている6つの攻撃の脅威モデルを再検討し、実際にAIの使用と一致させる。
論文 参考訳(メタデータ) (2023-11-16T16:09:44Z) - The Cybersecurity Crisis of Artificial Intelligence: Unrestrained
Adoption and Natural Language-Based Attacks [0.0]
自己回帰言語モデル(AR-LLM)の広範な統合により、ユニークな拡張性を持つ重要な脆弱性が導入されている。
このコメンタリーでは、これらの脆弱性、攻撃のベクターとしての自然言語への依存、サイバーセキュリティのベストプラクティスへの挑戦を分析します。
論文 参考訳(メタデータ) (2023-09-25T10:48:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。