論文の概要: Simple Prompt Injection Attacks Can Leak Personal Data Observed by LLM Agents During Task Execution
- arxiv url: http://arxiv.org/abs/2506.01055v1
- Date: Sun, 01 Jun 2025 15:48:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.910378
- Title: Simple Prompt Injection Attacks Can Leak Personal Data Observed by LLM Agents During Task Execution
- Title(参考訳): LLMエージェントがタスク実行中に個人データを漏洩する簡単なプロンプトインジェクション攻撃
- Authors: Meysam Alizadeh, Zeynab Samei, Daria Stetsenko, Fabrizio Gilardi,
- Abstract要約: 本稿では,タスク実行中に観察された個人データをツールコールエージェントが漏出させる要因について検討する。
架空の銀行エージェントを使用して、データフローベースの攻撃を開発し、エージェントセキュリティの最近のベンチマークであるAgentDojoに統合します。
- 参考スコア(独自算出の注目度): 7.2497315292753415
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Previous benchmarks on prompt injection in large language models (LLMs) have primarily focused on generic tasks and attacks, offering limited insights into more complex threats like data exfiltration. This paper examines how prompt injection can cause tool-calling agents to leak personal data observed during task execution. Using a fictitious banking agent, we develop data flow-based attacks and integrate them into AgentDojo, a recent benchmark for agentic security. To enhance its scope, we also create a richer synthetic dataset of human-AI banking conversations. In 16 user tasks from AgentDojo, LLMs show a 15-50 percentage point drop in utility under attack, with average attack success rates (ASR) around 20 percent; some defenses reduce ASR to zero. Most LLMs, even when successfully tricked by the attack, avoid leaking highly sensitive data like passwords, likely due to safety alignments, but they remain vulnerable to disclosing other personal data. The likelihood of password leakage increases when a password is requested along with one or two additional personal details. In an extended evaluation across 48 tasks, the average ASR is around 15 percent, with no built-in AgentDojo defense fully preventing leakage. Tasks involving data extraction or authorization workflows, which closely resemble the structure of exfiltration attacks, exhibit the highest ASRs, highlighting the interaction between task type, agent performance, and defense efficacy.
- Abstract(参考訳): 大規模な言語モデル(LLM)のプロンプトインジェクションに関する以前のベンチマークは、主に汎用的なタスクとアタックに焦点を当てており、データエクスプロイトのようなより複雑な脅威に対する限定的な洞察を提供している。
本稿では,タスク実行中に観察された個人データをツールコールエージェントが漏出させる要因について検討する。
架空の銀行エージェントを使用して、データフローベースの攻撃を開発し、エージェントセキュリティの最近のベンチマークであるAgentDojoに統合します。
また、その範囲を拡大するため、人間-AIバンキングの会話のよりリッチな合成データセットを作成する。
AgentDojoの16のユーザタスクでは、LLMは15~50パーセントのユーティリティ低下を示し、平均攻撃成功率(ASR)は約20%である。
ほとんどのLSMは、攻撃にうまく騙されたとしても、パスワードのような機密性の高いデータをリークするのを避ける。
パスワードリークの可能性は、パスワードが1つまたは2つの追加の個人情報と共に要求されるときに増加する。
48タスクにわたる拡張評価では、平均的なASRは約15%であり、組み込みのAgentDojo防御が完全に漏洩を防ぐことはない。
データ抽出や認可ワークフローを含むタスクは、流出攻撃の構造によく似ているが、最も高いASRを示し、タスクタイプ、エージェントパフォーマンス、防御効果の相互作用を強調している。
関連論文リスト
- AGENTFUZZER: Generic Black-Box Fuzzing for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジィングフレームワークであるAgentXploitを提案する。
我々は、AgentXploitをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - Defeating Prompt Injections by Design [79.00910871948787]
CaMeLは、Large Language Models (LLMs) を中心とした保護システムレイヤを作成する堅牢な防御機能である。
CaMeLは、(信頼された)クエリから制御とデータフローを明示的に抽出する。
最近のエージェントセキュリティベンチマークであるAgentDojo[NeurIPS 2024]で、証明可能なセキュリティを備えた67%のタスクを解決し、CaMeLの有効性を実証した。
論文 参考訳(メタデータ) (2025-03-24T15:54:10Z) - MELON: Provable Indirect Prompt Injection Defense via Masked Re-execution and Tool Comparison [60.30753230776882]
LLMエージェントは間接的プロンプトインジェクション(IPI)攻撃に対して脆弱であり、ツール検索情報に埋め込まれた悪意のあるタスクはエージェントをリダイレクトして不正なアクションを取ることができる。
マスク機能によって修正されたマスク付きユーザでエージェントの軌道を再実行することで攻撃を検知する新しいIPIディフェンスであるMELONを提案する。
論文 参考訳(メタデータ) (2025-02-07T18:57:49Z) - AgentDojo: A Dynamic Environment to Evaluate Prompt Injection Attacks and Defenses for LLM Agents [27.701301913159067]
我々は、信頼できないデータ上でツールを実行するエージェントの評価フレームワークであるAgentDojoを紹介した。
AgentDojoは静的テストスイートではなく、新しいエージェントタスク、ディフェンス、アダプティブアタックを設計、評価するための環境である。
AgentDojoには97の現実的なタスク、629のセキュリティテストケースと、文献からのさまざまな攻撃および防御パラダイムが組み込まれています。
論文 参考訳(メタデータ) (2024-06-19T08:55:56Z) - InjecAgent: Benchmarking Indirect Prompt Injections in Tool-Integrated Large Language Model Agents [3.5248694676821484]
IPI攻撃に対するツール統合LDMエージェントの脆弱性を評価するためのベンチマークであるInjecAgentを紹介する。
InjecAgentは17の異なるユーザーツールと62の攻撃ツールをカバーする1,054のテストケースで構成されている。
エージェントはIPI攻撃に対して脆弱であり、ReAct-prompted GPT-4は24%の時間攻撃に対して脆弱である。
論文 参考訳(メタデータ) (2024-03-05T06:21:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。