Fugu-MT 論文翻訳(概要): Simple Prompt Injection Attacks Can Leak Personal Data Observed by LLM Agents During Task Execution

論文の概要: Simple Prompt Injection Attacks Can Leak Personal Data Observed by LLM Agents During Task Execution

arxiv url: http://arxiv.org/abs/2506.01055v1
Date: Sun, 01 Jun 2025 15:48:06 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-04 21:47:33.910378
Title: Simple Prompt Injection Attacks Can Leak Personal Data Observed by LLM Agents During Task Execution
Title（参考訳）: LLMエージェントがタスク実行中に個人データを漏洩する簡単なプロンプトインジェクション攻撃
Authors: Meysam Alizadeh, Zeynab Samei, Daria Stetsenko, Fabrizio Gilardi,
Abstract要約: 本稿では,タスク実行中に観察された個人データをツールコールエージェントが漏出させる要因について検討する。架空の銀行エージェントを使用して、データフローベースの攻撃を開発し、エージェントセキュリティの最近のベンチマークであるAgentDojoに統合します。
参考スコア（独自算出の注目度）: 7.2497315292753415
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Previous benchmarks on prompt injection in large language models (LLMs) have primarily focused on generic tasks and attacks, offering limited insights into more complex threats like data exfiltration. This paper examines how prompt injection can cause tool-calling agents to leak personal data observed during task execution. Using a fictitious banking agent, we develop data flow-based attacks and integrate them into AgentDojo, a recent benchmark for agentic security. To enhance its scope, we also create a richer synthetic dataset of human-AI banking conversations. In 16 user tasks from AgentDojo, LLMs show a 15-50 percentage point drop in utility under attack, with average attack success rates (ASR) around 20 percent; some defenses reduce ASR to zero. Most LLMs, even when successfully tricked by the attack, avoid leaking highly sensitive data like passwords, likely due to safety alignments, but they remain vulnerable to disclosing other personal data. The likelihood of password leakage increases when a password is requested along with one or two additional personal details. In an extended evaluation across 48 tasks, the average ASR is around 15 percent, with no built-in AgentDojo defense fully preventing leakage. Tasks involving data extraction or authorization workflows, which closely resemble the structure of exfiltration attacks, exhibit the highest ASRs, highlighting the interaction between task type, agent performance, and defense efficacy.
Abstract（参考訳）: 大規模な言語モデル(LLM)のプロンプトインジェクションに関する以前のベンチマークは、主に汎用的なタスクとアタックに焦点を当てており、データエクスプロイトのようなより複雑な脅威に対する限定的な洞察を提供している。本稿では,タスク実行中に観察された個人データをツールコールエージェントが漏出させる要因について検討する。架空の銀行エージェントを使用して、データフローベースの攻撃を開発し、エージェントセキュリティの最近のベンチマークであるAgentDojoに統合します。また、その範囲を拡大するため、人間-AIバンキングの会話のよりリッチな合成データセットを作成する。 AgentDojoの16のユーザタスクでは、LLMは15～50パーセントのユーティリティ低下を示し、平均攻撃成功率(ASR)は約20%である。ほとんどのLSMは、攻撃にうまく騙されたとしても、パスワードのような機密性の高いデータをリークするのを避ける。パスワードリークの可能性は、パスワードが1つまたは2つの追加の個人情報と共に要求されるときに増加する。 48タスクにわたる拡張評価では、平均的なASRは約15%であり、組み込みのAgentDojo防御が完全に漏洩を防ぐことはない。データ抽出や認可ワークフローを含むタスクは、流出攻撃の構造によく似ているが、最も高いASRを示し、タスクタイプ、エージェントパフォーマンス、防御効果の相互作用を強調している。

関連論文リスト

Security Challenges in AI Agent Deployment: Insights from a Large Scale Public Competition [101.86739402748995]
44の現実的なデプロイメントシナリオを対象とした,22のフロンティアAIエージェントを対象にしています。 Agent Red Teamingベンチマークを構築し、19の最先端モデルで評価します。私たちの発見は、今日のAIエージェントの重要かつ永続的な脆弱性を浮き彫りにしたものです。
論文参考訳（メタデータ） (2025-07-28T05:13:04Z)
AGENTFUZZER: Generic Black-Box Fuzzing for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジィングフレームワークであるAgentXploitを提案する。我々は、AgentXploitをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文参考訳（メタデータ） (2025-05-09T07:40:17Z)
StruPhantom: Evolutionary Injection Attacks on Black-Box Tabular Agents Powered by Large Language Models [25.579489111240136]
ブラックボックスLSMを用いた表型エージェントを対象とするStruPhantomという新たな攻撃手法を提案する。我々の攻撃は、フィッシングリンクや悪意のあるコードを含むアプリケーションの応答を強制する上で、ベースラインよりも50%以上の成功率を達成する。
論文参考訳（メタデータ） (2025-04-14T03:22:04Z)
Defeating Prompt Injections by Design [79.00910871948787]
CaMeLは、Large Language Models (LLMs) を中心とした保護システムレイヤを作成する堅牢な防御機能である。 CaMeLは、(信頼された)クエリから制御とデータフローを明示的に抽出する。最近のエージェントセキュリティベンチマークであるAgentDojo[NeurIPS 2024]で、証明可能なセキュリティを備えた67%のタスクを解決し、CaMeLの有効性を実証した。
論文参考訳（メタデータ） (2025-03-24T15:54:10Z)
A Practical Memory Injection Attack against LLM Agents [49.01756339657071]
MINJAは、クエリと出力観察を通してエージェントとのみ対話することで、悪意のあるレコードをメモリバンクに注入することができる。 MINJAは、任意のユーザがエージェントメモリに影響を与え、LLMエージェントの実践的なリスクを強調します。
論文参考訳（メタデータ） (2025-03-05T17:53:24Z)
MELON: Provable Indirect Prompt Injection Defense via Masked Re-execution and Tool Comparison [60.30753230776882]
LLMエージェントは間接的プロンプトインジェクション(IPI)攻撃に対して脆弱であり、ツール検索情報に埋め込まれた悪意のあるタスクはエージェントをリダイレクトして不正なアクションを取ることができる。マスク機能によって修正されたマスク付きユーザでエージェントの軌道を再実行することで攻撃を検知する新しいIPIディフェンスであるMELONを提案する。
論文参考訳（メタデータ） (2025-02-07T18:57:49Z)
The Task Shield: Enforcing Task Alignment to Defend Against Indirect Prompt Injection in LLM Agents [6.829628038851487]
大きな言語モデル(LLM)エージェントは、ツール統合を通じて複雑な現実世界のタスクを実行できる対話アシスタントとして、ますます多くデプロイされている。特に間接的なプロンプトインジェクション攻撃は、外部データソースに埋め込まれた悪意のある命令が、エージェントを操作してユーザの意図を逸脱させる、重大な脅威となる。我々は,エージェントのセキュリティが有害な行為を防止し,タスクアライメントを確保するためには,すべてのエージェントアクションをユーザ目的に役立てる必要がある,という新たな視点を提案する。
論文参考訳（メタデータ） (2024-12-21T16:17:48Z)
AgentDojo: A Dynamic Environment to Evaluate Prompt Injection Attacks and Defenses for LLM Agents [27.701301913159067]
我々は、信頼できないデータ上でツールを実行するエージェントの評価フレームワークであるAgentDojoを紹介した。 AgentDojoは静的テストスイートではなく、新しいエージェントタスク、ディフェンス、アダプティブアタックを設計、評価するための環境である。 AgentDojoには97の現実的なタスク、629のセキュリティテストケースと、文献からのさまざまな攻撃および防御パラダイムが組み込まれています。
論文参考訳（メタデータ） (2024-06-19T08:55:56Z)
Air Gap: Protecting Privacy-Conscious Conversational Agents [44.04662124191715]
敵のサードパーティアプリがインタラクションのコンテキストを操作して,LDMベースのエージェントを騙して,そのタスクに関係のない個人情報を明らかにする,新たな脅威モデルを導入する。本研究では,特定のタスクに必要なデータのみへのアクセスを制限することで,意図しないデータ漏洩を防止するために設計されたプライバシ意識エージェントであるAirGapAgentを紹介する。
論文参考訳（メタデータ） (2024-05-08T16:12:45Z)
InjecAgent: Benchmarking Indirect Prompt Injections in Tool-Integrated Large Language Model Agents [3.5248694676821484]
IPI攻撃に対するツール統合LDMエージェントの脆弱性を評価するためのベンチマークであるInjecAgentを紹介する。 InjecAgentは17の異なるユーザーツールと62の攻撃ツールをカバーする1,054のテストケースで構成されている。エージェントはIPI攻撃に対して脆弱であり、ReAct-prompted GPT-4は24%の時間攻撃に対して脆弱である。
論文参考訳（メタデータ） (2024-03-05T06:21:45Z)
Tensor Trust: Interpretable Prompt Injection Attacks from an Online Game [86.66627242073724]
本稿では,126,000以上のプロンプトインジェクションと46,000以上のプロンプトベースのプロンプトインジェクションに対する「防御」のデータセットを提案する。我々の知る限り、これは現在、命令追従 LLM に対する人間生成の敵例の最大のデータセットである。また、データセットを使用して、2種類のプロンプトインジェクションに対する耐性のベンチマークを作成し、これをプロンプト抽出とプロンプトハイジャックと呼ぶ。
論文参考訳（メタデータ） (2023-11-02T06:13:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。