論文の概要: Air Gap: Protecting Privacy-Conscious Conversational Agents
- arxiv url: http://arxiv.org/abs/2405.05175v1
- Date: Wed, 8 May 2024 16:12:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-09 14:05:10.126826
- Title: Air Gap: Protecting Privacy-Conscious Conversational Agents
- Title(参考訳): Air Gap: プライバシーに配慮した会話エージェントを保護する
- Authors: Eugene Bagdasaryan, Ren Yi, Sahra Ghalebikesabi, Peter Kairouz, Marco Gruteser, Sewoong Oh, Borja Balle, Daniel Ramage,
- Abstract要約: 敵のサードパーティアプリがインタラクションのコンテキストを操作して,LDMベースのエージェントを騙して,そのタスクに関係のない個人情報を明らかにする,新たな脅威モデルを導入する。
本研究では,特定のタスクに必要なデータのみへのアクセスを制限することで,意図しないデータ漏洩を防止するために設計されたプライバシ意識エージェントであるAirGapAgentを紹介する。
- 参考スコア(独自算出の注目度): 44.04662124191715
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The growing use of large language model (LLM)-based conversational agents to manage sensitive user data raises significant privacy concerns. While these agents excel at understanding and acting on context, this capability can be exploited by malicious actors. We introduce a novel threat model where adversarial third-party apps manipulate the context of interaction to trick LLM-based agents into revealing private information not relevant to the task at hand. Grounded in the framework of contextual integrity, we introduce AirGapAgent, a privacy-conscious agent designed to prevent unintended data leakage by restricting the agent's access to only the data necessary for a specific task. Extensive experiments using Gemini, GPT, and Mistral models as agents validate our approach's effectiveness in mitigating this form of context hijacking while maintaining core agent functionality. For example, we show that a single-query context hijacking attack on a Gemini Ultra agent reduces its ability to protect user data from 94% to 45%, while an AirGapAgent achieves 97% protection, rendering the same attack ineffective.
- Abstract(参考訳): 機密性の高いユーザデータを管理するために,大規模言語モデル(LLM)ベースの会話エージェントの利用が増加し,プライバシの懸念が高まっている。
これらのエージェントはコンテキストの理解と行動に優れていますが、悪意のあるアクターによって悪用することができます。
敵のサードパーティアプリがインタラクションのコンテキストを操作して,LDMベースのエージェントを騙して,そのタスクに関係のない個人情報を明らかにする,新たな脅威モデルを導入する。
コンテキスト整合性の枠組みに基づいて,特定のタスクに必要なデータのみへのアクセスを制限することにより,意図しないデータ漏洩を防止するために設計されたプライバシ意識エージェントであるAirGapAgentを紹介する。
Gemini、GPT、Mistralをエージェントとして使用した大規模な実験は、コアエージェント機能を維持しながら、この形式のコンテキストハイジャックを緩和するアプローチの有効性を検証する。
例えば、Gemini Ultraエージェントに対する単一クエリのコンテキストハイジャック攻撃は、ユーザデータを94%から45%に保護する能力を低下させ、AirGapAgentは97%の保護を達成し、同じ攻撃を非効率にすることを示した。
関連論文リスト
- The Task Shield: Enforcing Task Alignment to Defend Against Indirect Prompt Injection in LLM Agents [6.829628038851487]
大きな言語モデル(LLM)エージェントは、ツール統合を通じて複雑な現実世界のタスクを実行できる対話アシスタントとして、ますます多くデプロイされている。
特に間接的なプロンプトインジェクション攻撃は、外部データソースに埋め込まれた悪意のある命令が、エージェントを操作してユーザの意図を逸脱させる、重大な脅威となる。
我々は,エージェントのセキュリティが有害な行為を防止し,タスクアライメントを確保するためには,すべてのエージェントアクションをユーザ目的に役立てる必要がある,という新たな視点を提案する。
論文 参考訳(メタデータ) (2024-12-21T16:17:48Z) - MAIDS: Malicious Agent Identification-based Data Security Model for Cloud Environments [4.568449519496591]
悪意のあるエージェントは、クラウド環境からアウトソースされたデータにアクセスすることができる。
悪意のあるエージェントは、意図的にデータを侵害するエンティティである。
本稿では,MAIDS(Malicious Agent Identification-based Data Security)モデルを提案する。
論文 参考訳(メタデータ) (2024-12-19T03:27:14Z) - Towards Action Hijacking of Large Language Model-based Agent [39.19067800226033]
我々は、ブラックボックスエージェントシステムのアクションプランを操作するための新しいハイジャック攻撃であるNoneを紹介する。
提案手法は, 安全フィルタの平均バイパス率92.7%を達成した。
論文 参考訳(メタデータ) (2024-12-14T12:11:26Z) - PrivAgent: Agentic-based Red-teaming for LLM Privacy Leakage [78.33839735526769]
LLMは、慎重に構築された敵のプロンプトの下で私的情報を出力することに騙される可能性がある。
PrivAgentは、プライバシー漏洩のための新しいブラックボックスレッドチームフレームワークである。
論文 参考訳(メタデータ) (2024-12-07T20:09:01Z) - Privacy Leakage Overshadowed by Views of AI: A Study on Human Oversight of Privacy in Language Model Agent [1.5020330976600738]
個人のタスクを代行する言語モデル(LM)エージェントは生産性を向上するが、意図しないプライバシー漏洩のリスクも受けやすい。
本研究は、LMエージェントのプライバシ含意を監督する人々の能力に関する最初の研究である。
論文 参考訳(メタデータ) (2024-11-02T19:15:42Z) - AgentPoison: Red-teaming LLM Agents via Poisoning Memory or Knowledge Bases [73.04652687616286]
本稿では,RAG とRAG をベースとした LLM エージェントを標的とした最初のバックドア攻撃である AgentPoison を提案する。
従来のバックドア攻撃とは異なり、AgentPoisonは追加のモデルトレーニングや微調整を必要としない。
エージェントごとに、AgentPoisonは平均攻撃成功率を80%以上達成し、良質なパフォーマンスに最小限の影響を与える。
論文 参考訳(メタデータ) (2024-07-17T17:59:47Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z) - InjecAgent: Benchmarking Indirect Prompt Injections in Tool-Integrated Large Language Model Agents [3.5248694676821484]
IPI攻撃に対するツール統合LDMエージェントの脆弱性を評価するためのベンチマークであるInjecAgentを紹介する。
InjecAgentは17の異なるユーザーツールと62の攻撃ツールをカバーする1,054のテストケースで構成されている。
エージェントはIPI攻撃に対して脆弱であり、ReAct-prompted GPT-4は24%の時間攻撃に対して脆弱である。
論文 参考訳(メタデータ) (2024-03-05T06:21:45Z) - Tell Me More! Towards Implicit User Intention Understanding of Language
Model Driven Agents [110.25679611755962]
現在の言語モデル駆動エージェントは、しばしば効果的なユーザ参加のメカニズムを欠いている。
Intention-in-Interaction (IN3) は明示的なクエリを通してユーザの暗黙の意図を検査するための新しいベンチマークである。
私たちは、タスクの曖昧さを積極的に評価し、ユーザの意図を問う強力なモデルであるMistral-Interactを経験的に訓練し、それらを実行可能な目標へと洗練させます。
論文 参考訳(メタデータ) (2024-02-14T14:36:30Z) - Malicious Agent Detection for Robust Multi-Agent Collaborative Perception [52.261231738242266]
多エージェント協調(MAC)知覚は、単エージェント認識よりも敵攻撃に対して脆弱である。
MAC知覚に特異的な反応防御であるMADE(Malicious Agent Detection)を提案する。
我々は、ベンチマーク3DデータセットV2X-simとリアルタイムデータセットDAIR-V2Xで包括的な評価を行う。
論文 参考訳(メタデータ) (2023-10-18T11:36:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。