論文の概要: Searching for Privacy Risks in LLM Agents via Simulation
- arxiv url: http://arxiv.org/abs/2508.10880v1
- Date: Thu, 14 Aug 2025 17:49:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.441487
- Title: Searching for Privacy Risks in LLM Agents via Simulation
- Title(参考訳): シミュレーションによるLLMエージェントのプライバシーリスクの探索
- Authors: Yanzhe Zhang, Diyi Yang,
- Abstract要約: 本稿では、プライバシクリティカルなエージェントインタラクションをシミュレートすることで、攻撃者の改善とディフェンダーの指示を交互に行う検索ベースのフレームワークを提案する。
攻撃戦略は、単純な直接要求から、偽造や同意偽造といった高度な多ターン戦術へとエスカレートする。
発見された攻撃と防御は、さまざまなシナリオやバックボーンモデルにまたがって伝達され、プライバシーに配慮したエージェントを構築するための強力な実用性を示している。
- 参考スコア(独自算出の注目度): 60.22650655805939
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The widespread deployment of LLM-based agents is likely to introduce a critical privacy threat: malicious agents that proactively engage others in multi-turn interactions to extract sensitive information. These dynamic dialogues enable adaptive attack strategies that can cause severe privacy violations, yet their evolving nature makes it difficult to anticipate and discover sophisticated vulnerabilities manually. To tackle this problem, we present a search-based framework that alternates between improving attacker and defender instructions by simulating privacy-critical agent interactions. Each simulation involves three roles: data subject, data sender, and data recipient. While the data subject's behavior is fixed, the attacker (data recipient) attempts to extract sensitive information from the defender (data sender) through persistent and interactive exchanges. To explore this interaction space efficiently, our search algorithm employs LLMs as optimizers, using parallel search with multiple threads and cross-thread propagation to analyze simulation trajectories and iteratively propose new instructions. Through this process, we find that attack strategies escalate from simple direct requests to sophisticated multi-turn tactics such as impersonation and consent forgery, while defenses advance from rule-based constraints to identity-verification state machines. The discovered attacks and defenses transfer across diverse scenarios and backbone models, demonstrating strong practical utility for building privacy-aware agents.
- Abstract(参考訳): LLMベースのエージェントが広く展開されるにつれ、重要なプライバシー上の脅威がもたらされる可能性が高い。
これらの動的対話は、厳しいプライバシー侵害を引き起こすような適応的な攻撃戦略を可能にするが、その進化する性質は、手動で高度な脆弱性を予測し発見することを困難にしている。
この問題に対処するために,プライバシクリティカルなエージェントのインタラクションをシミュレートすることで,攻撃者の改善とディフェンダーの指示を交互に行う検索ベースのフレームワークを提案する。
各シミュレーションには、データ主題、データ送信者、データ受信者という3つの役割が含まれる。
データ対象の動作が固定されている間、攻撃者(データ受信者)は永続的で対話的な交換を通じてディフェンダー(データ送信者)から機密情報を抽出しようとする。
この相互作用空間を効率的に探索するために,複数のスレッドによる並列探索とクロススレッド伝搬を用いてシミュレーション軌道を解析し,新たな命令を反復的に提案する。
このプロセスを通じて、攻撃戦略は単純な直接要求から、偽造や同意偽造といった高度な多ターン戦術へとエスカレートし、一方、防衛はルールに基づく制約からアイデンティティ検証ステートマシンへと前進する。
発見された攻撃と防御は、さまざまなシナリオやバックボーンモデルにまたがって伝達され、プライバシーに配慮したエージェントを構築するための強力な実用性を示している。
関連論文リスト
- BlindGuard: Safeguarding LLM-based Multi-Agent Systems under Unknown Attacks [58.959622170433725]
BlindGuardは、攻撃固有のラベルや悪意のある振る舞いに関する事前の知識を必要とせずに学習する、教師なしの防御方法である。
BlindGuardはマルチエージェントシステムにまたがる多様な攻撃タイプ(即時注入、メモリ中毒、ツール攻撃)を効果的に検出する。
論文 参考訳(メタデータ) (2025-08-11T16:04:47Z) - Multi-Stage Prompt Inference Attacks on Enterprise LLM Systems [18.039444159491733]
エンタープライズ環境にデプロイされる大規模言語モデル(LLM)は、新たなセキュリティ課題に直面している。
敵同士が連携して、徐々に機密データを抽出するように仕向ける。
企業LLMコンテキストにおける多段階的プロンプト推論攻撃の包括的研究について述べる。
論文 参考訳(メタデータ) (2025-07-21T13:38:12Z) - LLMail-Inject: A Dataset from a Realistic Adaptive Prompt Injection Challenge [12.83443290631527]
LLMail-Injectは,参加者が電子メールに悪意ある指示を注入しようとする現実的なシナリオをシミュレートする公開課題である。
我々は、課題コード、提案の全データセット、そして、このデータがどのように命令データ分離問題に対する新たな洞察を提供するかを示す分析結果をリリースする。
論文 参考訳(メタデータ) (2025-06-11T17:30:07Z) - LLM-Based User Simulation for Low-Knowledge Shilling Attacks on Recommender Systems [28.559223475725137]
我々は,Large Language Model(LLM)ベースのエージェントを利用して,低知識かつ高インパクトなシリング攻撃を行う新しいフレームワークであるAgent4SRを紹介する。
Agent4SRは、対向的なインタラクションを編成し、アイテムを選択し、評価を割り当て、レビューを作成し、行動の妥当性を維持しながら、現実的なユーザ動作をシミュレートする。
以上の結果から,レコメンデーションシステムにおける防衛強化の必要性を浮き彫りにして,LSMを駆使したエージェントによる新たな緊急脅威の出現が示唆された。
論文 参考訳(メタデータ) (2025-05-18T04:40:34Z) - DrunkAgent: Stealthy Memory Corruption in LLM-Powered Recommender Agents [28.294322726282896]
大規模言語モデル(LLM)を利用したエージェントは、パーソナライズされた振る舞いモデリングを実現するために、リコメンデータシステム(RS)でますます使われている。
本稿では,LSMを用いたリコメンデータエージェントにおけるメモリベースの脆弱性について,初めて体系的に検討する。
我々は,意味論的に意味のある敵の引き金を発生させる新しいブラックボックス攻撃フレームワークDrunkAgentを提案する。
論文 参考訳(メタデータ) (2025-03-31T07:35:40Z) - Personalized Attacks of Social Engineering in Multi-turn Conversations -- LLM Agents for Simulation and Detection [19.625518218365382]
ソーシャルメディアプラットフォームに対する社会工学(SE)攻撃は重大なリスクをもたらす。
マルチターン会話を生成することで,SE攻撃機構をシミュレートするLLM-agentic framework,SE-VSimを提案する。
本研究は,被害者の人格に関する事前知識を活用することで,ユーザに対してパーソナライズされた保護を提供するための概念実証SE-OmniGuardを提案する。
論文 参考訳(メタデータ) (2025-03-18T19:14:44Z) - Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
機密情報を含む匿名化は、幅広いアプリケーションにとって不可欠である。
既存の技術は、大規模言語モデルの再識別能力の新たな課題に直面している。
本稿では,プライバシ評価器,ユーティリティ評価器,最適化コンポーネントの3つの重要なコンポーネントで構成されるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T14:28:56Z) - Mutual-modality Adversarial Attack with Semantic Perturbation [81.66172089175346]
本稿では,相互モダリティ最適化スキームにおける敵攻撃を生成する新しい手法を提案する。
我々の手法は最先端の攻撃方法より優れており、プラグイン・アンド・プレイ・ソリューションとして容易にデプロイできる。
論文 参考訳(メタデータ) (2023-12-20T05:06:01Z) - Avoid Adversarial Adaption in Federated Learning by Multi-Metric
Investigations [55.2480439325792]
Federated Learning(FL)は、分散機械学習モデルのトレーニング、データのプライバシの保護、通信コストの低減、多様化したデータソースによるモデルパフォーマンスの向上を支援する。
FLは、中毒攻撃、標的外のパフォーマンス劣化とターゲットのバックドア攻撃の両方でモデルの整合性を損なうような脆弱性に直面している。
我々は、複数の目的に同時に適応できる、強い適応的敵の概念を新たに定義する。
MESASは、実際のデータシナリオで有効であり、平均オーバーヘッドは24.37秒である。
論文 参考訳(メタデータ) (2023-06-06T11:44:42Z) - Towards Automated Classification of Attackers' TTPs by combining NLP
with ML Techniques [77.34726150561087]
我々は,NLP(Natural Language Processing)と,研究におけるセキュリティ情報抽出に使用される機械学習技術の評価と比較を行った。
本研究では,攻撃者の戦術や手法に従って非構造化テキストを自動的に分類するデータ処理パイプラインを提案する。
論文 参考訳(メタデータ) (2022-07-18T09:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。