論文の概要: MAGPIE: A benchmark for Multi-AGent contextual PrIvacy Evaluation
- arxiv url: http://arxiv.org/abs/2510.15186v1
- Date: Thu, 16 Oct 2025 23:12:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.411768
- Title: MAGPIE: A benchmark for Multi-AGent contextual PrIvacy Evaluation
- Title(参考訳): MAGPIE:マルチエージェントコンテキストPrivacy Evaluationのためのベンチマーク
- Authors: Gurusha Juneja, Jayanth Naga Sai Pasupulati, Alon Albalak, Wenyue Hua, William Yang Wang,
- Abstract要約: 既存のプライバシベンチマークは、タスクの結果に影響を与えることなく、プライベート情報を簡単に省略できる、単純化されたシングルターンインタラクションにのみフォーカスする。
我々は,多エージェント協調型非競合シナリオにおけるプライバシ理解と保存性を評価するための新しいベンチマークであるMAGPIEを紹介する。
評価の結果,GPT-5やGemini 2.5-Proを含む最先端のエージェントは,重大なプライバシー侵害を示すことが明らかとなった。
- 参考スコア(独自算出の注目度): 61.92403071137653
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A core challenge for autonomous LLM agents in collaborative settings is balancing robust privacy understanding and preservation alongside task efficacy. Existing privacy benchmarks only focus on simplistic, single-turn interactions where private information can be trivially omitted without affecting task outcomes. In this paper, we introduce MAGPIE (Multi-AGent contextual PrIvacy Evaluation), a novel benchmark of 200 high-stakes tasks designed to evaluate privacy understanding and preservation in multi-agent collaborative, non-adversarial scenarios. MAGPIE integrates private information as essential for task resolution, forcing agents to balance effective collaboration with strategic information control. Our evaluation reveals that state-of-the-art agents, including GPT-5 and Gemini 2.5-Pro, exhibit significant privacy leakage, with Gemini 2.5-Pro leaking up to 50.7% and GPT-5 up to 35.1% of the sensitive information even when explicitly instructed not to. Moreover, these agents struggle to achieve consensus or task completion and often resort to undesirable behaviors such as manipulation and power-seeking (e.g., Gemini 2.5-Pro demonstrating manipulation in 38.2% of the cases). These findings underscore that current LLM agents lack robust privacy understanding and are not yet adequately aligned to simultaneously preserve privacy and maintain effective collaboration in complex environments.
- Abstract(参考訳): 協調的な環境での自律LLMエージェントにとってのコア課題は、タスクの有効性とともに、堅牢なプライバシ理解と保存のバランスをとることだ。
既存のプライバシベンチマークは、タスクの結果に影響を与えることなく、プライベート情報を簡単に省略できる、単純化されたシングルターンインタラクションにのみフォーカスする。
本稿では,マルチエージェント協調型非敵シナリオにおけるプライバシ理解と保存性を評価するために設計された200のハイテイクタスクのベンチマークであるMAGPIE(Multi-AGent contextual PrIvacy Evaluation)を紹介する。
MAGPIEは、プライベート情報をタスク解決に不可欠なものとして統合し、エージェントに戦略的情報制御との効果的なコラボレーションのバランスを強制する。
我々の評価によると、GPT-5やGemini 2.5-Proを含む最先端のエージェントは重大なプライバシー漏洩を示し、Gemini 2.5-Proは50.7%まで、GPT-5は明示的に指示されていなくても機密情報の35.1%まで漏れている。
さらに、これらのエージェントはコンセンサスやタスク完了の達成に苦慮し、操作や電力探索といった望ましくない行動(例:38.2%のケースでジェミニ2.5-Pro)に頼っている。
これらの知見は、現在のLLMエージェントは、堅牢なプライバシ理解が欠如しており、プライバシーを同時に保持し、複雑な環境で効果的なコラボレーションを維持するのに十分な整合性を持っていないことを裏付けている。
関連論文リスト
- Privacy in Action: Towards Realistic Privacy Mitigation and Evaluation for LLM-Powered Agents [40.39717403627143]
モデルに依存しないコンテキスト整合性に基づく緩和アプローチであるPrivacyCheckerを提案する。
静的ベンチマークを動的MPPとA2A環境に変換するPrivacyLens-Liveも導入しています。
私たちのデータとコードはhttps://aka.ms/privacy_in_action.orgで公開されます。
論文 参考訳(メタデータ) (2025-09-22T08:19:06Z) - The Sum Leaks More Than Its Parts: Compositional Privacy Risks and Mitigations in Multi-Agent Collaboration [72.33801123508145]
大規模言語モデル(LLM)はマルチエージェントシステムに不可欠なものである。
プライバシーリスクは、暗記、直接推論、シングルターン評価を超えて現れる。
特に、相互作用によって構成される一見無害な反応は、敵が機密情報の回復を累積的に行うことができる。
論文 参考訳(メタデータ) (2025-09-16T16:57:25Z) - MAGPIE: A dataset for Multi-AGent contextual PrIvacy Evaluation [54.410825977390274]
LLMエージェントのコンテキストプライバシを評価するための既存のベンチマークは、主にシングルターン、低複雑さタスクを評価する。
まず、15ドメインにわたる158のリアルタイムハイテイクシナリオからなるベンチマーク-MAGPIEを示す。
次に、コンテキスト的にプライベートなデータに対する理解と、ユーザのプライバシを侵害することなくコラボレーションする能力に基づいて、最先端のLCMを評価します。
論文 参考訳(メタデータ) (2025-06-25T18:04:25Z) - PrivacyLens: Evaluating Privacy Norm Awareness of Language Models in Action [54.11479432110771]
PrivacyLensは、プライバシに敏感な種子を表現的なヴィグネットに拡張し、さらにエージェントの軌跡に拡張するために設計された新しいフレームワークである。
プライバシの文献とクラウドソーシングされたシードに基づいて、プライバシの規範のコレクションをインスタンス化する。
GPT-4やLlama-3-70Bのような最先端のLMは、プライバシー強化の指示が出されたとしても、機密情報を25.68%、38.69%のケースでリークしている。
論文 参考訳(メタデータ) (2024-08-29T17:58:38Z) - GaitGuard: Towards Private Gait in Mixed Reality [1.7277693508964933]
GaitGuardは、ビデオベースの歩行プロファイリングの脅威に対して、歩行プライバシーを保護するために設計された、新しいリアルタイムシステムである。
GitGuardはマルチスレッドフレームワークで動作し、効率的なストリームキャプチャ、ボディ検出、トラッキングのための専用のモジュールを組み込んでいる。
論文 参考訳(メタデータ) (2023-12-07T17:42:04Z) - Differential Privacy in Cooperative Multiagent Planning [27.194032494266086]
我々は,到達不能な目的を持つマルコフゲームとして定式化された逐次決定問題について検討する。
エージェントの通信されたシンボル状態軌跡を民営化するために,差分プライバシー機構を適用した。
相関関係の価値を下げることにより、プライバシーに堅牢なポリシーを合成する。
論文 参考訳(メタデータ) (2023-01-20T21:36:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。