論文の概要: Got a Secret? LLM Agents Can't Keep It: Evaluating Privacy in Multi-Agent Systems
- arxiv url: http://arxiv.org/abs/2605.27766v1
- Date: Tue, 26 May 2026 23:32:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.600266
- Title: Got a Secret? LLM Agents Can't Keep It: Evaluating Privacy in Multi-Agent Systems
- Title(参考訳): LLMエージェントは秘密を守ることができない:マルチエージェントシステムにおけるプライバシの評価
- Authors: Aman Priyanshu, Supriti Vijay, Esha Pahwa,
- Abstract要約: 一ヶ月に数千のLCMエージェントがコミュニティ間で対話するモルトブック型シミュレーションプラットフォームを導入する。
シングルターンからマルチターンのソーシャル評価へのシフトは、プライバシー侵害を増幅する。
エージェントは、ピアを観察した後、機密情報を開示する確率が8倍になる。
- 参考スコア(独自算出の注目度): 4.480003364414813
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM safety evaluations predominantly test models in isolation, yet deployed AI agents increasingly operate within persistent social environments alongside other agents. We introduce a Moltbook-style simulation platform where thousands of LLM agents interact across communities over a simulated month, and use it to evaluate privacy as a downstream safety concern under varying degrees of social pressure. We find that shifting from single turn to multi turn social evaluation amplifies privacy violations (CIMemories 19.95% to Ours 45.30% across OpenAI models), that leakage is socially contagious, with agents 8 times more likely to disclose sensitive information after observing a peer do so, and that explicit privacy instructions reduce but do not eliminate this effect, leaving leakage rates above 37.8% even with safeguards. Our findings suggest that static chat based safety benchmarks systematically underestimate risks in agentic deployment, and that social context alone is sufficient to elicit sensitive disclosures that single turn evaluations would never surface.
- Abstract(参考訳): LLMの安全性評価は、主にモデルを分離してテストするが、デプロイされたAIエージェントは、他のエージェントとともに永続的な社会的環境内で運用されるようになっている。
シミュレーションプラットフォームであるMoltbookでは,同月,何千人ものLDMエージェントがコミュニティ間で交流し,社会的プレッシャーの度合いに応じて,プライバシーを下流の安全上の問題として評価する。
シングルターンからマルチターンの社会的評価へのシフトは、プライバシー侵害(CIMemories 19.95%からOurs 45.30%)を増幅し、漏洩は社会的に伝染しており、エージェントはピアがそれを観察した後、機密情報を開示する可能性が8倍高く、明示的なプライバシー命令は減少するが、この効果を排除せず、漏洩率は37.8%以上である。
以上の結果から,静的なチャットベースの安全性ベンチマークはエージェント配置のリスクを体系的に過小評価し,社会的文脈だけでは単一ターン評価が決して表れない機密情報を開示するのに十分であることが示唆された。
関連論文リスト
- AgentSocialBench: Evaluating Privacy Risks in Human-Centered Agentic Social Networks [2.291770711277359]
エージェント的ソーシャルネットワークのプライバシーは、シングルエージェント設定よりも根本的に難しい。
クロスドメインとクロスユーザ調整は、永続的なリークプレッシャを生成する。
機密情報をパラドックス的に抽象化する方法をエージェントに教えるプライバシー命令は、それをもっと議論させる。
論文 参考訳(メタデータ) (2026-04-01T23:43:23Z) - ConVerse: Benchmarking Contextual Safety in Agent-to-Agent Conversations [11.177126931962443]
ConVerseはエージェントエージェントインタラクションにおけるプライバシとセキュリティリスクを評価するためのベンチマークである。
12のユーザペルソナと864以上のコンテキストベースアタックを備えた,3つの実用的なドメインにまたがる。
インタラクティブなマルチエージェントコンテキスト内にプライバシとセキュリティを統合することで、ConVerseは通信の緊急性として安全性を再設定する。
論文 参考訳(メタデータ) (2025-11-07T15:49:49Z) - Privacy in Action: Towards Realistic Privacy Mitigation and Evaluation for LLM-Powered Agents [40.39717403627143]
モデルに依存しないコンテキスト整合性に基づく緩和アプローチであるPrivacyCheckerを提案する。
静的ベンチマークを動的MPPとA2A環境に変換するPrivacyLens-Liveも導入しています。
私たちのデータとコードはhttps://aka.ms/privacy_in_action.orgで公開されます。
論文 参考訳(メタデータ) (2025-09-22T08:19:06Z) - 1-2-3 Check: Enhancing Contextual Privacy in LLM via Multi-Agent Reasoning [18.751008976082655]
プライバシ推論を専門のサブタスク(抽出,分類)に分解するマルチエージェントフレームワークを導入する。
情報フロートポロジに対して系統的なアブレーションを行い、上流検出がダウンストリームリークにカスケードを間違えた理由を明らかにした。
論文 参考訳(メタデータ) (2025-08-11T06:34:09Z) - Agent-SafetyBench: Evaluating the Safety of LLM Agents [72.92604341646691]
我々は,大規模言語モデル(LLM)の安全性を評価するベンチマークであるAgent-SafetyBenchを紹介する。
Agent-SafetyBenchは349のインタラクション環境と2,000のテストケースを含み、安全リスクの8つのカテゴリを評価し、安全でないインタラクションで頻繁に発生する10の一般的な障害モードをカバーする。
16 名の LLM エージェントを評価した結果,いずれのエージェントも 60% 以上の安全性スコアを達成できないことがわかった。
論文 参考訳(メタデータ) (2024-12-19T02:35:15Z) - PrivacyLens: Evaluating Privacy Norm Awareness of Language Models in Action [54.11479432110771]
PrivacyLensは、プライバシに敏感な種子を表現的なヴィグネットに拡張し、さらにエージェントの軌跡に拡張するために設計された新しいフレームワークである。
プライバシの文献とクラウドソーシングされたシードに基づいて、プライバシの規範のコレクションをインスタンス化する。
GPT-4やLlama-3-70Bのような最先端のLMは、プライバシー強化の指示が出されたとしても、機密情報を25.68%、38.69%のケースでリークしている。
論文 参考訳(メタデータ) (2024-08-29T17:58:38Z) - The Emerged Security and Privacy of LLM Agent: A Survey with Case Studies [58.94148083602662]
大規模言語モデル(LLM)エージェントは複雑なタスクを実行するために進化してきた。
LLMエージェントの幅広い応用は、その商業的価値を示している。
しかし、セキュリティとプライバシの脆弱性も公開している。
この調査は、LLMエージェントが直面しているプライバシーとセキュリティの問題を包括的に概観することを目的としている。
論文 参考訳(メタデータ) (2024-07-28T00:26:24Z) - R-Judge: Benchmarking Safety Risk Awareness for LLM Agents [28.0550468465181]
大規模言語モデル(LLM)は、現実世界のアプリケーション間で自律的にタスクを完了させる大きな可能性を示している。
本研究は, LLMエージェントの行動安全性を, 多様な環境下でベンチマークする上で必要となる課題に対処する。
R-Judgeは,エージェント間相互作用の記録から安全性のリスクを判定・同定する上で,LLMの熟練度を評価するためのベンチマークである。
論文 参考訳(メタデータ) (2024-01-18T14:40:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。