論文の概要: ConVerse: Benchmarking Contextual Safety in Agent-to-Agent Conversations
- arxiv url: http://arxiv.org/abs/2511.05359v1
- Date: Fri, 07 Nov 2025 15:49:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 21:00:44.820987
- Title: ConVerse: Benchmarking Contextual Safety in Agent-to-Agent Conversations
- Title(参考訳): ConVerse:エージェント対エージェントの会話におけるコンテキスト安全性のベンチマーク
- Authors: Amr Gomaa, Ahmed Salem, Sahar Abdelnabi,
- Abstract要約: ConVerseはエージェントエージェントインタラクションにおけるプライバシとセキュリティリスクを評価するためのベンチマークである。
12のユーザペルソナと864以上のコンテキストベースアタックを備えた,3つの実用的なドメインにまたがる。
インタラクティブなマルチエージェントコンテキスト内にプライバシとセキュリティを統合することで、ConVerseは通信の緊急性として安全性を再設定する。
- 参考スコア(独自算出の注目度): 11.177126931962443
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As language models evolve into autonomous agents that act and communicate on behalf of users, ensuring safety in multi-agent ecosystems becomes a central challenge. Interactions between personal assistants and external service providers expose a core tension between utility and protection: effective collaboration requires information sharing, yet every exchange creates new attack surfaces. We introduce ConVerse, a dynamic benchmark for evaluating privacy and security risks in agent-agent interactions. ConVerse spans three practical domains (travel, real estate, insurance) with 12 user personas and over 864 contextually grounded attacks (611 privacy, 253 security). Unlike prior single-agent settings, it models autonomous, multi-turn agent-to-agent conversations where malicious requests are embedded within plausible discourse. Privacy is tested through a three-tier taxonomy assessing abstraction quality, while security attacks target tool use and preference manipulation. Evaluating seven state-of-the-art models reveals persistent vulnerabilities; privacy attacks succeed in up to 88% of cases and security breaches in up to 60%, with stronger models leaking more. By unifying privacy and security within interactive multi-agent contexts, ConVerse reframes safety as an emergent property of communication.
- Abstract(参考訳): 言語モデルがユーザに代わって行動し、コミュニケーションする自律エージェントへと進化するにつれ、マルチエージェントエコシステムにおける安全性の確保が重要な課題となっている。
パーソナルアシスタントと外部サービスプロバイダ間のインタラクションは、ユーティリティとプロテクションのコアテンションを露呈する。効果的なコラボレーションには情報共有が必要だが、すべての交換が新たな攻撃面を生成する。
エージェントエージェントインタラクションにおけるプライバシとセキュリティリスクを評価するための動的ベンチマークであるConVerseを紹介する。
ConVerseは3つの実践的ドメイン(トラベル、不動産、保険)にまたがっており、12のユーザペルソナと864以上のコンテキストベースによる攻撃(611のプライバシ、253のセキュリティ)がある。
従来のシングルエージェント設定とは異なり、悪意のあるリクエストがもっともらしい会話に埋め込まれた、自律的でマルチターンのエージェント対エージェントの会話をモデル化する。
プライバシは抽象化品質を評価する3段階の分類によってテストされる。
7つの最先端モデルを評価すると、永続的な脆弱性が明らかになる。プライバシ攻撃は最大88%のケースで成功し、セキュリティ侵害は最大60%で、より強力なモデルがリークする。
インタラクティブなマルチエージェントコンテキスト内にプライバシとセキュリティを統合することで、ConVerseは通信の緊急性として安全性を再設定する。
関連論文リスト
- AdvEvo-MARL: Shaping Internalized Safety through Adversarial Co-Evolution in Multi-Agent Reinforcement Learning [78.5751183537704]
AdvEvo-MARLは、タスクエージェントに安全性を内部化する、共進化型マルチエージェント強化学習フレームワークである。
外部ガードに頼るのではなく、AdvEvo-MARLは攻撃者と防御者を共同で最適化する。
論文 参考訳(メタデータ) (2025-10-02T02:06:30Z) - Searching for Privacy Risks in LLM Agents via Simulation [61.229785851581504]
本稿では,プライバシクリティカルなエージェントインタラクションのシミュレーションを通じて,攻撃と防御戦略の改善を交互に行う検索ベースのフレームワークを提案する。
攻撃戦略は、直接の要求から、不正行為や同意偽造といった高度な戦術へとエスカレートする。
発見された攻撃と防御は、さまざまなシナリオやバックボーンモデルにまたがって伝達され、プライバシーに配慮したエージェントを構築するための強力な実用性を示している。
論文 参考訳(メタデータ) (2025-08-14T17:49:09Z) - OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety [58.201189860217724]
OpenAgentSafetyは,8つの危機リスクカテゴリにまたがるエージェントの動作を評価する包括的なフレームワークである。
従来の作業とは異なり、我々のフレームワークは、Webブラウザ、コード実行環境、ファイルシステム、bashシェル、メッセージングプラットフォームなど、実際のツールと対話するエージェントを評価します。
ルールベースの分析とLSM-as-judgeアセスメントを組み合わせることで、過度な行動と微妙な不安全行動の両方を検出する。
論文 参考訳(メタデータ) (2025-07-08T16:18:54Z) - A Survey of LLM-Driven AI Agent Communication: Protocols, Security Risks, and Defense Countermeasures [59.43633341497526]
大規模言語モデル駆動型AIエージェントは、前例のない知性と適応性を示している。
エージェントコミュニケーションは、未来のAIエコシステムの基礎的な柱と見なされている。
本稿では,エージェント通信セキュリティに関する包括的調査を行う。
論文 参考訳(メタデータ) (2025-06-24T14:44:28Z) - Kaleidoscopic Teaming in Multi Agent Simulations [75.47388708240042]
我々は,エージェントが行う複雑な行動,思考プロセス,行動の安全性リスクを評価する上で,既存のレッドチームや安全評価フレームワークは不十分であると主張している。
我々は,新しいコンテキスト内最適化手法を導入し,安全解析のためのより良いシナリオを生成する。
エージェントの安全性を測定するためのフレームワークとともに使用できる適切なメトリクスを提案する。
論文 参考訳(メタデータ) (2025-06-20T23:37:17Z) - AgentSafe: Safeguarding Large Language Model-based Multi-agent Systems via Hierarchical Data Management [28.14286256061824]
大規模言語モデルに基づくマルチエージェントシステムは、自律的なコミュニケーションとコラボレーションに革命をもたらしている。
本稿では,階層的な情報管理とメモリ保護を通じてMASセキュリティを強化する新しいフレームワークであるAgentSafeを紹介する。
AgentSafeには2つのコンポーネントが含まれている: ThreatSieveは情報権限の検証と不正行為の防止によって通信を保護する。
論文 参考訳(メタデータ) (2025-03-06T12:41:54Z) - Air Gap: Protecting Privacy-Conscious Conversational Agents [44.04662124191715]
敵のサードパーティアプリがインタラクションのコンテキストを操作して,LDMベースのエージェントを騙して,そのタスクに関係のない個人情報を明らかにする,新たな脅威モデルを導入する。
本研究では,特定のタスクに必要なデータのみへのアクセスを制限することで,意図しないデータ漏洩を防止するために設計されたプライバシ意識エージェントであるAirGapAgentを紹介する。
論文 参考訳(メタデータ) (2024-05-08T16:12:45Z) - Certifiably Robust Policy Learning against Adversarial Communication in
Multi-agent Systems [51.6210785955659]
多くのマルチエージェント強化学習(MARL)では,エージェントが情報を共有し,適切な判断を下す上でコミュニケーションが重要である。
しかし、ノイズや潜在的な攻撃者が存在する現実世界のアプリケーションに訓練された通信エージェントを配置すると、通信ベースのポリシーの安全性は過小評価されている深刻な問題となる。
本研究では,攻撃者が任意の$CfracN-12$エージェントから被害者エージェントへの通信を任意に変更できる,$N$エージェントを備えた環境を検討する。
論文 参考訳(メタデータ) (2022-06-21T07:32:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。