論文の概要: AgentLeak: A Full-Stack Benchmark for Privacy Leakage in Multi-Agent LLM Systems
- arxiv url: http://arxiv.org/abs/2602.11510v1
- Date: Thu, 12 Feb 2026 03:10:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.614069
- Title: AgentLeak: A Full-Stack Benchmark for Privacy Leakage in Multi-Agent LLM Systems
- Title(参考訳): AgentLeak: マルチエージェントLLMシステムにおけるプライバシリークのためのフルスタックベンチマーク
- Authors: Faouzi El Yagoubi, Ranwa Al Mallah, Godwin Badu-Marfo,
- Abstract要約: GPT-4o、GPT-4o-mini、Claude 3.5 Sonnet、Mist Largeral、Llama 3.3 70Bを4,979トレースでテストすると、マルチエージェント構成がチャネル毎の出力リークを減らすことが分かる。
内部チャネルはこのギャップの大部分を占めている: エージェント間メッセージ(C2)リークは68.8%、C1(出力チャネル)では27.2%である。
発見は、内部チャネルのプライバシ保護を組み込んだ調整フレームワークの必要性を浮き彫りにする。
- 参考スコア(独自算出の注目度): 0.9367224590861912
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agent Large Language Model (LLM) systems create privacy risks that current benchmarks cannot measure. When agents coordinate on tasks, sensitive data passes through inter-agent messages, shared memory, and tool arguments; pathways that output-only audits never inspect. We introduce AgentLeak, to the best of our knowledge the first full-stack benchmark for privacy leakage covering internal channels, spanning 1,000 scenarios across healthcare, finance, legal, and corporate domains, paired with a 32-class attack taxonomy and three-tier detection pipeline. Testing GPT-4o, GPT-4o-mini, Claude 3.5 Sonnet, Mistral Large, and Llama 3.3 70B across 4,979 traces reveals that multi-agent configurations reduce per-channel output leakage (C1: 27.2% vs 43.2% in single-agent) but introduce unmonitored internal channels that raise total system exposure to 68.9% (OR-aggregated across C1, C2, C5). Internal channels account for most of this gap: inter-agent messages (C2) leak at 68.8%, compared to 27.2% on C1 (output channel). This means that output-only audits miss 41.7% of violations. Claude 3.5 Sonnet, which emphasizes safety alignment in its design, achieves the lowest leakage rates on both external (3.3%) and internal (28.1%) channels, suggesting that model-level safety training may transfer to internal channel protection. Across all five models and four domains, the pattern C2 > C1 holds consistently, confirming that inter-agent communication is the primary vulnerability. These findings underscore the need for coordination frameworks that incorporate internal-channel privacy protections and enforce privacy controls on inter-agent communication.
- Abstract(参考訳): マルチエージェント大規模言語モデル(LLM)システムは、現在のベンチマークでは測定できないプライバシーリスクを生み出す。
エージェントがタスクをコーディネートすると、機密データがエージェント間メッセージ、共有メモリ、ツール引数を通過する。
AgentLeakは、内部チャネルをカバーし、医療、金融、法務、企業ドメインにまたがる1,000のシナリオをカバーし、32クラスの攻撃分類と3層検出パイプラインと組み合わせた、最初のフルスタックのプライバシーリークベンチマークである。
GPT-4o、GPT-4o-mini、Claude 3.5 Sonnet、Mistral Large、Llama 3.3 70Bを4,979のトレースでテストしたところ、マルチエージェント構成はチャネルごとの出力リークを減少させる(C1: 27.2% vs 43.2% in single-agent)が、システム全体の露出を68.9%(C1, C2, C5でOR集約)。
内部チャネルはこのギャップの大部分を占めている: エージェント間メッセージ(C2)リークは68.8%、C1(出力チャネル)では27.2%である。
これは、アウトプットのみの監査が違反の41.7%を欠いていることを意味する。
クロード3.5 ソンネットは設計上の安全性を重視しており、外部(3.3%)と内部(28.1%)の両方で低い漏れ率を達成しており、モデルレベルの安全訓練が内部チャネル保護に移行する可能性があることを示唆している。
5つのモデルと4つのドメインにまたがって、パターンC2 > C1は一貫して保持され、エージェント間通信が主要な脆弱性であることを確認します。
これらの知見は、内部チャネルのプライバシ保護を取り入れ、エージェント間通信にプライバシ制御を強制する調整フレームワークの必要性を浮き彫りにした。
関連論文リスト
- CVE-Factory: Scaling Expert-Level Agentic Tasks for Code Security Vulnerability [50.57373283154859]
CVE-Factoryは、脆弱性タスクを自動変換するエキスパートレベルの品質を実現するための、最初のマルチエージェントフレームワークである。
最新の現実的な脆弱性についても評価され、66.2%の成功が証明されている。
コードセキュリティにおけるエージェントタスクの大規模スケーリングとして,1000以上の実行可能なトレーニング環境を合成する。
論文 参考訳(メタデータ) (2026-02-03T02:27:16Z) - What Matters For Safety Alignment? [38.86339753409445]
本稿では,AIシステムの安全アライメント能力に関する総合的研究について述べる。
本研究では,6つの重要な内在モデル特性と3つの外部攻撃手法の影響を系統的に検討し,比較した。
LRMs GPT-OSS-20B, Qwen3-Next-80B-A3B-Thinking, GPT-OSS-120Bを最も安全な3つのモデルとして同定した。
論文 参考訳(メタデータ) (2026-01-07T12:31:52Z) - Penetration Testing of Agentic AI: A Comparative Security Analysis Across Models and Frameworks [0.0]
Agentic AIは、従来のLLMセーフガードが対処できないセキュリティ脆弱性を導入する。
エージェントAIシステムの最初の体系的テストと比較評価を行う。
新たな「ハロシントコンプライアンス」戦略を含む6つの防衛行動パターンを同定する。
論文 参考訳(メタデータ) (2025-12-16T19:22:50Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Cross-LLM Generalization of Behavioral Backdoor Detection in AI Agent Supply Chains [0.0]
本研究は,Cross-LLMビヘイビアバックドア検出に関する最初の体系的研究である。
単一モデル検出器は、トレーニング分布において92.7%の精度を達成するが、異なるLLM間で49.2%しか達成していないことを示す。
追加機能としてのモデル認識モデル同定は,すべての評価モデルに対して90.6%の精度で達成可能であることを示す。
論文 参考訳(メタデータ) (2025-11-25T03:33:04Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Selective KV-Cache Sharing to Mitigate Timing Side-Channels in LLM Inference [6.864810630905683]
ユーザ単位のアイソレーションなどの既存の防御は、リークをなくすが、TTFT(Time-to-first-token)で最大38.9%性能を低下させる。
プライバシーに配慮したKV-cache管理フレームワークであるSafeKVを紹介した。
評価の結果,SafeKVは時間ベースのサイドチャネル攻撃の94%~97%を軽減していることがわかった。
論文 参考訳(メタデータ) (2025-08-11T19:55:44Z) - Agent KB: Leveraging Cross-Domain Experience for Agentic Problem Solving [62.71545696485824]
我々は,異種エージェントフレームワーク間のシームレスな体験共有を可能にするユニバーサルメモリ基盤であるAgent KBを紹介した。
Agent KBはトラジェクトリを構造化知識ベースに集約し、軽量APIを提供する。
我々は,GAIA,Humanity's Last Exam,GPQA,SWE-benchなどの主要フレームワークにまたがるエージェントを検証した。
論文 参考訳(メタデータ) (2025-07-08T17:59:22Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。