論文の概要: Detecting Multi-Agent Collusion Through Multi-Agent Interpretability
- arxiv url: http://arxiv.org/abs/2604.01151v1
- Date: Wed, 01 Apr 2026 17:08:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:32.108064
- Title: Detecting Multi-Agent Collusion Through Multi-Agent Interpretability
- Title(参考訳): マルチエージェント解釈可能性によるマルチエージェント衝突の検出
- Authors: Aaron Rose, Carissa Cullen, Brandon Gary Kaplowitz, Christian Schroeder de Witt,
- Abstract要約: NARCBenchは環境分布シフト下での衝突検出のベンチマークである。
グループレベルでシナリオを分類するために,エージェントごとの詐欺スコアを集計する5つの探索手法を提案する。
単一のプローブ技術が全ての共謀タイプで支配的であり、異なる形の共謀が活性化空間で異なることを示唆している。
- 参考スコア(独自算出の注目度): 0.3467226901703539
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As LLM agents are increasingly deployed in multi-agent systems, they introduce risks of covert coordination that may evade standard forms of human oversight. While linear probes on model activations have shown promise for detecting deception in single-agent settings, collusion is inherently a multi-agent phenomenon, and the use of internal representations for detecting collusion between agents remains unexplored. We introduce NARCBench, a benchmark for evaluating collusion detection under environment distribution shift, and propose five probing techniques that aggregate per-agent deception scores to classify scenarios at the group level. Our probes achieve 1.00 AUROC in-distribution and 0.60--0.86 AUROC when transferred zero-shot to structurally different multi-agent scenarios and a steganographic blackjack card-counting task. We find that no single probing technique dominates across all collusion types, suggesting that different forms of collusion manifest differently in activation space. We also find preliminary evidence that this signal is localised at the token level, with the colluding agent's activations spiking specifically when processing the encoded parts of their partner's message. This work takes a step toward multi-agent interpretability: extending white-box inspection from single models to multi-agent contexts, where detection requires aggregating signals across agents. These results suggest that model internals provide a complementary signal to text-level monitoring for detecting multi-agent collusion, particularly for organisations with access to model activations. Code and data are available at https://github.com/aaronrose227/narcbench.
- Abstract(参考訳): LLMエージェントがマルチエージェントシステムにますます導入されるにつれて、標準的な人間の監視を回避するための隠蔽調整のリスクがもたらされる。
モデルアクティベーションに関する線形プローブは、単一エージェント設定で偽装を検出することを約束している一方で、共謀は本質的にマルチエージェント現象であり、エージェント間の共謀を検出するための内部表現の使用は未探索のままである。
NARCBenchは,環境分布シフト下での衝突検出を評価するためのベンチマークであり,グループレベルでシナリオを分類するために,エージェントごとの詐欺スコアを集計する5つの探索手法を提案する。
ゼロショットを異なるマルチエージェントシナリオとステガノグラフブラックジャックカードカウントタスクに転送すると,1.00 AUROC,0.60--0.86 AUROCが得られる。
一つの探索手法がすべての共謀型で支配的であり, 活性化空間において異なる形態の共謀が現れることが示唆された。
また,このシグナルがトークンレベルで局所化されていることを示す予備的証拠も見出す。
単一モデルからマルチエージェントコンテキストへのホワイトボックスインスペクションの拡張。
これらの結果から、モデル内部は、特にモデルアクティベーションにアクセス可能な組織において、マルチエージェントの衝突を検出するために、テキストレベルのモニタリングに補完的な信号を提供する可能性が示唆された。
コードとデータはhttps://github.com/aaronrose227/narcbench.comで公開されている。
関連論文リスト
- When Only the Final Text Survives: Implicit Execution Tracing for Multi-Agent Attribution [10.973058523304042]
IET(Implicit Execution Tracing)は、メタデータに依存しないフレームワークで、生成したテキストから直接トークンレベルの属性を作成できる。
生成中、エージェント固有のキー付き信号がトークン分布に埋め込まれ、秘密鍵でのみ検出可能な自己記述実行トレースに変換される。
検出時にエージェントハンドオーバポイントを特定し、インタラクショングラフを再構築する。
論文 参考訳(メタデータ) (2026-03-18T07:34:51Z) - Colosseum: Auditing Collusion in Cooperative Multi-Agent Systems [55.51100373104311]
マルチエージェント設定におけるLLMエージェントの協調動作を監査するためのフレームワークであるColosseumを提案する。
コロッセウムは、異なる目的、説得戦術、ネットワークトポロジの下で、それぞれのLSMを照合するためにテストする。
我々は、エージェントがテキストでコラージュするが、しばしば非コラージュ的な行動を選ぶときに、論文上での「共謀」を発見する。
論文 参考訳(メタデータ) (2026-02-16T21:27:38Z) - OMNI-LEAK: Orchestrator Multi-Agent Network Induced Data Leakage [59.3826294523924]
オーケストレータ設定として知られる,一般的なマルチエージェントパターンのセキュリティ脆弱性について検討する。
本報告では,フロンティアモデルの攻撃カテゴリに対する感受性を報告し,推論モデルと非推論モデルの両方が脆弱であることが確認された。
論文 参考訳(メタデータ) (2026-02-13T21:32:32Z) - Explainable and Fine-Grained Safeguarding of LLM Multi-Agent Systems via Bi-Level Graph Anomaly Detection [76.91230292971115]
大規模言語モデル (LLM) に基づくマルチエージェントシステム (MAS) は複雑なタスクを解く上で強力な能力を示している。
XG-Guardは、MAS内の悪意のあるエージェントを検出するための、説明可能な、きめ細かい保護フレームワークである。
論文 参考訳(メタデータ) (2025-12-21T13:46:36Z) - Sentinel Agents for Secure and Trustworthy Agentic AI in Multi-Agent Systems [0.42970700836450487]
本稿では,マルチエージェントシステム(MAS)のセキュリティと信頼性向上を目的とした新しいアーキテクチャフレームワークを提案する。
このフレームワークの中心的なコンポーネントは、分散セキュリティ層として機能するSentinel Agentsのネットワークである。
このようなエージェントは、エージェント間のコミュニケーションを監督し、潜在的な脅威を特定し、プライバシーとアクセス制御を強制し、包括的な監査記録を維持することができる。
論文 参考訳(メタデータ) (2025-09-18T13:39:59Z) - BlindGuard: Safeguarding LLM-based Multi-Agent Systems under Unknown Attacks [58.959622170433725]
BlindGuardは、攻撃固有のラベルや悪意のある振る舞いに関する事前の知識を必要とせずに学習する、教師なしの防御方法である。
BlindGuardはマルチエージェントシステムにまたがる多様な攻撃タイプ(即時注入、メモリ中毒、ツール攻撃)を効果的に検出する。
論文 参考訳(メタデータ) (2025-08-11T16:04:47Z) - SentinelAgent: Graph-based Anomaly Detection in Multi-Agent Systems [11.497269773189254]
大規模言語モデル(LLM)に基づくマルチエージェントシステム(MAS)に適したシステムレベルの異常検出フレームワークを提案する。
本稿では,エージェント間相互作用を動的実行グラフとしてモデル化し,ノード,エッジ,パスレベルでの意味的異常検出を可能にするグラフベースのフレームワークを提案する。
第2に,セキュリティポリシとコンテキスト推論に基づくMAS実行の監視,解析,介入を行うLLMによる監視エージェントである,プラグイン可能なSentinelAgentを導入する。
論文 参考訳(メタデータ) (2025-05-30T04:25:19Z) - Decentralized Multi-Agent Active Search and Tracking when Targets
Outnumber Agents [8.692007892160913]
そこで我々は,DecSTERと呼ばれる分散マルチエージェント,マルチターゲット,同時アクティブ検索・追跡アルゴリズムを提案する。
提案アルゴリズムは,確率仮説密度フィルタの逐次モントカルロ法とトンプソンサンプリングを併用し,分散化マルチエージェント意思決定を行う。
シミュレーションでは,DecSTERは信頼性の低いエージェント間通信に頑健であり,最適サブパターン割り当て(OSPA)の指標で情報グレディベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2024-01-06T08:10:58Z) - Scalable Multi-agent Covering Option Discovery based on Kronecker Graphs [49.71319907864573]
本稿では,分解が容易なマルチエージェントスキル発見法を提案する。
我々のキーとなる考え方は、合同状態空間をクロネッカーグラフとして近似することであり、そのフィドラーベクトルを直接見積もることができる。
ラプラシアンスペクトルを直接計算することは、無限大の状態空間を持つタスクには難易度が高いことを考慮し、さらに本手法の深層学習拡張を提案する。
論文 参考訳(メタデータ) (2023-07-21T14:53:12Z) - Multi-agent Deep Covering Skill Discovery [50.812414209206054]
本稿では,複数エージェントの結合状態空間の予測被覆時間を最小化し,マルチエージェントオプションを構築するマルチエージェントDeep Covering Option Discoveryを提案する。
また、MARLプロセスにマルチエージェントオプションを採用するための新しいフレームワークを提案する。
提案アルゴリズムは,アテンション機構とエージェントの相互作用を効果的に把握し,マルチエージェントオプションの同定に成功した。
論文 参考訳(メタデータ) (2022-10-07T00:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。