論文の概要: The Best-Laid SCHEMEs: Coordinated Sabotage and Monitoring in Multi-Agent Systems
- arxiv url: http://arxiv.org/abs/2605.29178v1
- Date: Wed, 27 May 2026 23:30:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:55.558774
- Title: The Best-Laid SCHEMEs: Coordinated Sabotage and Monitoring in Multi-Agent Systems
- Title(参考訳): The Best-Laid SCHEMEs:Coordinated Sabotage and Monitoring in Multi-Agent Systems
- Authors: Nikolay Radev, Lennart Haas, Benjamin Arnav, Pablo Bernabeu-Pérez,
- Abstract要約: SCHEMEは7つの設定と8つの実際のオープンソースライブラリにわたる17のタスクインスタンスのベンチマークである。
各設定は、エージェントの適切なサブセットが単独で成功しないように設計されている。
GPT 5.1 Codex と Gemini 3.1 Pro ですでに協調サボタージュが実用化されていることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As agentic coding systems decompose work across multiple model instances, a critical safety question is whether those instances can coordinate to achieve a hidden malicious objective while remaining aligned with user intent. We introduce SCHEME, a benchmark of 17 task instances across 7 settings and 8 real open-source libraries, each pairing a legitimate software-engineering task with a covert side task. Every setting is designed so that no proper subset of agents can succeed alone: agents must decompose a shared sabotage plan, relay partial requirements under different communication topologies, and execute mutually consistent edits, testing genuine multi-agent coordination rather than individual capability. Evaluating with GPT 5.1 Codex and Gemini 3.1 Pro, we find coordinated sabotage is already practical, with Gemini completing the covert objective while succeeding on the legitimate task in 84\% of samples and Codex in 46\%. A failure analysis shows that recovery, not failure incidence, drives the model gap: both models suffer similar numbers of communication failures per trajectory, but Gemini recovers from $\sim$73\% of occurrences against Codex's $\sim$56\%. However, the agents' code edits remain detectable: a trusted monitor flags coordinated sabotage at FPR$\le$2\% in 99\%/68\% (Gemini/Codex) of attempts from code edits alone, rising to 100\%/81\% with access to agent communication. Despite stealth-aware prompting, undetected sabotage stays at $<$3\% under the full-visibility monitor; telling agents a monitor is present halves Gemini's sabotage success without significantly breaking detection, even when agents are explicitly prompted to fabricate cover stories.
- Abstract(参考訳): エージェント型コーディングシステムは複数のモデルインスタンスにまたがって処理を分解するので、重要な安全上の問題は、それらのインスタンスがユーザ意図に合わせたまま、隠れた悪意のある目的を達成するために調整できるかどうかである。
7つの設定にまたがる17のタスクインスタンスと8つの実際のオープンソースライブラリのベンチマークであるSCHEMEを紹介します。
エージェントは共有サボタージュ計画を分解し、異なる通信トポロジの下で部分的な要求を中継し、相互に一貫した編集を実行し、個々の能力よりも真のマルチエージェント調整をテストする。
GPT 5.1 Codex と Gemini 3.1 Pro で評価すると、協調サボタージュはすでに実用的であり、Gemini は秘密の目的を達成し、84 % のサンプルと 46 % のコーデックスで正規のタスクに成功している。
しかし、GeminiはCodexの$\sim$56\%に対して、$\sim$73\%から回復する。
信頼できるモニターフラグは、FPR$\le$2\%で調整されたサボタージュ 99\%/68\% (Gemini/Codex)で、エージェント通信へのアクセスによって100\%/81\%まで上昇する。
監視役はジェミニのサボタージュの成功を著しく損なうことなく、たとえエージェントが明らかにカバーストーリーを製作するよう促されたとしても、監視役はジェミニのサボタージュの成功を半減させる。
関連論文リスト
- Synthesizing Multi-Agent Harnesses for Vulnerability Discovery [8.518689779459974]
LLMエージェントは、人間の監査官や自動ファジッターが何十年も見逃していた、真のセキュリティ脆弱性を見つけ始めている。
実際には、作業は複数のエージェントに分割され、ハーネスによってワイヤリングされる。どの役割が存在するかを修正するプログラム、どのように情報を渡すか、どのツールを呼び出すか、リトライがどのように調整されるかである。
AgentFlowは、エージェントの役割、プロンプト、ツール、通信トポロジ、調整プロトコルを共同でカバーする型付きグラフDSLで、両方の制限に対処する。
論文 参考訳(メタデータ) (2026-04-22T17:27:40Z) - OpenSec: Measuring Incident Response Agent Calibration Under Adversarial Evidence [0.0]
本稿では,防衛インシデント対応エージェントの評価を行う,二重制御強化学習環境であるOpenSecを紹介する。
静的な能力ベンチマークとは異なり、OpenSecは敵のエビデンスの下で世界状態を変える封じ込めアクションをスコアする。
GPT-5.2、Gemini 3、DeepSeekは100%のエピソードを90-97%の偽陽性率で封じ込めている。
論文 参考訳(メタデータ) (2026-01-28T22:12:54Z) - DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems [48.971606069204825]
DoVerは、大規模言語モデル(LLM)ベースのマルチエージェントシステムのための介入駆動デバッグフレームワークである。
ターゲットの介入を通じて、アクティブな検証によって仮説生成を増強する。
DoVerは失敗試験の18~28%を成功させ、最大16%のマイルストーンを達成し、失敗仮説の30~60%を検証または否定する。
論文 参考訳(メタデータ) (2025-12-07T09:23:48Z) - Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems [50.29939179830491]
LLMマルチエージェントシステムにおける障害帰属は、まだ調査が過小評価されており、労働集約的である。
本稿では,3つの自動故障帰属手法の開発と評価を行い,その欠点と欠点を要約する。
最良の方法は、障害に応答するエージェントを特定する際に53.5%の精度を達成するが、故障の特定には14.2%しか役に立たない。
論文 参考訳(メタデータ) (2025-04-30T23:09:44Z) - Preventing Rogue Agents Improves Multi-Agent Collaboration [21.955058255432974]
本稿では,アクション予測中にエージェントを監視し,将来エラーが発生する可能性がある場合に介入することを提案する。
WhoDunitEnv、コード生成タスク、そしてリソース持続可能性のためのGovSim環境の実験は、我々のアプローチがパフォーマンスを大幅に向上させることを示している。
論文 参考訳(メタデータ) (2025-02-09T18:35:08Z) - Malicious Agent Detection for Robust Multi-Agent Collaborative Perception [52.261231738242266]
多エージェント協調(MAC)知覚は、単エージェント認識よりも敵攻撃に対して脆弱である。
MAC知覚に特異的な反応防御であるMADE(Malicious Agent Detection)を提案する。
我々は、ベンチマーク3DデータセットV2X-simとリアルタイムデータセットDAIR-V2Xで包括的な評価を行う。
論文 参考訳(メタデータ) (2023-10-18T11:36:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。