論文の概要: MonitoringBench: Semi-Automated Red-Teaming for Agent Monitoring
- arxiv url: http://arxiv.org/abs/2605.09684v1
- Date: Sun, 10 May 2026 18:04:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.370099
- Title: MonitoringBench: Semi-Automated Red-Teaming for Agent Monitoring
- Title(参考訳): MonitoringBench: エージェント監視のための半自動化されたレッドチーム
- Authors: Monika Jotautaitė, Maria Angelica Martinez, Ollie Matthews, Tyler Tracy,
- Abstract要約: 我々は、監視エージェントに対するより困難な攻撃を露呈する、レッドチーム方式を導入する。
その結果、フロンティアモニターは不審な動作を検出することが多いが、説得のために倒れたり、不審な点を適切に校正できないことが判明した。
MonitoringBenchは、監視機能と障害モードを評価するための2,644のアタックトラジェクトリのベンチマークである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a red-teaming methodology that exposes harder-to-catch attacks for coding-agent monitors, suggesting that current practices may under-elicit attacks and overstate monitor performance. We identify three challenges with current red-teaming. First, mode collapse in attack generation, which we reduce with a novel attack taxonomy for broader coverage. Second, a conceive-execute gap: frontier LLMs can propose strong attack ideas or execute them, but not all at once. We mitigate this by decomposing attack construction into strategy generation, execution, and post-hoc trajectory refinement. Third, manual elicitation is costly to scale, which we address with our semi-automated red-teaming pipeline. Applied to BashArena, an AI control setting for tool-using coding agents, this pipeline produces MonitoringBench, a benchmark of 2,644 attack trajectories for evaluating monitor capabilities and failure modes. Our pipeline produces more diverse and stronger attacks: Opus-4.5 monitor's catch rate falls from 94.9\% on elicited-only Opus attacks to 60.3\% on our best refined attacks, with larger drops for several mid-tier monitors. Attacks optimized against three development monitors generalize to ten held-out monitors, with catch rates generally increasing with monitor capability. Using this benchmark, we provide a snapshot of the current monitor capabilities and find that frontier monitors often detect suspicious actions but fall for persuasion or fail to calibrate suspiciousness scores appropriately, suggesting tractable paths for improvement. MonitoringBench provides both a static benchmark for current tool-use monitors and a reusable methodology for refreshing these evaluations as agents and monitors improve.
- Abstract(参考訳): 我々は、コーディングエージェントモニタに対するハード・ツー・キャッチ・アタックを露呈するレッド・チーム方式を導入し、現在のプラクティスが過小評価されたアタックやオーバーステートモニタのパフォーマンスを損なう可能性があることを示唆した。
現在の再チームの3つの課題を特定します。
第1に、攻撃発生のモード崩壊であり、より広範な範囲で新規な攻撃分類によって減少する。
第二に、先進的かつ実行的なギャップ:フロンティアのLSMは強力な攻撃的アイデアを提案したり、実行したりできるが、全てを一度に実行するわけではない。
我々は、攻撃構造を戦略生成、実行、およびポストホック軌道修正に分解することでこれを緩和する。
第3に,手作業による導入はスケールアップにコストがかかります。
ツールを使用するコーディングエージェントのためのAIコントロール設定であるBashArenaに適用されるこのパイプラインは、監視機能と障害モードを評価するための2,644のアタックトラジェクトリのベンチマークであるMessageBenchを生成する。
Opus-4.5モニターのキャッチレートが94.9 %から60.3 %に低下し、複数の中間層モニタがダウンする。
3つの開発モニタに最適化されたアタックは、一般的に10のホールドアウトモニターに一般化され、一般的にはモニター機能によってキャッチレートが増加する。
このベンチマークを用いて、現在のモニタ機能のスナップショットを提供し、フロンティアモニタがしばしば不審な動作を検知するが、説得に失敗するか、不審なスコアを適切に校正できないことを発見した。
MonitoringBenchは、現在のツール使用モニタの静的ベンチマークと、エージェントやモニタの改善としてこれらの評価を更新するための再利用可能な方法論を提供する。
関連論文リスト
- Step-level Optimization for Efficient Computer-use Agents [51.29573359027217]
我々は、強力なコンピュータ利用エージェントは、実際は高価で遅いと論じている。
本稿では,コンピュータ利用エージェントのためのイベント駆動ステップレベルカスケードを提案する。
論文 参考訳(メタデータ) (2026-04-29T19:59:36Z) - DeceptGuard :A Constitutional Oversight Framework For Detecting Deception in LLM Agents [0.0]
3つの監視体制を体系的に比較する統合フレームワークであるDECEPTGUARDを紹介する。
提案するDECEPTSYNTHは,偽陽性および偽陰性なエージェントトラジェクトリを生成する,スケーラブルな合成パイプラインである。
モニタは4,800個の合成軌道に最適化され、DeceptArenaの9,200個のホールドアウトサンプルで評価された。
論文 参考訳(メタデータ) (2026-03-14T06:45:43Z) - Detecting Object Tracking Failure via Sequential Hypothesis Testing [80.7891291021747]
ビデオにおけるリアルタイムのオンラインオブジェクト追跡は、コンピュータビジョンにおける中核的なタスクである。
本稿では,物体追跡を逐次的仮説テストとして解釈することを提案する。
本研究では,地中追跡情報と内部追跡情報の両方を活用することにより,教師なしと教師なしの両方の変種を提案する。
論文 参考訳(メタデータ) (2026-02-13T14:57:15Z) - Bypassing AI Control Protocols via Agent-as-a-Proxy Attacks [12.356708678431183]
現在の防御は、エージェントのChain-of-Thought(CoT)とツール使用アクションを共同で評価し、ユーザの意図との整合性を保証する監視プロトコルに依存している。
これらの監視ベースの防御は、新しいエージェント・アズ・ア・プロキシ・ア・プロキシ・アタックによってバイパス可能であることを実証する。
以上の結果から,現在の監視型エージェント防御は,モデルスケールによらず根本的に脆弱であることが示唆された。
論文 参考訳(メタデータ) (2026-02-04T21:38:38Z) - Adaptive Attacks on Trusted Monitors Subvert AI Control Protocols [80.68060125494645]
プロトコルとモニタモデルを知っている信頼できないモデルによるアダプティブアタックについて検討する。
我々は、攻撃者がモデル出力に公知またはゼロショットプロンプトインジェクションを埋め込む単純な適応攻撃ベクトルをインスタンス化する。
論文 参考訳(メタデータ) (2025-10-10T15:12:44Z) - Beyond Linear Probes: Dynamic Safety Monitoring for Language Models [67.15793594651609]
従来の安全モニタは、クエリ毎に同じ量の計算を必要とする。
動的アクティベーションモニタリングのための線形プローブの自然な拡張であるTrncated Polynomials (TPCs)を紹介する。
我々の重要な洞察は、TPCを段階的に、短期的に訓練し、評価できるということです。
論文 参考訳(メタデータ) (2025-09-30T13:32:59Z) - Reliable Weak-to-Strong Monitoring of LLM Agents [6.922769543581406]
我々は,自律エージェントの隠蔽行動を検出するためのテスト監視システムを強調した。
我々は、様々なレベルのエージェントを組み込んだ監視レッドチーム(MRT)ワークフローを開発し、状況認識を監視する。
さらなる研究を促進するために、コード、データ、ログをリリースしています。
論文 参考訳(メタデータ) (2025-08-26T22:29:31Z) - Monitoring Decomposition Attacks in LLMs with Lightweight Sequential Monitors [27.976136688947093]
現在のLLMの安全防衛は分解攻撃で失敗し、悪意のあるゴールは拒否を回避する良質なサブタスクに分解される。
より粒度の高い会話を観察する外部モニタの追加を提案する。
念入りに設計した軽量モニタは93%の防衛成功率を達成し、モニタとしてo3 miniのような推論モデルを上回る結果となった。
論文 参考訳(メタデータ) (2025-06-12T17:50:58Z) - Monitoring Reasoning Models for Misbehavior and the Risks of Promoting Obfuscation [56.102976602468615]
エージェントコーディング環境における報酬ハッキングのために,OpenAI o3-miniのようなフロンティア推論モデルを監視することができることを示す。
最適化が多すぎると、エージェントは難解な報酬のハッキングを学び、その意図を思考の連鎖の中に隠してしまう。
論文 参考訳(メタデータ) (2025-03-14T23:50:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。