論文の概要: SLEIGHT-Bench: A Benchmark of Evasion Attacks Against Agent Monitors
- arxiv url: http://arxiv.org/abs/2605.16626v2
- Date: Tue, 19 May 2026 00:46:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:08.462037
- Title: SLEIGHT-Bench: A Benchmark of Evasion Attacks Against Agent Monitors
- Title(参考訳): SLEIGHT-Bench: エージェントモニターに対する侵入攻撃のベンチマーク
- Authors: Elle Najt, Colin Toft, Tyler Tracy, Fabien Roger, Joe Benton,
- Abstract要約: SLEIGHT-Bench (Subtle Low-itEration Insight-Guided Harmful Transcripts) は、11カテゴリにわたる40の攻撃を含む合成写本のベンチマークである。
40件中20件はOpus 4.6モニターで捕捉されず、10回の試験で1%の偽陽性率で思考を延長し、全体のキャッチレートは32%である。
- 参考スコア(独自算出の注目度): 3.989565392866092
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Since autonomous coding agents generate complex behaviors at high-volume, we may want to use other LLMs to monitor actions to reduce the risk from dangerous misaligned behavior. To better understand the limitations of such monitors against the diverse attack strategies that a coding agent could use, we present SLEIGHT-Bench (Subtle Low-itEration Insight-Guided Harmful Transcripts), a benchmark of synthetic transcripts containing 40 attacks across 11 categories, each showing a coding agent covertly pursuing a harmful objective (e.g. weight exfiltration, credential theft, unmonitored rogue deployment). We find that 20 of 40 attacks are never caught by an Opus 4.6 monitor with extended thinking across 10 trials at a 1% false-positive rate, while the overall catch rate is 32%. We identify several evasion strategies such as exploiting model priors, user instruction ambiguity, and state manipulation, which facilitate creating attacks that evade frontier monitors. We also elicit stronger monitor performance using coding agents as monitors versus regular prompted monitors, and for some evasion strategies show improved catch rates with targeted monitor prompts. Our dataset and evaluation framework are available at https://github.com/safety-research/sleight-bench and https://huggingface.co/datasets/sleightbench/SLEIGHT-Bench.
- Abstract(参考訳): 自律型符号化エージェントは、高ボリュームで複雑な振る舞いを発生させるので、他のLCMを使用して行動を監視し、危険な不整合行動からリスクを低減することを望むかもしれない。
SLEIGHT-Bench(Subtle Low-itEration Insight-Guided Harmful Transcripts)は、11のカテゴリに40の攻撃を含む合成テキストのベンチマークであり、それぞれが有害な目的(例えば、体重流出、クレデンシャル盗難、監視されていないローグ展開)を隠蔽的に追求するコーディングエージェントを示している。
40件中20件はOpus 4.6モニターで捕捉されず、10回の試験で1%の偽陽性率で思考を延長し、全体のキャッチレートは32%である。
モデル事前の活用,ユーザ命令のあいまいさ,状態操作などの回避戦略を特定し,フロンティアモニタを回避できる攻撃生成を容易にする。
また,プログラムエージェントをモニタとして使用する場合と,通常のプロンプトモニタとして使用する場合とでは,より強力なモニタ性能を付与し,いくつかの回避策では,ターゲットモニタプロンプトによるキャッチレートの改善が示されている。
データセットと評価フレームワークはhttps://github.com/safety-research/sleight-benchとhttps://huggingface.co/datasets/sleightbench/SLEIGHT-Benchで利用可能です。
関連論文リスト
- MonitoringBench: Semi-Automated Red-Teaming for Agent Monitoring [0.0]
我々は、監視エージェントに対するより困難な攻撃を露呈する、レッドチーム方式を導入する。
その結果、フロンティアモニターは不審な動作を検出することが多いが、説得のために倒れたり、不審な点を適切に校正できないことが判明した。
MonitoringBenchは、監視機能と障害モードを評価するための2,644のアタックトラジェクトリのベンチマークである。
論文 参考訳(メタデータ) (2026-05-10T18:04:31Z) - TraceGuard: Structured Multi-Dimensional Monitoring as a Collusion-Resistant Control Protocol [1.0195618602298684]
TraceGuardは5次元にわたるエージェントアクションを評価する構造化多次元監視プロトコルである。
オープンソースのControlArenaフレームワーク用の新しいモニタタイプとして実装されている。
論文 参考訳(メタデータ) (2026-04-05T05:05:59Z) - Bypassing AI Control Protocols via Agent-as-a-Proxy Attacks [12.356708678431183]
現在の防御は、エージェントのChain-of-Thought(CoT)とツール使用アクションを共同で評価し、ユーザの意図との整合性を保証する監視プロトコルに依存している。
これらの監視ベースの防御は、新しいエージェント・アズ・ア・プロキシ・ア・プロキシ・アタックによってバイパス可能であることを実証する。
以上の結果から,現在の監視型エージェント防御は,モデルスケールによらず根本的に脆弱であることが示唆された。
論文 参考訳(メタデータ) (2026-02-04T21:38:38Z) - Beyond Linear Probes: Dynamic Safety Monitoring for Language Models [67.15793594651609]
従来の安全モニタは、クエリ毎に同じ量の計算を必要とする。
動的アクティベーションモニタリングのための線形プローブの自然な拡張であるTrncated Polynomials (TPCs)を紹介する。
我々の重要な洞察は、TPCを段階的に、短期的に訓練し、評価できるということです。
論文 参考訳(メタデータ) (2025-09-30T13:32:59Z) - BlindGuard: Safeguarding LLM-based Multi-Agent Systems under Unknown Attacks [58.959622170433725]
BlindGuardは、攻撃固有のラベルや悪意のある振る舞いに関する事前の知識を必要とせずに学習する、教師なしの防御方法である。
BlindGuardはマルチエージェントシステムにまたがる多様な攻撃タイプ(即時注入、メモリ中毒、ツール攻撃)を効果的に検出する。
論文 参考訳(メタデータ) (2025-08-11T16:04:47Z) - Monitoring Decomposition Attacks in LLMs with Lightweight Sequential Monitors [27.976136688947093]
現在のLLMの安全防衛は分解攻撃で失敗し、悪意のあるゴールは拒否を回避する良質なサブタスクに分解される。
より粒度の高い会話を観察する外部モニタの追加を提案する。
念入りに設計した軽量モニタは93%の防衛成功率を達成し、モニタとしてo3 miniのような推論モデルを上回る結果となった。
論文 参考訳(メタデータ) (2025-06-12T17:50:58Z) - Monitoring Reasoning Models for Misbehavior and the Risks of Promoting Obfuscation [56.102976602468615]
エージェントコーディング環境における報酬ハッキングのために,OpenAI o3-miniのようなフロンティア推論モデルを監視することができることを示す。
最適化が多すぎると、エージェントは難解な報酬のハッキングを学び、その意図を思考の連鎖の中に隠してしまう。
論文 参考訳(メタデータ) (2025-03-14T23:50:34Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。