論文の概要: Attack Selection in Agentic AI Control Evaluations Meaningfully Decreases Safety
- arxiv url: http://arxiv.org/abs/2606.06529v1
- Date: Wed, 03 Jun 2026 11:04:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.345894
- Title: Attack Selection in Agentic AI Control Evaluations Meaningfully Decreases Safety
- Title(参考訳): エージェントAI制御評価における攻撃選択は安全性を著しく低下させる
- Authors: Catherine Ge-Wang, Tyler Crosse, Benjamin Hadad, Joachim Schaeffer, Ram Potham, Tyler Tracy,
- Abstract要約: 攻撃のタイミングを戦略的に選択する攻撃者は、無差別に攻撃する攻撃よりも捕えることがはるかに難しい。
我々は、攻撃決定を開始ポリシーに分解し、攻撃者がいつ攻撃するべきかを決定するとともに、攻撃が進行中の攻撃を中止するタイミングを決定する停止ポリシーに分解することで、この能力を検証する。
1%の監査予算で、BashArenaとLinuxArenaで安全を20pp削減し、BashArenaで20pp、LinuxArenaで28pp削減します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: An attacker that strategically chooses when to attack is much harder to catch than one that attacks indiscriminately. AI control is a safety framework for deploying capable but untrusted AI agents under the oversight of a weaker, trusted monitor and a limited human audit budget. Control evaluations stress-test these protocols by pitting a red-team attack policy against the blue-team monitor, but current evaluations typically assume attackers that do not strategically select when to attack. We study this capability, attack selection, in agentic settings by decomposing attack decisions into a start policy, which decides when an attacker should attack, and a stop policy, which decides when an attacker should abort an ongoing attack. Across two agentic settings, BashArena and LinuxArena, both policies substantially lower measured empirical safety without changing the underlying attack capability. At a 1% audit budget, our start policy reduces safety by 20pp on both BashArena and LinuxArena, and our stop policy reduces safety by 20pp on BashArena and 28pp on LinuxArena. These reductions should be interpreted as upper bounds on the effect of attack selection. Existing control evaluations may therefore yield overly optimistic safety estimates against selective attackers. We recommend that future evaluations, system cards, and safety cases elicit attack selection to produce more realistic safety estimates.
- Abstract(参考訳): 攻撃のタイミングを戦略的に選択する攻撃者は、無差別に攻撃する攻撃よりも捕えることがはるかに難しい。
AIコントロールは、弱い信頼性のあるモニターと限られた人間の監査予算の下で、有能だが信頼できないAIエージェントをデプロイするための安全フレームワークである。
コントロール評価は、ブルーチームモニターに対してレッドチーム攻撃ポリシーをピットすることで、これらのプロトコルをストレステストするが、現在の評価では攻撃のタイミングを戦略的に選択しない攻撃者を前提としている。
我々は、攻撃決定を開始ポリシーに分解し、攻撃者がいつ攻撃するべきかを決定するとともに、攻撃が進行中の攻撃を中止するタイミングを決定する停止ポリシーに分解することで、エージェント設定でこの能力、攻撃選択について検討する。
2つのエージェント設定、BashArenaとLinuxArenaの2つのポリシは、基盤となる攻撃能力を変更することなく、測定された経験的安全性を大幅に低下させる。
1%の監査予算で、BashArenaとLinuxArenaで安全を20pp削減し、BashArenaで20pp、LinuxArenaで28pp削減します。
これらの削減は、攻撃選択の効果に対する上限として解釈されるべきである。
既存の制御評価は、選択的な攻撃者に対する過度に楽観的な安全性評価をもたらす可能性がある。
今後の評価、システムカード、安全ケースは、より現実的な安全性評価を得るために攻撃選択を要求することを推奨する。
関連論文リスト
- Attack Selection Reduces Safety in Concentrated AI Control Settings against Trusted Monitoring [13.259219714721242]
我々は、AIがモニターを逆選択することで、モニターを逆転させる能力について研究する。
攻撃選択を2つの問題に分解する: 攻撃を品質スコアにマッピングし、品質スコアを確率にマッピングする。
攻撃モデルが攻撃選択に慎重でありながら、監視を判断するよう促すことで、監査予算0.5%において、ベースラインの99%から59%の安全性が低下することがわかった。
論文 参考訳(メタデータ) (2026-02-04T10:42:07Z) - Evaluating Control Protocols for Untrusted AI Agents [8.75017725864459]
我々は多様なエージェント環境のデータセットであるSHADE-Arenaの制御プロトコルを体系的に評価した。
犯罪と重大行為の延期のための再サンプリングは、安全を50%から96%に向上させる。
論文 参考訳(メタデータ) (2025-11-04T21:04:49Z) - The Attacker Moves Second: Stronger Adaptive Attacks Bypass Defenses Against Llm Jailbreaks and Prompt Injections [74.60337113759313]
現在のジェイルブレイクとプロンプトインジェクションに対する防御は、通常、有害な攻撃文字列の静的セットに対して評価される。
我々は,この評価プロセスに欠陥があることを論じる。代わりに,攻撃戦略を明示的に修正したアダプティブアタッカーに対する防御を,防衛設計に対抗して評価すべきである。
論文 参考訳(メタデータ) (2025-10-10T05:51:04Z) - Rethinking Adversarial Policies: A Generalized Attack Formulation and
Provable Defense in RL [46.32591437241358]
本稿では、訓練された被害者エージェントが他のエージェントを制御する攻撃者によって悪用されるマルチエージェント設定について考察する。
以前のモデルでは、攻撃者が$alpha$に対する部分的な制御しか持たない可能性や、攻撃が容易に検出可能な"異常"な振る舞いを生じさせる可能性を考慮していない。
我々は、敵がエージェントをどの程度制御できるかをモデル化する柔軟性を持つ汎用攻撃フレームワークを導入する。
我々は、時間的分離を伴う敵の訓練を通じて、最も堅牢な被害者政策への収束を証明可能な効率のよい防御を提供する。
論文 参考訳(メタデータ) (2023-05-27T02:54:07Z) - Illusory Attacks: Information-Theoretic Detectability Matters in Adversarial Attacks [76.35478518372692]
エプシロン・イリューソリー(epsilon-illusory)は、シーケンシャルな意思決定者に対する敵対的攻撃の新たな形態である。
既存の攻撃と比較して,エプシロン・イリューソリーの自動検出は極めて困難である。
以上の結果から, より優れた異常検知器, 効果的なハードウェアおよびシステムレベルの防御の必要性が示唆された。
論文 参考訳(メタデータ) (2022-07-20T19:49:09Z) - Zero-Query Transfer Attacks on Context-Aware Object Detectors [95.18656036716972]
敵は、ディープニューラルネットワークが誤った分類結果を生成するような摂動画像を攻撃する。
自然の多目的シーンに対する敵対的攻撃を防御するための有望なアプローチは、文脈整合性チェックを課すことである。
本稿では,コンテキスト整合性チェックを回避可能な,コンテキスト整合性攻撃を生成するための最初のアプローチを提案する。
論文 参考訳(メタデータ) (2022-03-29T04:33:06Z) - Composite Adversarial Attacks [57.293211764569996]
敵対攻撃は、機械学習(ML)モデルを欺くための技術です。
本論文では,攻撃アルゴリズムの最適組み合わせを自動的に探索するための複合攻撃法(Composite Adrial Attack,CAA)を提案する。
CAAは11の防衛でトップ10の攻撃を破り、時間の経過は少ない。
論文 参考訳(メタデータ) (2020-12-10T03:21:16Z) - Policy Teaching in Reinforcement Learning via Environment Poisoning
Attacks [33.41280432984183]
本研究では,攻撃者が学習環境を害し,攻撃者が選択したターゲットポリシーの実行を強制する強化学習に対するセキュリティ上の脅威について検討する。
被害者として、無限水平問題設定における報酬を最大化するポリシーを見つけることを目的としたRLエージェントを考える。
論文 参考訳(メタデータ) (2020-11-21T16:54:45Z) - Policy Teaching via Environment Poisoning: Training-time Adversarial
Attacks against Reinforcement Learning [33.41280432984183]
本研究では,攻撃者が学習環境を害してエージェントに目標ポリシーの実行を強制する強化学習に対するセキュリティ上の脅威について検討する。
被害者として、未報告の無限水平問題設定における平均報酬を最大化するポリシーを見つけることを目的としたRLエージェントを考える。
論文 参考訳(メタデータ) (2020-03-28T23:22:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。