論文の概要: Attack Selection Reduces Safety in Concentrated AI Control Settings against Trusted Monitoring
- arxiv url: http://arxiv.org/abs/2602.04930v1
- Date: Wed, 04 Feb 2026 10:42:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.553746
- Title: Attack Selection Reduces Safety in Concentrated AI Control Settings against Trusted Monitoring
- Title(参考訳): 信頼された監視に対する集中型AI制御設定におけるアタック選択による安全性の低減
- Authors: Joachim Schaeffer, Arjun Khandelwal, Tyler Tracy,
- Abstract要約: 我々は、AIがモニターを逆選択することで、モニターを逆転させる能力について研究する。
攻撃選択を2つの問題に分解する: 攻撃を品質スコアにマッピングし、品質スコアを確率にマッピングする。
攻撃モデルが攻撃選択に慎重でありながら、監視を判断するよう促すことで、監査予算0.5%において、ベースラインの99%から59%の安全性が低下することがわかった。
- 参考スコア(独自算出の注目度): 13.259219714721242
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Future AI deployments will likely be monitored for malicious behaviour. The ability of these AIs to subvert monitors by adversarially selecting against them - attack selection - is particularly concerning. To study this, we let a red team create attack policies that attempt to insert attacks into code without being caught by a monitor in the concentrated BigCodeBench backdooring setting. We decompose attack selection into two problems: mapping attacks to a quality score and mapping quality scores to submission probabilities. We frame attack selection as a classification problem and show that safety is significantly more sensitive to FPR than TPR. We find that prompting the attacker model to reason about the monitor while being cautious with attack selection reduces safety from a baseline of 99% to 59% at 0.5% auditing budget, emphasizing that eliciting attack selection capabilities of models is vital to avoid overly optimistic safety scores in control evaluations.
- Abstract(参考訳): 将来のAIデプロイメントは、悪意のある振る舞いのために監視される可能性が高い。
これらのAIがモニターを逆選択する能力 – 攻撃選択 – を特に関係している。
これを研究するために、Redチームは、集中したBigCodeBenchバックドア設定でモニターに捕捉されることなく、コードにアタックを挿入しようとするアタックポリシーを作成しました。
攻撃選択を2つの問題に分解する: 攻撃を品質スコアにマッピングし、品質スコアを確率にマッピングする。
攻撃選択は分類問題であり,安全性はTPRよりもFPRにかなり敏感であることを示す。
攻撃選択に注意しながら、攻撃モデルに監視を判断させると、基準ラインの99%から59%までの安全性が 0.5% の監査予算で低下し、制御評価において過度に楽観的な安全スコアを避けるためには、モデルの攻撃選択能力を引き出すことが不可欠である、と強調する。
関連論文リスト
- Adaptive Attacks on Trusted Monitors Subvert AI Control Protocols [80.68060125494645]
プロトコルとモニタモデルを知っている信頼できないモデルによるアダプティブアタックについて検討する。
我々は、攻撃者がモデル出力に公知またはゼロショットプロンプトインジェクションを埋め込む単純な適応攻撃ベクトルをインスタンス化する。
論文 参考訳(メタデータ) (2025-10-10T15:12:44Z) - Adaptive Attacks Break Defenses Against Indirect Prompt Injection Attacks on LLM Agents [3.5248694676821484]
我々は8つの異なる防御効果を評価し、それら全てを適応攻撃を用いてバイパスし、連続して50%以上の攻撃成功率を達成する。
本研究は,ロバスト性と信頼性を確保するために,防御設計における適応攻撃評価の必要性を明らかにするものである。
論文 参考訳(メタデータ) (2025-02-27T04:04:50Z) - Stealthy Backdoor Attack via Confidence-driven Sampling [49.72680157684523]
バックドア攻撃は、悪質なトリガをDNNモデルに過剰に挿入することを目的としており、テストシナリオ中に不正な制御を許可している。
既存の方法では防衛戦略に対する堅牢性が欠如しており、主に無作為な試薬を無作為に選別しながら、引き金の盗難を強化することに重点を置いている。
信頼性スコアの低いサンプルを選別し、これらの攻撃を識別・対処する上で、守備側の課題を著しく増大させる。
論文 参考訳(メタデータ) (2023-10-08T18:57:36Z) - Illusory Attacks: Information-Theoretic Detectability Matters in Adversarial Attacks [76.35478518372692]
エプシロン・イリューソリー(epsilon-illusory)は、シーケンシャルな意思決定者に対する敵対的攻撃の新たな形態である。
既存の攻撃と比較して,エプシロン・イリューソリーの自動検出は極めて困難である。
以上の結果から, より優れた異常検知器, 効果的なハードウェアおよびシステムレベルの防御の必要性が示唆された。
論文 参考訳(メタデータ) (2022-07-20T19:49:09Z) - Zero-Query Transfer Attacks on Context-Aware Object Detectors [95.18656036716972]
敵は、ディープニューラルネットワークが誤った分類結果を生成するような摂動画像を攻撃する。
自然の多目的シーンに対する敵対的攻撃を防御するための有望なアプローチは、文脈整合性チェックを課すことである。
本稿では,コンテキスト整合性チェックを回避可能な,コンテキスト整合性攻撃を生成するための最初のアプローチを提案する。
論文 参考訳(メタデータ) (2022-03-29T04:33:06Z) - Voting for the right answer: Adversarial defense for speaker
verification [79.10523688806852]
ASVは敵の攻撃のレーダー下にあり、これは人間の知覚による本来の攻撃と似ている。
盲点領域におけるASVのリスクの高い決定を防止するため、「正しい回答を求める」という考え方を提案する。
実験結果から,本手法は両攻撃者に対するロバスト性を向上することが示された。
論文 参考訳(メタデータ) (2021-06-15T04:05:28Z) - A Self-supervised Approach for Adversarial Robustness [105.88250594033053]
敵対的な例は、ディープニューラルネットワーク(DNN)ベースの視覚システムにおいて破滅的な誤りを引き起こす可能性がある。
本稿では,入力空間における自己教師型対向学習機構を提案する。
これは、反逆攻撃に対する強力な堅牢性を提供する。
論文 参考訳(メタデータ) (2020-06-08T20:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。