論文の概要: CTRL-ALT-DECEIT: Sabotage Evaluations for Automated AI R&D
- arxiv url: http://arxiv.org/abs/2511.09904v2
- Date: Tue, 18 Nov 2025 06:58:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 13:59:16.579102
- Title: CTRL-ALT-DECEIT: Sabotage Evaluations for Automated AI R&D
- Title(参考訳): CTRL-ALT-DECEIT:自動AI研究開発のためのサボタージュ評価
- Authors: Francis Rhys Ward, Teun van der Weij, Hanna Gábor, Sam Martin, Raja Mehta Moreno, Harel Lidar, Louis Makower, Thomas Jodrell, Lauren Robson,
- Abstract要約: 機械学習(ML)エンジニアリングを行う際に,AIエージェントがユーザの興味に反して行動する能力について検討する。
現実的なMLタスクのベンチマークであるMLE-Benchを拡張し、バックドアを埋め込んだり、意図的に一般化の失敗を引き起こすようなコードサボタージュタスクを実行します。
我々は、不審なエージェントの挙動を検出するためにLMモニターを使用し、これらのモニターによって検出されることなく、モデル能力をサボタージュやサンドバッグに測定する。
- 参考スコア(独自算出の注目度): 4.230181169227057
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI systems are increasingly able to autonomously conduct realistic software engineering tasks, and may soon be deployed to automate machine learning (ML) R&D itself. Frontier AI systems may be deployed in safety-critical settings, including to help ensure the safety of future systems. Unfortunately, frontier and future systems may not be sufficiently trustworthy, and there is evidence that these systems may even be misaligned with their developers or users. Therefore, we investigate the capabilities of AI agents to act against the interests of their users when conducting ML engineering, by sabotaging ML models, sandbagging their performance, and subverting oversight mechanisms. First, we extend MLE-Bench, a benchmark for realistic ML tasks, with code-sabotage tasks such as implanting backdoors and purposefully causing generalisation failures. Frontier agents make meaningful progress on our sabotage tasks. In addition, we study agent capabilities to sandbag on MLE-Bench. Agents can calibrate their performance to specified target levels below their actual capability. To mitigate sabotage, we use LM monitors to detect suspicious agent behaviour, and we measure model capability to sabotage and sandbag without being detected by these monitors. Overall, monitors are capable at detecting code-sabotage attempts but our results suggest that detecting sandbagging is more difficult. Additionally, aggregating multiple monitor predictions works well, but monitoring may not be sufficiently reliable to mitigate sabotage in high-stakes domains. Our benchmark is implemented in the UK AISI's Inspect framework and we make our code publicly available at https://github.com/TeunvdWeij/ctrl-alt-deceit
- Abstract(参考訳): AIシステムは、現実的なソフトウェアエンジニアリングタスクを自律的に実行し、間もなく機械学習(ML)R&D自体を自動化するためにデプロイされる可能性がある。
フロンティアAIシステムは、将来のシステムの安全性を保証することを含む、安全クリティカルな設定でデプロイされる可能性がある。
残念ながら、フロンティアと将来のシステムは十分に信頼できないかもしれないし、これらのシステムが開発者やユーザと不一致である可能性さえある。
そこで我々は,機械学習モデルを妨害し,パフォーマンスをサンドバッグ化し,監視機構を覆すことによって,AIエージェントが,MLエンジニアリングを行う際のユーザの利益に対して行動する能力について検討する。
まず、現実的なMLタスクのベンチマークであるMLE-Benchを拡張し、バックドアを埋め込んだり、汎用的障害を意図的に発生させたりといったコードサボタージュタスクを実行します。
最前線のエージェントは、サボタージュのタスクに有意義な進歩をもたらす。
さらに,MLE-Bench上のサンドバッグのエージェント機能について検討した。
エージェントはパフォーマンスを、実際の能力以下の特定のターゲットレベルに調整することができる。
サボタージュを緩和するために、疑わしいエージェントの挙動を検出するためにLMモニターを使用し、これらのモニターによって検出されることなく、サボタージュとサンドバッグのモデル能力を測定する。
全体としては、モニターはコード・サボタージュの試行を検知できるが、この結果は、サンドバッグの検出がより困難であることを示唆している。
さらに、複数の監視予測を集約することはうまく機能するが、監視は高い領域におけるサボタージュを緩和するのに十分な信頼性がない可能性がある。
私たちのベンチマークは、英国AISIのInspectフレームワークで実装されており、コードをhttps://github.com/TeunvdWeij/ctrl-alt-deceitで公開しています。
関連論文リスト
- Adaptive Attacks on Trusted Monitors Subvert AI Control Protocols [80.68060125494645]
プロトコルとモニタモデルを知っている信頼できないモデルによるアダプティブアタックについて検討する。
我々は、攻撃者がモデル出力に公知またはゼロショットプロンプトインジェクションを埋め込む単純な適応攻撃ベクトルをインスタンス化する。
論文 参考訳(メタデータ) (2025-10-10T15:12:44Z) - LLMs Can Covertly Sandbag on Capability Evaluations Against Chain-of-Thought Monitoring [3.1817491936340314]
sandbaggingは、AIモデルまたはその開発者による評価における戦略的過小評価である。
有望な防御は、モデルのチェーン・オブ・シークレット(CoT)推論を監視することである。
我々は、フロンティアモデルと小さなオープンソースモデルの両方が、ヒントなしでCoTモニタリング0ショットに対して隠れてサンドバッグができることを示した。
論文 参考訳(メタデータ) (2025-07-31T15:19:30Z) - SHADE-Arena: Evaluating Sabotage and Monitoring in LLM Agents [8.02267424051267]
大規模言語モデル(LLM)は、複雑で長い地平線設定において、自律的なエージェントとしてますます多くデプロイされている。
本研究では,フロンティアLSMの監視を回避し,有害な隠れた目標を達成する能力について検討する。
SHADE(Subtle Harmful Agent Detection & Evaluation)-Arenaを用いて,広い範囲のフロンティアLSMを評価した。
論文 参考訳(メタデータ) (2025-06-17T15:46:15Z) - Among Us: A Sandbox for Measuring and Detecting Agentic Deception [1.1893676124374688]
我々は、言語ベースのエージェントが長期的かつオープンな偽装を示す社会的偽装ゲームである$textitAmong Us$を紹介した。
RLで訓練されたモデルは、検出するよりも、比較的優れた騙しを生み出すことが分かりました。
また、2つのSAE機能は、偽造検出でうまく機能するが、モデルがより少ない嘘をつくように操ることができない。
論文 参考訳(メタデータ) (2025-04-05T06:09:32Z) - Monitoring Reasoning Models for Misbehavior and the Risks of Promoting Obfuscation [56.102976602468615]
エージェントコーディング環境における報酬ハッキングのために,OpenAI o3-miniのようなフロンティア推論モデルを監視することができることを示す。
最適化が多すぎると、エージェントは難解な報酬のハッキングを学び、その意図を思考の連鎖の中に隠してしまう。
論文 参考訳(メタデータ) (2025-03-14T23:50:34Z) - AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。
以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文 参考訳(メタデータ) (2024-11-02T13:24:30Z) - Detectors for Safe and Reliable LLMs: Implementations, Uses, and Limitations [76.19419888353586]
大規模言語モデル(LLM)は、不誠実なアウトプットからバイアスや有害な世代に至るまで、さまざまなリスクを受けやすい。
我々は,様々な害のラベルを提供するコンパクトで容易に構築できる分類モデルである,検出器のライブラリを作成し,展開する取り組みについて述べる。
論文 参考訳(メタデータ) (2024-03-09T21:07:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。