論文の概要: Async Control: Stress-testing Asynchronous Control Measures for LLM Agents
- arxiv url: http://arxiv.org/abs/2512.13526v1
- Date: Mon, 15 Dec 2025 16:56:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.764617
- Title: Async Control: Stress-testing Asynchronous Control Measures for LLM Agents
- Title(参考訳): 非同期制御:LLMエージェントの応力試験非同期制御
- Authors: Asa Cooper Stickland, Jan Michelfeit, Arathi Mani, Charlie Griffin, Ollie Matthews, Tomek Korbak, Rogan Inglis, Oliver Makins, Alan Cooney,
- Abstract要約: 非同期モニタリングにおいて,モニタリングシステムがエージェントの動作を後回しにレビューする手法について検討する。
同期監視とは異なり、このアプローチは実行時のレイテンシを課すことなく、不可逆的な害が起こる前に攻撃を妨害しようとする。
私たちは、モニター開発を、ブルーチーム(モニターを設計する)とレッドチーム(破壊エージェントを作成する)の敵対的なゲームとして扱う。
- 参考スコア(独自算出の注目度): 2.7146936326590425
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-based software engineering agents are increasingly used in real-world development tasks, often with access to sensitive data or security-critical codebases. Such agents could intentionally sabotage these codebases if they were misaligned. We investigate asynchronous monitoring, in which a monitoring system reviews agent actions after the fact. Unlike synchronous monitoring, this approach does not impose runtime latency, while still attempting to disrupt attacks before irreversible harm occurs. We treat monitor development as an adversarial game between a blue team (who design monitors) and a red team (who create sabotaging agents). We attempt to set the game rules such that they upper bound the sabotage potential of an agent based on Claude 4.1 Opus. To ground this game in a realistic, high-stakes deployment scenario, we develop a suite of 5 diverse software engineering environments that simulate tasks that an agent might perform within an AI developer's internal infrastructure. Over the course of the game, we develop an ensemble monitor that achieves a 6% false negative rate at 1% false positive rate on a held out test environment. Then, we estimate risk of sabotage at deployment time by extrapolating from our monitor's false negative rate. We describe one simple model for this extrapolation, present a sensitivity analysis, and describe situations in which the model would be invalid. Code is available at: https://github.com/UKGovernmentBEIS/async-control.
- Abstract(参考訳): LLMベースのソフトウェアエンジニアリングエージェントは、しばしば機密データやセキュリティクリティカルなコードベースへのアクセスによって、現実世界の開発タスクでますます使われている。
このようなエージェントは、不一致であれば、意図的にこれらのコードベースを妨害する可能性がある。
非同期モニタリングにおいて,モニタリングシステムがエージェントの動作を後回しにレビューする手法について検討する。
同期監視とは異なり、このアプローチは実行時のレイテンシを課すことなく、不可逆的な害が起こる前に攻撃を妨害しようとする。
私たちは、モニター開発を、ブルーチーム(モニターを設計する)とレッドチーム(破壊エージェントを作成する)の敵対的なゲームとして扱う。
我々は、クロード4.1オプスに基づくエージェントのサボタージュポテンシャルを上限とするゲームルールの設定を試みる。
このゲームを、現実的で高レベルのデプロイメントシナリオで構築するために、エージェントがAI開発者の内部インフラストラクチャ内で実行する可能性のあるタスクをシミュレートする、5つの多様なソフトウェアエンジニアリング環境のスイートを開発しました。
ゲーム中、テスト環境において6%の偽陰性率を1%の偽陽性率で達成するアンサンブルモニタを開発した。
次に、モニタの偽陰性率から外挿することで、デプロイメント時のサボタージュのリスクを推定する。
本稿では, この外挿の簡易モデルについて述べるとともに, 感度解析を行い, モデルが無効となる状況について述べる。
コードは、https://github.com/UKGovernmentBEIS/async-control.comで入手できる。
関連論文リスト
- CTRL-ALT-DECEIT: Sabotage Evaluations for Automated AI R&D [4.230181169227057]
機械学習(ML)エンジニアリングを行う際に,AIエージェントがユーザの興味に反して行動する能力について検討する。
現実的なMLタスクのベンチマークであるMLE-Benchを拡張し、バックドアを埋め込んだり、意図的に一般化の失敗を引き起こすようなコードサボタージュタスクを実行します。
我々は、不審なエージェントの挙動を検出するためにLMモニターを使用し、これらのモニターによって検出されることなく、モデル能力をサボタージュやサンドバッグに測定する。
論文 参考訳(メタデータ) (2025-11-13T03:02:36Z) - Adaptive Attacks on Trusted Monitors Subvert AI Control Protocols [80.68060125494645]
プロトコルとモニタモデルを知っている信頼できないモデルによるアダプティブアタックについて検討する。
我々は、攻撃者がモデル出力に公知またはゼロショットプロンプトインジェクションを埋め込む単純な適応攻撃ベクトルをインスタンス化する。
論文 参考訳(メタデータ) (2025-10-10T15:12:44Z) - Impatient Users Confuse AI Agents: High-fidelity Simulations of Human Traits for Testing Agents [58.00130492861884]
TraitBasisは、AIエージェントを体系的にストレステストするための軽量でモデルに依存しない方法である。
TraitBasisは、ステアブルなユーザ特性に対応するアクティベーション空間で方向を学習する。
We observed on average a 2%-30% performance degradation on $tau$-Trait across frontier model。
論文 参考訳(メタデータ) (2025-10-06T05:03:57Z) - AgentSight: System-Level Observability for AI Agents Using eBPF [10.37440633887049]
既存のツールは、エージェントの高レベルな意図(LSMプロンプトを介して)または低レベルな行動(例えば、システムコール)を観察するが、これら2つのビューを関連付けることはできない。
AgentOpsはハイブリッドアプローチを使用して,このセマンティックギャップをブリッジする,AgentOpsオブザーバビリティフレームワークです。
AgentSightはTLS暗号化されたLLMトラフィックをインターセプトしてセマンティックインテントを抽出し、カーネルイベントを監視してシステム全体の効果を観察し、これら2つのストリームをプロセス境界を越えて因果的に関連付ける。
論文 参考訳(メタデータ) (2025-08-02T01:43:39Z) - DRIFT: Dynamic Rule-Based Defense with Injection Isolation for Securing LLM Agents [52.92354372596197]
大規模言語モデル(LLM)は、強力な推論と計画能力のため、エージェントシステムの中心となってきています。
この相互作用は、外部ソースからの悪意のある入力がエージェントの振る舞いを誤解させる可能性がある、インジェクション攻撃のリスクも引き起こす。
本稿では,信頼に値するエージェントシステムのための動的ルールベースの分離フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-13T05:01:09Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z) - Can Agents Run Relay Race with Strangers? Generalization of RL to
Out-of-Distribution Trajectories [88.08381083207449]
異種エージェントの制御可能な状態に対する一般化失敗の有病率を示す。
本稿では,学習中のQ関数に従って環境をエージェントの旧状態にリセットする,STA(Self-Trajectory Augmentation)という新しい手法を提案する。
論文 参考訳(メタデータ) (2023-04-26T10:12:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。