論文の概要: Evaluating Control Protocols for Untrusted AI Agents
- arxiv url: http://arxiv.org/abs/2511.02997v1
- Date: Tue, 04 Nov 2025 21:04:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.245006
- Title: Evaluating Control Protocols for Untrusted AI Agents
- Title(参考訳): 信頼できないAIエージェントの制御プロトコルの評価
- Authors: Jon Kutasov, Chloe Loughridge, Yuqi Sun, Henry Sleight, Buck Shlegeris, Tyler Tracy, Joe Benton,
- Abstract要約: 我々は多様なエージェント環境のデータセットであるSHADE-Arenaの制御プロトコルを体系的に評価した。
犯罪と重大行為の延期のための再サンプリングは、安全を50%から96%に向上させる。
- 参考スコア(独自算出の注目度): 8.75017725864459
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: As AI systems become more capable and widely deployed as agents, ensuring their safe operation becomes critical. AI control offers one approach to mitigating the risk from untrusted AI agents by monitoring their actions and intervening or auditing when necessary. Evaluating the safety of these protocols requires understanding both their effectiveness against current attacks and their robustness to adaptive adversaries. In this work, we systematically evaluate a range of control protocols in SHADE-Arena, a dataset of diverse agentic environments. First, we evaluate blue team protocols, including deferral to trusted models, resampling, and deferring on critical actions, against a default attack policy. We find that resampling for incrimination and deferring on critical actions perform best, increasing safety from 50% to 96%. We then iterate on red team strategies against these protocols and find that attack policies with additional affordances, such as knowledge of when resampling occurs or the ability to simulate monitors, can substantially improve attack success rates against our resampling strategy, decreasing safety to 17%. However, deferring on critical actions is highly robust to even our strongest red team strategies, demonstrating the importance of denying attack policies access to protocol internals.
- Abstract(参考訳): AIシステムがより有能になり、エージェントとして広くデプロイされるようになると、安全運用の確保が重要になる。
AIコントロールは、彼らの行動を監視し、必要に応じて介入または監査することにより、信頼できないAIエージェントからのリスクを軽減する1つのアプローチを提供する。
これらのプロトコルの安全性を評価するには、現在の攻撃に対する効果と、適応的な敵に対する堅牢性の両方を理解する必要がある。
本研究では,多様なエージェント環境のデータセットであるSHADE-Arenaの制御プロトコルを体系的に評価する。
まず、信頼されたモデルへの延期、再サンプリング、クリティカルアクションの延期を含むブルーチームプロトコルを、デフォルトのアタックポリシに対して評価する。
犯罪と重大行為の延期のための再サンプリングは、安全を50%から96%に向上させる。
次に、これらのプロトコルに対するレッドチーム戦略を反復し、リサンプリングの発生時期やモニタをシミュレートする能力といった追加の余裕のあるアタックポリシーが、リサンプリング戦略に対するアタック成功率を大幅に改善し、安全性を17%に低下させることを見出した。
しかしながら、重要なアクションを延期することは、最強のレッドチーム戦略に対してさえも非常に堅牢であり、プロトコル内部へのアクセスに対する攻撃ポリシーを否定することの重要性を示しています。
関連論文リスト
- Adaptive Attacks on Trusted Monitors Subvert AI Control Protocols [80.68060125494645]
プロトコルとモニタモデルを知っている信頼できないモデルによるアダプティブアタックについて検討する。
我々は、攻撃者がモデル出力に公知またはゼロショットプロンプトインジェクションを埋め込む単純な適応攻撃ベクトルをインスタンス化する。
論文 参考訳(メタデータ) (2025-10-10T15:12:44Z) - AdvEvo-MARL: Shaping Internalized Safety through Adversarial Co-Evolution in Multi-Agent Reinforcement Learning [78.5751183537704]
AdvEvo-MARLは、タスクエージェントに安全性を内部化する、共進化型マルチエージェント強化学習フレームワークである。
外部ガードに頼るのではなく、AdvEvo-MARLは攻撃者と防御者を共同で最適化する。
論文 参考訳(メタデータ) (2025-10-02T02:06:30Z) - Secure mmWave Beamforming with Proactive-ISAC Defense Against Beam-Stealing Attacks [6.81194385663614]
ミリ波通信システム(mmWave)は、高度なビームステアリング攻撃に対する感受性が増大している。
本稿では,高度深層強化学習(DRL)エージェントを有効かつ適応的な防御に利用した新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-04T19:30:09Z) - Security Challenges in AI Agent Deployment: Insights from a Large Scale Public Competition [101.86739402748995]
44の現実的なデプロイメントシナリオを対象とした,22のフロンティアAIエージェントを対象にしています。
Agent Red Teamingベンチマークを構築し、19の最先端モデルで評価します。
私たちの発見は、今日のAIエージェントの重要かつ永続的な脆弱性を浮き彫りにしたものです。
論文 参考訳(メタデータ) (2025-07-28T05:13:04Z) - Effective Red-Teaming of Policy-Adherent Agents [10.522087614181745]
タスク指向のLLMベースのエージェントは、適格性やキャンセルルールの返金といった厳格なポリシーを持つドメインで、ますます使われています。
本稿では,個人的利益のためにポリシーに忠実なエージェントを活用することを目的とした,敵対的ユーザに焦点を当てた新たな脅威モデルを提案する。
CRAFTは、ポリシーを意識した説得戦略を利用して、顧客サービスシナリオにおいてポリシーに忠実なエージェントを弱体化させるマルチエージェントのレッドチームシステムである。
論文 参考訳(メタデータ) (2025-06-11T10:59:47Z) - Ctrl-Z: Controlling AI Agents via Resampling [2.505902477669827]
マルチステップシステム管理タスクに挑戦する257のデータセットであるBashBenchを構築した。
各種安全対策により、敵に構築されたAIエージェントが悪意のあるコードを秘密裏にダウンロードして実行することを防ぐことができるかどうかを評価する。
論文 参考訳(メタデータ) (2025-04-14T16:22:11Z) - A Zero Trust Framework for Realization and Defense Against Generative AI
Attacks in Power Grid [62.91192307098067]
本稿では電力グリッドサプライチェーン(PGSC)のための新しいゼロ信頼フレームワークを提案する。
潜在的なGenAIによる攻撃ベクターの早期発見、テールリスクに基づく安定性の評価、そしてそのような脅威の緩和を容易にする。
実験の結果,ゼロ信頼フレームワークは攻撃ベクトル生成に95.7%の精度,95%安定PGSCに9.61%のリスク尺度,GenAIによる攻撃に対する防御に99%の信頼性が得られた。
論文 参考訳(メタデータ) (2024-03-11T02:47:21Z) - Illusory Attacks: Information-Theoretic Detectability Matters in Adversarial Attacks [76.35478518372692]
エプシロン・イリューソリー(epsilon-illusory)は、シーケンシャルな意思決定者に対する敵対的攻撃の新たな形態である。
既存の攻撃と比較して,エプシロン・イリューソリーの自動検出は極めて困難である。
以上の結果から, より優れた異常検知器, 効果的なハードウェアおよびシステムレベルの防御の必要性が示唆された。
論文 参考訳(メタデータ) (2022-07-20T19:49:09Z) - Robust Reinforcement Learning on State Observations with Learned Optimal
Adversary [86.0846119254031]
逆摂動状態観測による強化学習の堅牢性について検討した。
固定されたエージェントポリシーでは、摂動状態の観測に最適な敵を見つけることができる。
DRLの設定では、これは以前のものよりもはるかに強い学習された敵対を介してRLエージェントに新しい経験的敵対攻撃につながります。
論文 参考訳(メタデータ) (2021-01-21T05:38:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。