論文の概要: When can we trust untrusted monitoring? A safety case sketch across collusion strategies
- arxiv url: http://arxiv.org/abs/2602.20628v1
- Date: Tue, 24 Feb 2026 07:23:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.644137
- Title: When can we trust untrusted monitoring? A safety case sketch across collusion strategies
- Title(参考訳): 信頼できない監視をいつ信頼できるのか? 共謀戦略を巡っての安全ケーススケッチ
- Authors: Nelson Gardner-Challis, Jonathan Bostock, Georgiy Kozhevnikov, Morgan Sinclaire, Joan Velja, Alessandro Abate, Charlie Griffin,
- Abstract要約: プリデプロイテストに基づく安全性の厳格な実証方法を開発した。
我々は、受動的自己認識、因果共謀(隠蔽された信号)、因果共謀(スケジューリングポイント経由の隠蔽信号)、複合戦略を含む分類学を開発する。
- 参考スコア(独自算出の注目度): 43.912646993501106
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AIs are increasingly being deployed with greater autonomy and capabilities, which increases the risk that a misaligned AI may be able to cause catastrophic harm. Untrusted monitoring -- using one untrusted model to oversee another -- is one approach to reducing risk. Justifying the safety of an untrusted monitoring deployment is challenging because developers cannot safely deploy a misaligned model to test their protocol directly. In this paper, we develop upon existing methods for rigorously demonstrating safety based on pre-deployment testing. We relax assumptions that previous AI control research made about the collusion strategies a misaligned AI might use to subvert untrusted monitoring. We develop a taxonomy covering passive self-recognition, causal collusion (hiding pre-shared signals), acausal collusion (hiding signals via Schelling points), and combined strategies. We create a safety case sketch to clearly present our argument, explicitly state our assumptions, and highlight unsolved challenges. We identify conditions under which passive self-recognition could be a more effective collusion strategy than those studied previously. Our work builds towards more robust evaluations of untrusted monitoring.
- Abstract(参考訳): AIはますます、より大きな自律性と能力でデプロイされているため、不一致のAIが破滅的な被害を引き起こすリスクが高まる。
信頼できない監視 — ある信頼できないモデルを使用して、別の監視を行う — は、リスクを低減するためのアプローチのひとつだ。
信頼できない監視デプロイメントの安全性を正当化することは、開発者がプロトコルを直接テストするために、不整合モデルを安全にデプロイできないため、難しい。
本稿では,プリデプロイテストに基づく安全性の厳密な実証方法を開発する。
我々は、AIが信頼できない監視を覆すために、不正に一致したAIが使用するかもしれない共謀戦略について、これまでのAI制御研究が行った仮定を緩和する。
我々は、受動的自己認識、因果共謀(隠蔽された信号)、因果共謀(スケジュールポイント経由の隠蔽信号)、複合戦略を含む分類学を開発する。
安全ケースのスケッチを作成して、議論を明確に提示し、仮定を明確に述べ、未解決の課題を強調します。
我々は、受動的自己認識が、以前研究されたものよりも効果的な共謀戦略になり得る条件を特定した。
当社の作業は、信頼できない監視のより堅牢な評価に向けて構築されています。
関連論文リスト
- Incentive-Aware AI Safety via Strategic Resource Allocation: A Stackelberg Security Games Perspective [31.55000083809067]
私たちは、ゲーム理論による抑止がAIを積極的に監視し、リスクを認識し、操作に対して回復力を与える方法を示します。
本稿では,(1)データ/フィードバック中毒に対するトレーニング時間監査,(2)制約されたレビュアーリソースによる事前デプロイ評価,(3)敵環境における堅牢なマルチモデル展開について報告する。
論文 参考訳(メタデータ) (2026-02-06T23:20:26Z) - Factor(T,U): Factored Cognition Strengthens Monitoring of Untrusted AI [2.383032749450152]
信頼されたモデルがタスクを分解し、信頼できないモデルがそれぞれの子タスクを分離して解決し、その結果が完全なソリューションに再組み立てされる、因子認識に基づくプロトコルを開発する。
我々は、APPS符号化設定にプロトコルを実装し、敵のGPT-4.1 Nanoのバックドア試行に対してレッドチームで対処する。
i)信頼監視プロトコルに因子認識を追加することで安全性が41%から63%向上し,(ii)監視性能が向上するため安全性が向上し,(iii)有能なLCMがAPPSでバックドアを書くのが難しくなる。
論文 参考訳(メタデータ) (2025-12-01T19:37:08Z) - Adaptive Attacks on Trusted Monitors Subvert AI Control Protocols [80.68060125494645]
プロトコルとモニタモデルを知っている信頼できないモデルによるアダプティブアタックについて検討する。
我々は、攻撃者がモデル出力に公知またはゼロショットプロンプトインジェクションを埋め込む単純な適応攻撃ベクトルをインスタンス化する。
論文 参考訳(メタデータ) (2025-10-10T15:12:44Z) - Oyster-I: Beyond Refusal -- Constructive Safety Alignment for Responsible Language Models [93.5740266114488]
コンストラクティブ・セーフティ・アライメント(CSA)は、悪意のある誤用を防ぎつつ、脆弱性のあるユーザを安全で有益な結果へと積極的に誘導する。
Oy1は、高度な汎用能力を保ちながら、オープンモデル間の最先端の安全性を達成する。
私たちは、責任あるユーザ中心AIをサポートするために、Oy1、コード、ベンチマークをリリースしています。
論文 参考訳(メタデータ) (2025-09-02T03:04:27Z) - A sketch of an AI control safety case [3.753791609999324]
LLMエージェントが障害を引き起こすためのキャパシティが向上するにつれて、AI開発者は、安全であることを正当化するために監視などのコントロール手段をますます頼りにしている。
開発者が"コントロールセーフティケース"を構築する方法についてスケッチします。
この安全ケーススケッチは、危険な能力を持つLLMエージェントが安全にデプロイ可能であることを示すために使用できる、より具体的な議論への一歩です。
論文 参考訳(メタデータ) (2025-01-28T21:52:15Z) - Adaptive Deployment of Untrusted LLMs Reduces Distributed Threats [22.843390303635655]
大規模言語モデルが意図的に回避しようとする場合でも,安全対策が有効かどうかを検討する。
マイクロプロトコールの選択には、適応マクロプロトコールを使用する2段階のデプロイメントフレームワークを使用する。
有効なレベルでは、適応的デプロイメント戦略は、非適応的ベースラインに比べて、バックドアの数を80%削減します。
論文 参考訳(メタデータ) (2024-11-26T18:58:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。