論文の概要: Factor(T,U): Factored Cognition Strengthens Monitoring of Untrusted AI
- arxiv url: http://arxiv.org/abs/2512.02157v1
- Date: Mon, 01 Dec 2025 19:37:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.582326
- Title: Factor(T,U): Factored Cognition Strengthens Monitoring of Untrusted AI
- Title(参考訳): 因子(T,U):信頼できないAIの認知強化モニタリング
- Authors: Aaron Sandoval, Cody Rushing,
- Abstract要約: 信頼されたモデルがタスクを分解し、信頼できないモデルがそれぞれの子タスクを分離して解決し、その結果が完全なソリューションに再組み立てされる、因子認識に基づくプロトコルを開発する。
我々は、APPS符号化設定にプロトコルを実装し、敵のGPT-4.1 Nanoのバックドア試行に対してレッドチームで対処する。
i)信頼監視プロトコルに因子認識を追加することで安全性が41%から63%向上し,(ii)監視性能が向上するため安全性が向上し,(iii)有能なLCMがAPPSでバックドアを書くのが難しくなる。
- 参考スコア(独自算出の注目度): 2.383032749450152
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The field of AI Control seeks to develop robust control protocols, deployment safeguards for untrusted AI which may be intentionally subversive. However, existing protocols that rely on weaker monitors to detect unsafe behavior often fail on complex tasks beyond the monitor's comprehension. We develop control protocols based on factored cognition, in which a trusted model decomposes a task, an untrusted model solves each resultant child task in isolation, and the results are reassembled into a full solution. These protocols may improve safety by several means, such as by simplifying the context for monitors, or by obscuring vulnerabilities in the environment. We implement our protocols in the APPS coding setting and red team them against backdoor attempts from an adversarial GPT-4.1 Nano. We find that: (i) Adding factored cognition to a trusted monitoring protocol can boost safety from 41% to 63%; (ii) Safety improves because monitor performance improves; (iii) Factored cognition makes it no harder for capable LLMs to write backdoors in APPS. While our protocols show low usefulness in APPS, they hold promise for more complex tasks.
- Abstract(参考訳): AI Controlの分野は、堅牢な制御プロトコルや、意図的に逆転する可能性のある信頼できないAIのデプロイメントセーフガードの開発を目指している。
しかしながら、安全でない振る舞いを検出するためにより弱いモニターに依存する既存のプロトコルは、モニターの理解を超えた複雑なタスクで失敗することが多い。
信頼されたモデルがタスクを分解し、信頼できないモデルがそれぞれの子タスクを分離して解決し、その結果が完全な解に再組み立てされる、因子認識に基づく制御プロトコルを開発する。
これらのプロトコルは、監視のコンテキストを単純化したり、環境の脆弱性を隠蔽したりすることで、安全性を向上させることができる。
我々は、APPS符号化設定にプロトコルを実装し、敵のGPT-4.1 Nanoのバックドア試行に対してレッドチームで対処する。
以下に示す。
一 信頼監視プロトコルに要因認知を加えることにより、安全性を41%から63%に向上させることができる。
二 監視性能が向上するため、安全が向上する。
三 因子認知により、有能なLLMがAPPSにバックドアを書くのが難しくならない。
我々のプロトコルはAPPSでは有用性が低いが、より複雑なタスクを約束する。
関連論文リスト
- Adaptive Attacks on Trusted Monitors Subvert AI Control Protocols [80.68060125494645]
プロトコルとモニタモデルを知っている信頼できないモデルによるアダプティブアタックについて検討する。
我々は、攻撃者がモデル出力に公知またはゼロショットプロンプトインジェクションを埋め込む単純な適応攻撃ベクトルをインスタンス化する。
論文 参考訳(メタデータ) (2025-10-10T15:12:44Z) - AdvEvo-MARL: Shaping Internalized Safety through Adversarial Co-Evolution in Multi-Agent Reinforcement Learning [78.5751183537704]
AdvEvo-MARLは、タスクエージェントに安全性を内部化する、共進化型マルチエージェント強化学習フレームワークである。
外部ガードに頼るのではなく、AdvEvo-MARLは攻撃者と防御者を共同で最適化する。
論文 参考訳(メタデータ) (2025-10-02T02:06:30Z) - Combining Cost-Constrained Runtime Monitors for AI Safety [0.25655761752240497]
複数のランタイムモニタを単一の監視プロトコルに効率的に組み合わせる方法について検討する。
我々のフレームワークは、望ましくない振る舞いを検出するために既存のモニターを組み合わせるための原則化された方法論を提供する。
論文 参考訳(メタデータ) (2025-07-19T04:28:40Z) - Chain of Thought Monitorability: A New and Fragile Opportunity for AI Safety [85.79426562762656]
CoTモニタリングは不完全であり、一部の誤った行動に気づかないままにすることができる。
我々は、既存の安全手法とともに、CoT監視可能性とCoT監視への投資についてさらなる研究を推奨する。
CoTの監視性は脆弱である可能性があるので、フロンティアモデル開発者がCoTの監視性に対する開発決定の影響を考慮することを推奨します。
論文 参考訳(メタデータ) (2025-07-15T16:43:41Z) - Ctrl-Z: Controlling AI Agents via Resampling [2.505902477669827]
マルチステップシステム管理タスクに挑戦する257のデータセットであるBashBenchを構築した。
各種安全対策により、敵に構築されたAIエージェントが悪意のあるコードを秘密裏にダウンロードして実行することを防ぐことができるかどうかを評価する。
論文 参考訳(メタデータ) (2025-04-14T16:22:11Z) - Monitoring Reasoning Models for Misbehavior and the Risks of Promoting Obfuscation [56.102976602468615]
エージェントコーディング環境における報酬ハッキングのために,OpenAI o3-miniのようなフロンティア推論モデルを監視することができることを示す。
最適化が多すぎると、エージェントは難解な報酬のハッキングを学び、その意図を思考の連鎖の中に隠してしまう。
論文 参考訳(メタデータ) (2025-03-14T23:50:34Z) - CP-Guard+: A New Paradigm for Malicious Agent Detection and Defense in Collaborative Perception [53.088988929450494]
協調知覚(CP)は、安全で自律的な運転のための有望な方法である。
本稿では,悪意のあるエージェントを機能レベルで効果的に識別する,悪意のあるエージェント検出のための新しいパラダイムを提案する。
また,CP-Guard+と呼ばれる堅牢な防御手法を開発し,良性の表現と悪質な特徴とのマージンを高める。
論文 参考訳(メタデータ) (2025-02-07T12:58:45Z) - A Survey and Comparative Analysis of Security Properties of CAN Authentication Protocols [92.81385447582882]
コントロールエリアネットワーク(CAN)バスは車内通信を本質的に安全でないものにしている。
本稿では,CANバスにおける15の認証プロトコルをレビューし,比較する。
実装の容易性に寄与する本質的な運用基準に基づくプロトコルの評価を行う。
論文 参考訳(メタデータ) (2024-01-19T14:52:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。