論文の概要: Practical challenges of control monitoring in frontier AI deployments
- arxiv url: http://arxiv.org/abs/2512.22154v1
- Date: Mon, 15 Dec 2025 15:54:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-04 08:45:17.081237
- Title: Practical challenges of control monitoring in frontier AI deployments
- Title(参考訳): フロンティアAIデプロイメントにおける制御監視の実践的課題
- Authors: David Lindner, Charlie Griffin, Tomek Korbak, Roland S. Zimmermann, Geoffrey Irving, Sebastian Farquhar, Alan Cooney,
- Abstract要約: コントロールモニターは、私たちが完全に信頼していない高度なAIエージェントを監督する上で重要な役割を果たす可能性がある。
これまでの作業では、単純化された設定でのコントロール監視について検討されてきたが、実際のデプロイメントに対する監視のスケーリングには、さらなるダイナミクスが導入されている。
本稿では、これらの課題に対処するための設計選択を分析し、異なるレイテンシーセーフなトレードオフによる3種類のモニタリングに焦点を当てる。
- 参考スコア(独自算出の注目度): 15.281070904065613
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated control monitors could play an important role in overseeing highly capable AI agents that we do not fully trust. Prior work has explored control monitoring in simplified settings, but scaling monitoring to real-world deployments introduces additional dynamics: parallel agent instances, non-negligible oversight latency, incremental attacks between agent instances, and the difficulty of identifying scheming agents based on individual harmful actions. In this paper, we analyse design choices to address these challenges, focusing on three forms of monitoring with different latency-safety trade-offs: synchronous, semi-synchronous, and asynchronous monitoring. We introduce a high-level safety case sketch as a tool for understanding and comparing these monitoring protocols. Our analysis identifies three challenges -- oversight, latency, and recovery -- and explores them in four case studies of possible future AI deployments.
- Abstract(参考訳): 自動制御モニターは、完全に信頼できない高度なAIエージェントを監督する上で重要な役割を果たす可能性がある。
並列エージェントインスタンス、非無視の監視レイテンシ、エージェントインスタンス間のインクリメンタルアタック、個々の有害なアクションに基づいたスケジュールエージェントの特定の難しさなどだ。
本稿では、同期、半同期、非同期の3種類のモニタリングに焦点をあて、これらの課題に対処するための設計上の選択について分析する。
監視プロトコルの理解と比較のためのツールとして,高レベルの安全ケーススケッチを紹介した。
私たちの分析では、監視、レイテンシ、リカバリという3つの課題を特定し、将来のAIデプロイメントに関する4つのケーススタディで調査しています。
関連論文リスト
- Adaptive Attacks on Trusted Monitors Subvert AI Control Protocols [80.68060125494645]
プロトコルとモニタモデルを知っている信頼できないモデルによるアダプティブアタックについて検討する。
我々は、攻撃者がモデル出力に公知またはゼロショットプロンプトインジェクションを埋め込む単純な適応攻撃ベクトルをインスタンス化する。
論文 参考訳(メタデータ) (2025-10-10T15:12:44Z) - Reliable Weak-to-Strong Monitoring of LLM Agents [6.922769543581406]
我々は,自律エージェントの隠蔽行動を検出するためのテスト監視システムを強調した。
我々は、様々なレベルのエージェントを組み込んだ監視レッドチーム(MRT)ワークフローを開発し、状況認識を監視する。
さらなる研究を促進するために、コード、データ、ログをリリースしています。
論文 参考訳(メタデータ) (2025-08-26T22:29:31Z) - Chain of Thought Monitorability: A New and Fragile Opportunity for AI Safety [85.79426562762656]
CoTモニタリングは不完全であり、一部の誤った行動に気づかないままにすることができる。
我々は、既存の安全手法とともに、CoT監視可能性とCoT監視への投資についてさらなる研究を推奨する。
CoTの監視性は脆弱である可能性があるので、フロンティアモデル開発者がCoTの監視性に対する開発決定の影響を考慮することを推奨します。
論文 参考訳(メタデータ) (2025-07-15T16:43:41Z) - CoT Red-Handed: Stress Testing Chain-of-Thought Monitoring [3.6284577335311563]
CoT(Chain-of-Thought)モニタリングは、アクションのみの監視がサボタージュを確実に識別できないシナリオにおいて、最大27ポイントの検出を改善する。
CoTトレースはまた、モニターを欺く誤解を招く合理化も含み、より明白なサボタージュケースのパフォーマンスを低下させる。
このハイブリッドモニターは、テストされたすべてのモデルとタスクにわたってCoTとアクションオンリーのモニターを一貫して上回り、微妙な詐欺シナリオに対するアクションオンリーのモニタリングよりも4倍高い速度で検出する。
論文 参考訳(メタデータ) (2025-05-29T15:47:36Z) - Code-as-Monitor: Constraint-aware Visual Programming for Reactive and Proactive Robotic Failure Detection [56.66677293607114]
オープンセットのリアクティブかつアクティブな障害検出のためのCode-as-Monitor(CaM)を提案する。
モニタリングの精度と効率を高めるために,制約関連エンティティを抽象化する制約要素を導入する。
実験により、CaMは28.7%高い成功率を達成し、厳しい乱れの下で実行時間を31.8%短縮することが示された。
論文 参考訳(メタデータ) (2024-12-05T18:58:27Z) - Real-time Multi-modal Object Detection and Tracking on Edge for Regulatory Compliance Monitoring [8.561515801903987]
飛行時間とRGBカメラを用いたリアルタイムマルチモーダルセンシングシステムを提案する。
これにより、継続的なオブジェクト追跡が記録保持の効率を高め、手作業による介入を最小限にすることができる。
論文 参考訳(メタデータ) (2023-10-05T06:31:38Z) - Digging into Uncertainty in Self-supervised Multi-view Stereo [57.04768354383339]
自己教師型学習のための新しいuncertainty reduction Multi-view Stereo(UMVS)フレームワークを提案する。
我々のフレームワークは、教師なしのMVSメソッドの中で最高のパフォーマンスを達成し、教師なしの対戦相手と競合する性能を実現している。
論文 参考訳(メタデータ) (2021-08-30T02:53:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。