論文の概要: Ensemble Monitoring for AI Control: Diverse Signals Outweigh More Compute
- arxiv url: http://arxiv.org/abs/2605.15377v2
- Date: Mon, 18 May 2026 07:58:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:46.099233
- Title: Ensemble Monitoring for AI Control: Diverse Signals Outweigh More Compute
- Title(参考訳): AI制御のためのアンサンブルモニタリング
- Authors: Eugene Koran, Yejun Yun, Samantha Tetef, Benjamin Arnav, Pablo Bernabeu-Pérez,
- Abstract要約: 多様なモニタからの信号をアンサンブルに組み合わせることで、不整合動作の検出が向上することを示す。
GPT-4.1-Miniモニタを12台構築する。
ベスト3モニタアンサンブルは、3つの同一モニタからなるアンサンブルに比べて2.4倍高い検出性能が得られる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As AI systems are increasingly deployed in autonomous agentic settings at scale, it is important to ensure the actions they take are safe and aligned with user intent. Monitoring agent actions is a key safety mechanism, yet reliable monitors remain difficult to build and the scale of these systems makes human oversight impractical. We show that combining signals from diverse monitors into an ensemble improves detection of misaligned actions. We build 12 GPT-4.1-Mini monitors using both prompting and fine-tuning strategies. We evaluate them on coding tasks where candidate solutions pass standard tests but fail on adversarial inputs. In this setting, diverse ensembles outperform both individual monitors and homogeneous ensembles. Our best 3-monitor ensemble achieves 2.4x greater detection performance gain compared to an ensemble composed of three identical monitors, with the same ensemble performing strongly on an independent dataset. We contend that these results show that diversity - not scale - drives gains. The best ensembles combine strong individual performance with low correlation between monitors. Furthermore, fine-tuned monitors appear in every top-performing ensemble and maintain this advantage on out-of-distribution attack types, suggesting that fine-tuning enables detection capabilities that prompting alone does not elicit. These results support ensemble monitoring as a practical AI control strategy for safety gains at reasonable inference costs.
- Abstract(参考訳): AIシステムは、大規模に自律的なエージェント設定にますますデプロイされているため、彼らが取るアクションが安全であり、ユーザの意図と一致していることを保証することが重要です。
エージェントアクションの監視は重要な安全メカニズムであるが、信頼性の高いモニターの構築は困難であり、これらのシステムの規模は人間の監視を非現実的なものにしている。
多様なモニタからの信号をアンサンブルに組み合わせることで、不整合動作の検出が向上することを示す。
GPT-4.1-Miniモニタを12台構築する。
提案手法は,標準テストに合格するが,逆入力に失敗するコーディングタスクで評価する。
この設定では、多様なアンサンブルは個々のモニターと均質アンサンブルの両方より優れている。
当社のベスト3モニタアンサンブルは、3つの同一モニタからなるアンサンブルと比較して2.4倍高い検出性能を実現し、同じアンサンブルが独立データセット上で強く実行される。
これらの結果は、多様性(スケールではなく)が利益をもたらすことを示している、と私たちは主張する。
最高のアンサンブルは、強い個々のパフォーマンスとモニター間の相関が低いことを組み合わせている。
さらに、微調整されたモニタは、すべてのトップパフォーマンスアンサンブルに現れ、この利点をアウト・オブ・ディストリビューション・アタックタイプで維持する。
これらの結果は、合理的な推論コストでの安全性向上のための実用的なAI制御戦略として、アンサンブルモニタリングをサポートする。
関連論文リスト
- Cooperative Informative Sensing for Monitoring Dynamic Indoor Environments via Multi-Agent Reinforcement Learning [56.64821510576244]
我々は,複数のロボットが動作を調整し,部分観測可能性下での監視精度を直接最適化する分散制御問題として,協調的アクティブな観察を定式化する。
本稿では,多エージェント強化学習(MARL)を用いた分散観測から,多人数の人間と時間的依存関係を扱うアーキテクチャを基盤とした協調政策学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-25T07:20:15Z) - SMFormer: Empowering Self-supervised Stereo Matching via Foundation Models and Data Augmentation [55.67206878777881]
本稿では、VFM(Vision Foundation Model)とデータ拡張によって導かれる、より信頼性の高いセルフスーパービジョンを統合するフレームワークであるSMFormerを提案する。
SMFormerは、自己教師付きメソッド間での最先端(SOTA)のパフォーマンスを達成し、教師付きメソッドと同等に競合する。
論文 参考訳(メタデータ) (2026-04-11T13:56:41Z) - Practical challenges of control monitoring in frontier AI deployments [15.281070904065613]
コントロールモニターは、私たちが完全に信頼していない高度なAIエージェントを監督する上で重要な役割を果たす可能性がある。
これまでの作業では、単純化された設定でのコントロール監視について検討されてきたが、実際のデプロイメントに対する監視のスケーリングには、さらなるダイナミクスが導入されている。
本稿では、これらの課題に対処するための設計選択を分析し、異なるレイテンシーセーフなトレードオフによる3種類のモニタリングに焦点を当てる。
論文 参考訳(メタデータ) (2025-12-15T15:54:36Z) - Compose Your Policies! Improving Diffusion-based or Flow-based Robot Policies via Test-time Distribution-level Composition [52.232968183793986]
General Policy Composition (GPC) は、複数の事前学習されたポリシーの分布スコアを組み合わせることで、パフォーマンスを向上させる訓練のない手法である。
GPCは、さまざまなタスクセットにおけるパフォーマンスと適応性を一貫して改善します。
論文 参考訳(メタデータ) (2025-10-01T16:05:53Z) - Beyond Linear Probes: Dynamic Safety Monitoring for Language Models [67.15793594651609]
従来の安全モニタは、クエリ毎に同じ量の計算を必要とする。
動的アクティベーションモニタリングのための線形プローブの自然な拡張であるTrncated Polynomials (TPCs)を紹介する。
我々の重要な洞察は、TPCを段階的に、短期的に訓練し、評価できるということです。
論文 参考訳(メタデータ) (2025-09-30T13:32:59Z) - RoboView-Bias: Benchmarking Visual Bias in Embodied Agents for Robotic Manipulation [67.38036090822982]
ロボット操作における視覚バイアスの定量化を目的とした,最初のベンチマークであるRoboView-Biasを提案する。
我々は、個々の視覚的要因とその相互作用によって引き起こされるバイアスの堅牢な測定を可能にする2,127のタスクインスタンスを作成します。
本研究は,視覚バイアスの系統的解析が,安全で信頼性の高い汎用的なエンボディエージェントの開発に必須であることを示す。
論文 参考訳(メタデータ) (2025-09-26T13:53:25Z) - Combining Cost-Constrained Runtime Monitors for AI Safety [0.25655761752240497]
複数のランタイムモニタを単一の監視プロトコルに効率的に組み合わせる方法について検討する。
我々のフレームワークは、望ましくない振る舞いを検出するために既存のモニターを組み合わせるための原則化された方法論を提供する。
論文 参考訳(メタデータ) (2025-07-19T04:28:40Z) - CoT Red-Handed: Stress Testing Chain-of-Thought Monitoring [3.6284577335311563]
CoT(Chain-of-Thought)モニタリングは、アクションのみの監視がサボタージュを確実に識別できないシナリオにおいて、最大27ポイントの検出を改善する。
CoTトレースはまた、モニターを欺く誤解を招く合理化も含み、より明白なサボタージュケースのパフォーマンスを低下させる。
このハイブリッドモニターは、テストされたすべてのモデルとタスクにわたってCoTとアクションオンリーのモニターを一貫して上回り、微妙な詐欺シナリオに対するアクションオンリーのモニタリングよりも4倍高い速度で検出する。
論文 参考訳(メタデータ) (2025-05-29T15:47:36Z) - Monitoring Reasoning Models for Misbehavior and the Risks of Promoting Obfuscation [56.102976602468615]
エージェントコーディング環境における報酬ハッキングのために,OpenAI o3-miniのようなフロンティア推論モデルを監視することができることを示す。
最適化が多すぎると、エージェントは難解な報酬のハッキングを学び、その意図を思考の連鎖の中に隠してしまう。
論文 参考訳(メタデータ) (2025-03-14T23:50:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。