論文の概要: Monitoring Monitorability
- arxiv url: http://arxiv.org/abs/2512.18311v1
- Date: Sat, 20 Dec 2025 10:46:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.283415
- Title: Monitoring Monitorability
- Title(参考訳): 監視可能性
- Authors: Melody Y. Guan, Miles Wang, Micah Carroll, Zehao Dou, Annie Y. Wei, Marcus Williams, Benjamin Arnav, Joost Huizinga, Ian Kivlichan, Mia Glaese, Jakub Pachocki, Bowen Baker,
- Abstract要約: 本稿では,3つの評価アーチタイプ(介入,プロセス,結果整合性)と新しい監視可能性指標を提案する。
我々は、様々なフロンティアモデルの監視可能性を比較し、ほとんどのモデルが公平だが、完全には監視できないことを発見した。
モデルにフォローアップ質問をし、フォローアップCoTをモニターに付与することで、監視性を向上させることができることを示す。
- 参考スコア(独自算出の注目度): 7.993120960324396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Observability into the decision making of modern AI systems may be required to safely deploy increasingly capable agents. Monitoring the chain-of-thought (CoT) of today's reasoning models has proven effective for detecting misbehavior. However, this "monitorability" may be fragile under different training procedures, data sources, or even continued system scaling. To measure and track monitorability, we propose three evaluation archetypes (intervention, process, and outcome-property) and a new monitorability metric, and introduce a broad evaluation suite. We demonstrate that these evaluations can catch simple model organisms trained to have obfuscated CoTs, and that CoT monitoring is more effective than action-only monitoring in practical settings. We compare the monitorability of various frontier models and find that most models are fairly, but not perfectly, monitorable. We also evaluate how monitorability scales with inference-time compute, reinforcement learning optimization, and pre-training model size. We find that longer CoTs are generally more monitorable and that RL optimization does not materially decrease monitorability even at the current frontier scale. Notably, we find that for a model at a low reasoning effort, we could instead deploy a smaller model at a higher reasoning effort (thereby matching capabilities) and obtain a higher monitorability, albeit at a higher overall inference compute cost. We further investigate agent-monitor scaling trends and find that scaling a weak monitor's test-time compute when monitoring a strong agent increases monitorability. Giving the weak monitor access to CoT not only improves monitorability, but it steepens the monitor's test-time compute to monitorability scaling trend. Finally, we show we can improve monitorability by asking models follow-up questions and giving their follow-up CoT to the monitor.
- Abstract(参考訳): 現代のAIシステムの意思決定における可観測性は、ますます有能なエージェントを安全にデプロイするために要求される。
今日の推論モデルの連鎖(CoT)をモニタリングすることは、誤った振る舞いを検出するのに有効であることが証明されている。
しかし、この"監視性"は、異なるトレーニング手順、データソース、さらには継続するシステムスケーリングの下で脆弱である可能性がある。
監視可能性の測定と追跡を行うため,3つの評価アーチタイプ(介入,プロセス,結果適合性)と新しい監視性指標を提案し,幅広い評価スイートを導入する。
これらの評価は, 難燃性CoTを訓練した単純なモデル生物を捕集し, 実用的な環境下での行動のみのモニタリングよりもCoTモニタリングの方が効果的であることを示す。
我々は、様々なフロンティアモデルの監視可能性を比較し、ほとんどのモデルが公平だが、完全には監視できないことを発見した。
また、予測時間計算、強化学習最適化、事前学習モデルサイズで監視可能性がどのようにスケールするかを評価する。
より長いCoTは一般に監視可能であり、RL最適化は現在のフロンティアスケールにおいても監視性を大幅に低下させるものではない。
特に、推論コストの低いモデルでは、より高い推論能力(マッチング能力)で小さなモデルをデプロイし、全体的な推論計算コストが高いにもかかわらず、より高い監視性を得ることができることが分かりました。
さらに,エージェント・モニタのスケーリング動向を調査し,強力なエージェントをモニタする際の弱いモニタのテスト時間計算のスケーリングが監視可能性を高めることを確認する。
CoTへの弱いモニタアクセスを提供することで、監視性が向上するだけでなく、モニターのテスト時間計算を監視可能性のスケーリングトレンドに短縮する。
最後に、モデルにフォローアップ質問をし、そのフォローアップCoTをモニターに付与することで、監視性を向上させることができることを示す。
関連論文リスト
- Reasoning Under Pressure: How do Training Incentives Influence Chain-of-Thought Monitorability? [7.914706904029561]
推論モデルに適用された異なるエンハンチングインセンティブが、その監視可能性にどのように影響するかを検討する。
対向最適化(監視精度を犠牲にする)がモニター性能を低下させるのに対して、監視可能性の直接最適化は確実に改善に繋がらない。
論文 参考訳(メタデータ) (2025-11-28T21:34:34Z) - Investigating CoT Monitorability in Large Reasoning Models [10.511177985572333]
大規模推論モデル (LRM) は、最終解を出す前に拡張推論をすることで複雑なタスクにおいて顕著な性能を示す。
これらの詳細な推論トレースは、AI安全性、CoT Monitorabilityの新しい機会も生み出す。
しかし、CoT分析によってより効率的なモニターを構築しようとすると、2つの根本的な課題が生じる。
論文 参考訳(メタデータ) (2025-11-11T18:06:34Z) - Beyond Linear Probes: Dynamic Safety Monitoring for Language Models [67.15793594651609]
従来の安全モニタは、クエリ毎に同じ量の計算を必要とする。
動的アクティベーションモニタリングのための線形プローブの自然な拡張であるTrncated Polynomials (TPCs)を紹介する。
我々の重要な洞察は、TPCを段階的に、短期的に訓練し、評価できるということです。
論文 参考訳(メタデータ) (2025-09-30T13:32:59Z) - Chain of Thought Monitorability: A New and Fragile Opportunity for AI Safety [85.79426562762656]
CoTモニタリングは不完全であり、一部の誤った行動に気づかないままにすることができる。
我々は、既存の安全手法とともに、CoT監視可能性とCoT監視への投資についてさらなる研究を推奨する。
CoTの監視性は脆弱である可能性があるので、フロンティアモデル開発者がCoTの監視性に対する開発決定の影響を考慮することを推奨します。
論文 参考訳(メタデータ) (2025-07-15T16:43:41Z) - RL-Obfuscation: Can Language Models Learn to Evade Latent-Space Monitors? [6.861292004336852]
潜在空間モニタは、その内部表現を活用することで、大規模言語モデルにおける望ましくない振る舞いを検出することを目的としている。
これは重要な疑問を提起する。モデルがそのようなモニターを避けることができるか?
RL-Obfuscationを導入し,LLMを強化学習により微調整し,遅延空間モニタを回避する。
トークンレベルのモニタはこの攻撃に対して非常に脆弱であるのに対して、最大プールやアテンションベースのプローブのようなより包括的なモニタは堅牢である。
論文 参考訳(メタデータ) (2025-06-17T07:22:20Z) - CoT Red-Handed: Stress Testing Chain-of-Thought Monitoring [3.6284577335311563]
CoT(Chain-of-Thought)モニタリングは、アクションのみの監視がサボタージュを確実に識別できないシナリオにおいて、最大27ポイントの検出を改善する。
CoTトレースはまた、モニターを欺く誤解を招く合理化も含み、より明白なサボタージュケースのパフォーマンスを低下させる。
このハイブリッドモニターは、テストされたすべてのモデルとタスクにわたってCoTとアクションオンリーのモニターを一貫して上回り、微妙な詐欺シナリオに対するアクションオンリーのモニタリングよりも4倍高い速度で検出する。
論文 参考訳(メタデータ) (2025-05-29T15:47:36Z) - Monitoring Reasoning Models for Misbehavior and the Risks of Promoting Obfuscation [56.102976602468615]
エージェントコーディング環境における報酬ハッキングのために,OpenAI o3-miniのようなフロンティア推論モデルを監視することができることを示す。
最適化が多すぎると、エージェントは難解な報酬のハッキングを学び、その意図を思考の連鎖の中に隠してしまう。
論文 参考訳(メタデータ) (2025-03-14T23:50:34Z) - Explanatory Model Monitoring to Understand the Effects of Feature Shifts on Performance [61.06245197347139]
そこで本研究では,機能シフトによるブラックボックスモデルの振る舞いを説明する新しい手法を提案する。
本稿では,最適輸送と共有値の概念を組み合わせた提案手法について,説明的性能推定として紹介する。
論文 参考訳(メタデータ) (2024-08-24T18:28:19Z) - How Well Do Self-Supervised Models Transfer? [92.16372657233394]
我々は、40の下流タスクにおいて、トップ13の自己教師型モデルの転送性能を評価する。
ImageNet Top-1の精度は、マルチショット認識への転送と非常に相関している。
全体としては、単一の自己監督的手法が支配的ではなく、普遍的な事前訓練がまだ未解決であることを示唆している。
論文 参考訳(メタデータ) (2020-11-26T16:38:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。