論文の概要: CoT Red-Handed: Stress Testing Chain-of-Thought Monitoring
- arxiv url: http://arxiv.org/abs/2505.23575v1
- Date: Thu, 29 May 2025 15:47:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.955196
- Title: CoT Red-Handed: Stress Testing Chain-of-Thought Monitoring
- Title(参考訳): CoT Red-Handed: ストレステストチェーンオブワットモニタリング
- Authors: Benjamin Arnav, Pablo Bernabeu-Pérez, Nathan Helm-Burger, Tim Kostolansky, Hannes Whittingham, Mary Phuong,
- Abstract要約: CoT(Chain-of-Thought)モニタリングは、アクションのみの監視がサボタージュを確実に識別できないシナリオにおいて、最大27ポイントの検出を改善する。
CoTトレースはまた、モニターを欺く誤解を招く合理化も含み、より明白なサボタージュケースのパフォーマンスを低下させる。
このハイブリッドモニターは、テストされたすべてのモデルとタスクにわたってCoTとアクションオンリーのモニターを一貫して上回り、微妙な詐欺シナリオに対するアクションオンリーのモニタリングよりも4倍高い速度で検出する。
- 参考スコア(独自算出の注目度): 3.6284577335311563
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As AI models are deployed with increasing autonomy, it is important to ensure they do not take harmful actions unnoticed. As a potential mitigation, we investigate Chain-of-Thought (CoT) monitoring, wherein a weaker trusted monitor model continuously oversees the intermediate reasoning steps of a more powerful but untrusted model. We compare CoT monitoring to action-only monitoring, where only final outputs are reviewed, in a red-teaming setup where the untrusted model is instructed to pursue harmful side tasks while completing a coding problem. We find that CoT monitoring improves detection by up to 27 percentage points in scenarios where action-only monitoring fails to reliably identify sabotage. However, CoT traces can also contain misleading rationalizations that deceive the monitor, reducing performance in more obvious sabotage cases. To address this, we introduce a hybrid protocol that independently scores both reasoning and final outputs and combines them using a weighted average. This hybrid monitor consistently outperforms both CoT and action-only monitors across all tested models and tasks, with detection rates over four times higher than action-only monitoring for subtle deception scenarios.
- Abstract(参考訳): AIモデルは自律性を高めてデプロイされるため、有害な行動に気付かないよう注意する必要がある。
潜在的な緩和策として,より信頼性の低い監視モデルにより,より強力だが信頼できないモデルの中間的推論ステップを継続的に監視する,CoT(Chain-of-Thought)モニタリングについて検討する。
我々は、CoTモニタリングと、最終出力のみをレビューするアクションオンリーのモニタリングを比較し、信頼できないモデルにコーディング問題を完了させながら有害なサイドタスクを追求するように指示する、レッドチーム構成で実施する。
CoTモニタリングは、アクションのみの監視がサボタージュを確実に識別できないシナリオにおいて、最大27ポイントの検出を改善する。
しかし、CoTトレースには、モニターを欺く誤解を招く合理化が含まれており、より明白なサボタージュケースのパフォーマンスを低下させる。
これを解決するために、我々は、推論と最終的な出力の両方を独立にスコア付けし、重み付き平均を用いてそれらを結合するハイブリッドプロトコルを導入する。
このハイブリッドモニターは、テストされたすべてのモデルとタスクにわたってCoTとアクションオンリーのモニターを一貫して上回り、微妙な詐欺シナリオに対するアクションオンリーのモニタリングよりも4倍高い速度で検出する。
関連論文リスト
- Mitigating Deceptive Alignment via Self-Monitoring [15.365589693661823]
我々は,CoT Monitor+という,自己監視をチェーン・オブ・シントプロセス自体に組み込むフレームワークを開発した。
生成中、モデルは(i)通常の推論ステップを生成し、(ii)不整合戦略のフラグと抑制のために訓練された内部自己評価信号を生成する。
この信号は強化学習の補助的な報酬として使われ、正直な推論に報いるフィードバックループを作成し、隠れた目標を阻止する。
論文 参考訳(メタデータ) (2025-05-24T17:41:47Z) - Reasoning Models Don't Always Say What They Think [48.05987314492555]
CoT(Chain-of-Thought)は、モデルの意図と推論プロセスの監視を可能にする。
提案する6つの推論ヒントにまたがる最先端推論モデルのCoT忠実度を評価した。
論文 参考訳(メタデータ) (2025-05-08T16:51:43Z) - Monitoring Reasoning Models for Misbehavior and the Risks of Promoting Obfuscation [56.102976602468615]
エージェントコーディング環境における報酬ハッキングのために,OpenAI o3-miniのようなフロンティア推論モデルを監視することができることを示す。
最適化が多すぎると、エージェントは難解な報酬のハッキングを学び、その意図を思考の連鎖の中に隠してしまう。
論文 参考訳(メタデータ) (2025-03-14T23:50:34Z) - Can we Defend Against the Unknown? An Empirical Study About Threshold Selection for Neural Network Monitoring [6.8734954619801885]
実行時モニタリングは、推論中に安全でない予測を拒否するために必須である。
安全と安全でない予測の分布の分離性を最大化する拒絶スコアを確立するために様々な技術が出現している。
実世界のアプリケーションでは、効果的なモニターは、これらのスコアを意味のあるバイナリ決定に変換するための適切なしきい値を特定する必要がある。
論文 参考訳(メタデータ) (2024-05-14T14:32:58Z) - Out-Of-Distribution Detection Is Not All You Need [0.0]
我々は,OOD検出は効率的なランタイムモニタの設計に適したフレームワークではないと主張している。
OOD設定におけるモニタの学習は誤解を招く可能性があることを示す。
また、誤ったトレーニングデータサンプルを削除することで、より良いモニターをトレーニングできることも示しています。
論文 参考訳(メタデータ) (2022-11-29T12:40:06Z) - Robustness of Unsupervised Representation Learning without Labels [92.90480374344777]
モデルとタスクに依存しない,ラベルのない,教師なしのロバストネス尺度のファミリーを提案する。
本研究は, 線形プローブによる検証を行い, MOCOv2の場合, 対向トレーニングの結果が3倍の精度で得られたことを示す。
論文 参考訳(メタデータ) (2022-10-08T18:03:28Z) - ADC: Adversarial attacks against object Detection that evade Context
consistency checks [55.8459119462263]
文脈整合性チェックさえも、適切に構築された敵の例に対して脆弱であることを示す。
このような防御を覆す実例を生成するための適応型フレームワークを提案する。
我々の結果は、コンテキストを堅牢にモデル化し、一貫性をチェックする方法はまだ未解決の問題であることを示している。
論文 参考訳(メタデータ) (2021-10-24T00:25:09Z) - Digging into Uncertainty in Self-supervised Multi-view Stereo [57.04768354383339]
自己教師型学習のための新しいuncertainty reduction Multi-view Stereo(UMVS)フレームワークを提案する。
我々のフレームワークは、教師なしのMVSメソッドの中で最高のパフォーマンスを達成し、教師なしの対戦相手と競合する性能を実現している。
論文 参考訳(メタデータ) (2021-08-30T02:53:08Z) - Object Detection Made Simpler by Eliminating Heuristic NMS [70.93004137521946]
単純なNMSのないエンドツーエンドのオブジェクト検出フレームワークを示す。
検出精度は元の1段検出器と比べて同等か、さらに向上した。
論文 参考訳(メタデータ) (2021-01-28T02:38:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。