論文の概要: CoT Red-Handed: Stress Testing Chain-of-Thought Monitoring
- arxiv url: http://arxiv.org/abs/2505.23575v2
- Date: Sun, 29 Jun 2025 09:01:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 15:08:39.455148
- Title: CoT Red-Handed: Stress Testing Chain-of-Thought Monitoring
- Title(参考訳): CoT Red-Handed: ストレステストチェーンオブワットモニタリング
- Authors: Benjamin Arnav, Pablo Bernabeu-Pérez, Nathan Helm-Burger, Tim Kostolansky, Hannes Whittingham, Mary Phuong,
- Abstract要約: CoT(Chain-of-Thought)モニタリングは、アクションのみの監視がサボタージュを確実に識別できないシナリオにおいて、最大27ポイントの検出を改善する。
CoTトレースはまた、モニターを欺く誤解を招く合理化も含み、より明白なサボタージュケースのパフォーマンスを低下させる。
このハイブリッドモニターは、テストされたすべてのモデルとタスクにわたってCoTとアクションオンリーのモニターを一貫して上回り、微妙な詐欺シナリオに対するアクションオンリーのモニタリングよりも4倍高い速度で検出する。
- 参考スコア(独自算出の注目度): 3.6284577335311563
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As AI models are deployed with increasing autonomy, it is important to ensure they do not take harmful actions unnoticed. As a potential mitigation, we investigate Chain-of-Thought (CoT) monitoring, wherein a weaker trusted monitor model continuously oversees the intermediate reasoning steps of a more powerful but untrusted model. We compare CoT monitoring to action-only monitoring, where only final outputs are reviewed, in a red-teaming setup where the untrusted model is instructed to pursue harmful side tasks while completing a coding problem. We find that CoT monitoring improves detection by up to 27 percentage points in scenarios where action-only monitoring fails to reliably identify sabotage. However, CoT traces can also contain misleading rationalizations that deceive the monitor, reducing performance in more obvious sabotage cases. To address this, we introduce a hybrid protocol that independently scores both reasoning and final outputs and combines them using a weighted average. This hybrid monitor consistently outperforms both CoT and action-only monitors across all tested models and tasks, with detection rates over four times higher than action-only monitoring for subtle deception scenarios.
- Abstract(参考訳): AIモデルは自律性を高めてデプロイされるため、有害な行動に気付かないよう注意する必要がある。
潜在的な緩和策として,より信頼性の低い監視モデルにより,より強力だが信頼できないモデルの中間的推論ステップを継続的に監視する,CoT(Chain-of-Thought)モニタリングについて検討する。
我々は、CoTモニタリングと、最終出力のみをレビューするアクションオンリーのモニタリングを比較し、信頼できないモデルにコーディング問題を完了させながら有害なサイドタスクを追求するように指示する、レッドチーム構成で実施する。
CoTモニタリングは、アクションのみの監視がサボタージュを確実に識別できないシナリオにおいて、最大27ポイントの検出を改善する。
しかし、CoTトレースには、モニターを欺く誤解を招く合理化が含まれており、より明白なサボタージュケースのパフォーマンスを低下させる。
これを解決するために、我々は、推論と最終的な出力の両方を独立にスコア付けし、重み付き平均を用いてそれらを結合するハイブリッドプロトコルを導入する。
このハイブリッドモニターは、テストされたすべてのモデルとタスクにわたってCoTとアクションオンリーのモニターを一貫して上回り、微妙な詐欺シナリオに対するアクションオンリーのモニタリングよりも4倍高い速度で検出する。
関連論文リスト
- Analyzing and Improving Chain-of-Thought Monitorability Through Information Theory [11.144603446849674]
CoT(Chain-of- Thought)モニターは、出力が興味のある属性を示す可能性があることを検知する推論トレースを分析するシステムである。
本稿では,CoTと出力の非ゼロな相互情報が必要であるが,CoT監視には不十分であることを示す。
論文 参考訳(メタデータ) (2026-02-20T15:50:30Z) - Detecting Object Tracking Failure via Sequential Hypothesis Testing [80.7891291021747]
ビデオにおけるリアルタイムのオンラインオブジェクト追跡は、コンピュータビジョンにおける中核的なタスクである。
本稿では,物体追跡を逐次的仮説テストとして解釈することを提案する。
本研究では,地中追跡情報と内部追跡情報の両方を活用することにより,教師なしと教師なしの両方の変種を提案する。
論文 参考訳(メタデータ) (2026-02-13T14:57:15Z) - Prediction-Powered Risk Monitoring of Deployed Models for Detecting Harmful Distribution Shifts [51.37000123503367]
予測駆動型リスクモニタリング(PPRM)を提案する。
PPRMは、合成ラベルを真のラベルの小さなセットと組み合わせることで、ランニングリスクの任意の有意な下界を構築する。
本稿では,画像分類,大規模言語モデル(LLM),通信監視タスクの広範な実験を通じて,PPRMの有効性を実証する。
論文 参考訳(メタデータ) (2026-02-02T15:32:14Z) - Monitoring Monitorability [7.993120960324396]
本稿では,3つの評価アーチタイプ(介入,プロセス,結果整合性)と新しい監視可能性指標を提案する。
我々は、様々なフロンティアモデルの監視可能性を比較し、ほとんどのモデルが公平だが、完全には監視できないことを発見した。
モデルにフォローアップ質問をし、フォローアップCoTをモニターに付与することで、監視性を向上させることができることを示す。
論文 参考訳(メタデータ) (2025-12-20T10:46:04Z) - Can Reasoning Models Obfuscate Reasoning? Stress-Testing Chain-of-Thought Monitorability [35.180361462848516]
Chain-of-Thought(CoT)は、アライメント監視のための有望なツールである。
モデルは検出を回避しながら隠れた敵の目標を追求するためにCoTを難読化できるのか?
我々は,CoT難燃化を誘発するプロンプトの,構成可能で定量化可能な分類法を開発した。
論文 参考訳(メタデータ) (2025-10-21T18:07:10Z) - Output Supervision Can Obfuscate the Chain of Thought [40.8558418962786]
OpenAI (2025) は、思考の連鎖(CoT)モニターに対するトレーニングが難解なCoTを引き起こす可能性があることを示した。
このようなトレーニングは、2つのメカニズムによっても難読化CoTを発生させる可能性がある。
論文 参考訳(メタデータ) (2025-10-11T08:13:02Z) - Adaptive Attacks on Trusted Monitors Subvert AI Control Protocols [80.68060125494645]
プロトコルとモニタモデルを知っている信頼できないモデルによるアダプティブアタックについて検討する。
我々は、攻撃者がモデル出力に公知またはゼロショットプロンプトインジェクションを埋め込む単純な適応攻撃ベクトルをインスタンス化する。
論文 参考訳(メタデータ) (2025-10-10T15:12:44Z) - Beyond Linear Probes: Dynamic Safety Monitoring for Language Models [67.15793594651609]
従来の安全モニタは、クエリ毎に同じ量の計算を必要とする。
動的アクティベーションモニタリングのための線形プローブの自然な拡張であるTrncated Polynomials (TPCs)を紹介する。
我々の重要な洞察は、TPCを段階的に、短期的に訓練し、評価できるということです。
論文 参考訳(メタデータ) (2025-09-30T13:32:59Z) - Combining Cost-Constrained Runtime Monitors for AI Safety [0.0]
ランタイムモニタを単一の監視プロトコルに組み合わせる方法について検討する。
我々のフレームワークは、望ましくない振る舞いを検出するために既存のモニターを組み合わせるための原則化された方法論を提供する。
論文 参考訳(メタデータ) (2025-07-19T04:28:40Z) - When Chain of Thought is Necessary, Language Models Struggle to Evade Monitors [10.705880888253501]
CoT(Chain-of- Thought)モニタリングは、AIの安全性を擁護するものだ。
この「不信」に関する最近の研究は、その信頼性に疑問を呈している。
重要な特性は忠実さではなく監視性である、と我々は主張する。
論文 参考訳(メタデータ) (2025-07-07T17:54:52Z) - Monitoring Decomposition Attacks in LLMs with Lightweight Sequential Monitors [27.976136688947093]
現在のLLMの安全防衛は分解攻撃で失敗し、悪意のあるゴールは拒否を回避する良質なサブタスクに分解される。
より粒度の高い会話を観察する外部モニタの追加を提案する。
念入りに設計した軽量モニタは93%の防衛成功率を達成し、モニタとしてo3 miniのような推論モデルを上回る結果となった。
論文 参考訳(メタデータ) (2025-06-12T17:50:58Z) - Mitigating Deceptive Alignment via Self-Monitoring [15.365589693661823]
我々は,CoT Monitor+という,自己監視をチェーン・オブ・シントプロセス自体に組み込むフレームワークを開発した。
生成中、モデルは(i)通常の推論ステップを生成し、(ii)不整合戦略のフラグと抑制のために訓練された内部自己評価信号を生成する。
この信号は強化学習の補助的な報酬として使われ、正直な推論に報いるフィードバックループを作成し、隠れた目標を阻止する。
論文 参考訳(メタデータ) (2025-05-24T17:41:47Z) - Reasoning Models Don't Always Say What They Think [48.05987314492555]
CoT(Chain-of-Thought)は、モデルの意図と推論プロセスの監視を可能にする。
提案する6つの推論ヒントにまたがる最先端推論モデルのCoT忠実度を評価した。
論文 参考訳(メタデータ) (2025-05-08T16:51:43Z) - Monitoring Reasoning Models for Misbehavior and the Risks of Promoting Obfuscation [56.102976602468615]
エージェントコーディング環境における報酬ハッキングのために,OpenAI o3-miniのようなフロンティア推論モデルを監視することができることを示す。
最適化が多すぎると、エージェントは難解な報酬のハッキングを学び、その意図を思考の連鎖の中に隠してしまう。
論文 参考訳(メタデータ) (2025-03-14T23:50:34Z) - Can we Defend Against the Unknown? An Empirical Study About Threshold Selection for Neural Network Monitoring [6.8734954619801885]
実行時モニタリングは、推論中に安全でない予測を拒否するために必須である。
安全と安全でない予測の分布の分離性を最大化する拒絶スコアを確立するために様々な技術が出現している。
実世界のアプリケーションでは、効果的なモニターは、これらのスコアを意味のあるバイナリ決定に変換するための適切なしきい値を特定する必要がある。
論文 参考訳(メタデータ) (2024-05-14T14:32:58Z) - Out-Of-Distribution Detection Is Not All You Need [0.0]
我々は,OOD検出は効率的なランタイムモニタの設計に適したフレームワークではないと主張している。
OOD設定におけるモニタの学習は誤解を招く可能性があることを示す。
また、誤ったトレーニングデータサンプルを削除することで、より良いモニターをトレーニングできることも示しています。
論文 参考訳(メタデータ) (2022-11-29T12:40:06Z) - Robustness of Unsupervised Representation Learning without Labels [92.90480374344777]
モデルとタスクに依存しない,ラベルのない,教師なしのロバストネス尺度のファミリーを提案する。
本研究は, 線形プローブによる検証を行い, MOCOv2の場合, 対向トレーニングの結果が3倍の精度で得られたことを示す。
論文 参考訳(メタデータ) (2022-10-08T18:03:28Z) - ADC: Adversarial attacks against object Detection that evade Context
consistency checks [55.8459119462263]
文脈整合性チェックさえも、適切に構築された敵の例に対して脆弱であることを示す。
このような防御を覆す実例を生成するための適応型フレームワークを提案する。
我々の結果は、コンテキストを堅牢にモデル化し、一貫性をチェックする方法はまだ未解決の問題であることを示している。
論文 参考訳(メタデータ) (2021-10-24T00:25:09Z) - Digging into Uncertainty in Self-supervised Multi-view Stereo [57.04768354383339]
自己教師型学習のための新しいuncertainty reduction Multi-view Stereo(UMVS)フレームワークを提案する。
我々のフレームワークは、教師なしのMVSメソッドの中で最高のパフォーマンスを達成し、教師なしの対戦相手と競合する性能を実現している。
論文 参考訳(メタデータ) (2021-08-30T02:53:08Z) - Object Detection Made Simpler by Eliminating Heuristic NMS [70.93004137521946]
単純なNMSのないエンドツーエンドのオブジェクト検出フレームワークを示す。
検出精度は元の1段検出器と比べて同等か、さらに向上した。
論文 参考訳(メタデータ) (2021-01-28T02:38:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。