論文の概要: Analyzing and Improving Chain-of-Thought Monitorability Through Information Theory
- arxiv url: http://arxiv.org/abs/2602.18297v1
- Date: Fri, 20 Feb 2026 15:50:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 18:01:41.364952
- Title: Analyzing and Improving Chain-of-Thought Monitorability Through Information Theory
- Title(参考訳): 情報理論によるチェーンオブソート監視性の解析と改善
- Authors: Usman Anwar, Tim Bakker, Dana Kianfar, Cristina Pinneri, Christos Louizos,
- Abstract要約: CoT(Chain-of- Thought)モニターは、出力が興味のある属性を示す可能性があることを検知する推論トレースを分析するシステムである。
本稿では,CoTと出力の非ゼロな相互情報が必要であるが,CoT監視には不十分であることを示す。
- 参考スコア(独自算出の注目度): 11.144603446849674
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chain-of-thought (CoT) monitors are LLM-based systems that analyze reasoning traces to detect when outputs may exhibit attributes of interest, such as test-hacking behavior during code generation. In this paper, we use information-theoretic analysis to show that non-zero mutual information between CoT and output is a necessary but not sufficient condition for CoT monitorability. We identify two sources of approximation error that may undermine the performance of CoT monitors in practice: information gap, which measures the extent to which the monitor can extract the information available in CoT, and elicitation error, which measures the extent to which the monitor approximates the optimal monitoring function. We further demonstrate that CoT monitorability can be systematically improved through targeted training objectives. To this end, we propose two complementary approaches: (a) an oracle-based method that directly rewards the monitored model for producing CoTs that maximize monitor accuracy, and (b) a more practical, label-free approach that maximizes conditional mutual information between outputs and CoTs. Across multiple different environments, we show both methods significantly improve monitor accuracy while preventing CoT degeneration even when training against a monitor, thereby mitigating reward hacking when the task reward is imperfectly specified.
- Abstract(参考訳): CoT(Chain-of- Thought)モニターはLCMベースのシステムで、コード生成時のテストハック動作など、いつ出力が興味のある属性を示すかを検出するための推論トレースを解析する。
本稿では,情報理論解析を用いて,CoTと出力の非ゼロな相互情報が必要であるが,CoT監視には不十分であることを示す。
我々は,CoTモニタの性能を損なう可能性のある2つの近似誤差を,CoTで利用可能な情報をモニタが抽出できる範囲を測定する情報ギャップと,モニタが最適な監視関数を近似する範囲を測定するエリケーション誤差とを同定する。
さらに,対象とするトレーニング目標によって,CoT監視性を体系的に改善できることを実証する。
この目的のために、我々は2つの補完的アプローチを提案する。
(a)モニター精度を最大化するCoTの製造にモニターされたモデルを直接報酬するオラクルベースの方法
b)出力とCoT間の条件付き相互情報を最大化する、より実用的でラベルなしのアプローチ。
複数の異なる環境において、モニタに対するトレーニングにおいてもCoTの劣化を防止しつつ、監視精度を大幅に向上させ、タスク報酬が不完全な場合に報酬ハッキングを緩和することを示す。
関連論文リスト
- Detecting Object Tracking Failure via Sequential Hypothesis Testing [80.7891291021747]
ビデオにおけるリアルタイムのオンラインオブジェクト追跡は、コンピュータビジョンにおける中核的なタスクである。
本稿では,物体追跡を逐次的仮説テストとして解釈することを提案する。
本研究では,地中追跡情報と内部追跡情報の両方を活用することにより,教師なしと教師なしの両方の変種を提案する。
論文 参考訳(メタデータ) (2026-02-13T14:57:15Z) - Prediction-Powered Risk Monitoring of Deployed Models for Detecting Harmful Distribution Shifts [51.37000123503367]
予測駆動型リスクモニタリング(PPRM)を提案する。
PPRMは、合成ラベルを真のラベルの小さなセットと組み合わせることで、ランニングリスクの任意の有意な下界を構築する。
本稿では,画像分類,大規模言語モデル(LLM),通信監視タスクの広範な実験を通じて,PPRMの有効性を実証する。
論文 参考訳(メタデータ) (2026-02-02T15:32:14Z) - Monitoring Monitorability [7.993120960324396]
本稿では,3つの評価アーチタイプ(介入,プロセス,結果整合性)と新しい監視可能性指標を提案する。
我々は、様々なフロンティアモデルの監視可能性を比較し、ほとんどのモデルが公平だが、完全には監視できないことを発見した。
モデルにフォローアップ質問をし、フォローアップCoTをモニターに付与することで、監視性を向上させることができることを示す。
論文 参考訳(メタデータ) (2025-12-20T10:46:04Z) - Investigating CoT Monitorability in Large Reasoning Models [10.511177985572333]
大規模推論モデル (LRM) は、最終解を出す前に拡張推論をすることで複雑なタスクにおいて顕著な性能を示す。
これらの詳細な推論トレースは、AI安全性、CoT Monitorabilityの新しい機会も生み出す。
しかし、CoT分析によってより効率的なモニターを構築しようとすると、2つの根本的な課題が生じる。
論文 参考訳(メタデータ) (2025-11-11T18:06:34Z) - Beyond Linear Probes: Dynamic Safety Monitoring for Language Models [67.15793594651609]
従来の安全モニタは、クエリ毎に同じ量の計算を必要とする。
動的アクティベーションモニタリングのための線形プローブの自然な拡張であるTrncated Polynomials (TPCs)を紹介する。
我々の重要な洞察は、TPCを段階的に、短期的に訓練し、評価できるということです。
論文 参考訳(メタデータ) (2025-09-30T13:32:59Z) - CoT Red-Handed: Stress Testing Chain-of-Thought Monitoring [3.6284577335311563]
CoT(Chain-of-Thought)モニタリングは、アクションのみの監視がサボタージュを確実に識別できないシナリオにおいて、最大27ポイントの検出を改善する。
CoTトレースはまた、モニターを欺く誤解を招く合理化も含み、より明白なサボタージュケースのパフォーマンスを低下させる。
このハイブリッドモニターは、テストされたすべてのモデルとタスクにわたってCoTとアクションオンリーのモニターを一貫して上回り、微妙な詐欺シナリオに対するアクションオンリーのモニタリングよりも4倍高い速度で検出する。
論文 参考訳(メタデータ) (2025-05-29T15:47:36Z) - Monitoring Reasoning Models for Misbehavior and the Risks of Promoting Obfuscation [56.102976602468615]
エージェントコーディング環境における報酬ハッキングのために,OpenAI o3-miniのようなフロンティア推論モデルを監視することができることを示す。
最適化が多すぎると、エージェントは難解な報酬のハッキングを学び、その意図を思考の連鎖の中に隠してしまう。
論文 参考訳(メタデータ) (2025-03-14T23:50:34Z) - Towards Sequence-Level Training for Visual Tracking [60.95799261482857]
本研究は、強化学習に基づく視覚追跡のためのシーケンスレベルのトレーニング戦略を導入する。
4つの代表的な追跡モデル、SiamRPN++、SiamAttn、TransT、TrDiMPは、提案手法をトレーニングに取り入れることで一貫して改善されている。
論文 参考訳(メタデータ) (2022-08-11T13:15:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。