論文の概要: Reasoning Under Pressure: How do Training Incentives Influence Chain-of-Thought Monitorability?
- arxiv url: http://arxiv.org/abs/2512.00218v1
- Date: Fri, 28 Nov 2025 21:34:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.117841
- Title: Reasoning Under Pressure: How do Training Incentives Influence Chain-of-Thought Monitorability?
- Title(参考訳): 圧力下での推論:トレーニングインセンティブは階層監視性にどのように影響するか?
- Authors: Matt MacDermott, Qiyao Wei, Rada Djoneva, Francis Rhys Ward,
- Abstract要約: 推論モデルに適用された異なるエンハンチングインセンティブが、その監視可能性にどのように影響するかを検討する。
対向最適化(監視精度を犠牲にする)がモニター性能を低下させるのに対して、監視可能性の直接最適化は確実に改善に繋がらない。
- 参考スコア(独自算出の注目度): 7.914706904029561
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI systems that output their reasoning in natural language offer an opportunity for safety -- we can \emph{monitor} their chain of thought (CoT) for undesirable reasoning, such as the pursuit of harmful objectives. However, the extent to which CoT faithfully reflects the underlying reasoning process, and hence the extent to which it can be usefully monitored, may be influenced by certain aspects of training. We investigate how different \emph{training incentives}, applied to a reasoning model, affect its monitorability. We introduce a novel methodology for measuring monitorability according to whether a monitor can predict a key latent variable using the model's reasoning. When controlling for accuracy, we do not find evidence for consistent effects from commonly used incentives (length penalties and KL regularisation), but we find that adversarial optimisation (penalising monitor accuracy) degrades monitor performance, while direct optimisation for monitorability does not reliably lead to improvements. Our code is available at https://github.com/QiyaoWei/reasoning-under-pressure.
- Abstract(参考訳): 自然言語で推論を出力するAIシステムは、安全のための機会を提供する -- 有害な目的の追求など、望ましくない推論のために、彼らの思考の連鎖(CoT)を \emph{monitor} することができる。
しかし、CoTが根底にある推論過程を忠実に反映している程度で、それが有効に監視できる程度は、訓練の特定の側面に影響される可能性がある。
推論モデルに適用された異なる「emph{training incentives」が、その監視可能性にどのように影響するかを検討する。
そこで本研究では,モニタがモデル推論を用いて有意な潜伏変数を予測できるかどうかに応じて,監視可能性を測定する新しい手法を提案する。
精度を制御する場合、一般的に使われるインセンティブ(長さのペナルティとKL正規化)による一貫した効果の証拠は見つからないが、対向最適化(モニター精度を犠牲にする)がモニター性能を低下させるのに対し、監視可能性の直接最適化は確実に改善に繋がらない。
私たちのコードはhttps://github.com/QiyaoWei/reasoning-under-pressure.comで公開されています。
関連論文リスト
- Critical or Compliant? The Double-Edged Sword of Reasoning in Chain-of-Thought Explanations [60.27156500679296]
系統的な推論連鎖の摂動とデリバリートーンの操作による道徳シナリオにおけるCoT(Chain-of-Thought)の説明の役割について検討した。
1) 利用者は, 根拠に欠陥がある場合でも, 信頼感を保ち, 結果合意を信頼する傾向がみられた。
これらの結果は、CoTの説明が同時に明確化と誤解を招き、視覚的信頼よりも精査と批判的思考を奨励する説明を提供するNLPシステムの必要性を強調している。
論文 参考訳(メタデータ) (2025-11-15T02:38:49Z) - A Pragmatic Way to Measure Chain-of-Thought Monitorability [10.811252340660907]
CoT(Chain-of-Thought)モニタリングは、AIの安全性にユニークな機会を提供する。
監視可能性を維持するために,可視性とカバレッジという2つのコンポーネントを測定するための実用的手法を提案する。
我々はこれらのメトリクスをオートラッタープロンプトで実装し、任意の有能なLCMが既存のCoTの可視性とカバレッジを計算できるようにする。
論文 参考訳(メタデータ) (2025-10-28T00:44:25Z) - Can Reasoning Models Obfuscate Reasoning? Stress-Testing Chain-of-Thought Monitorability [35.180361462848516]
Chain-of-Thought(CoT)は、アライメント監視のための有望なツールである。
モデルは検出を回避しながら隠れた敵の目標を追求するためにCoTを難読化できるのか?
我々は,CoT難燃化を誘発するプロンプトの,構成可能で定量化可能な分類法を開発した。
論文 参考訳(メタデータ) (2025-10-21T18:07:10Z) - Beyond Linear Probes: Dynamic Safety Monitoring for Language Models [67.15793594651609]
従来の安全モニタは、クエリ毎に同じ量の計算を必要とする。
動的アクティベーションモニタリングのための線形プローブの自然な拡張であるTrncated Polynomials (TPCs)を紹介する。
我々の重要な洞察は、TPCを段階的に、短期的に訓練し、評価できるということです。
論文 参考訳(メタデータ) (2025-09-30T13:32:59Z) - Chain of Thought Monitorability: A New and Fragile Opportunity for AI Safety [85.79426562762656]
CoTモニタリングは不完全であり、一部の誤った行動に気づかないままにすることができる。
我々は、既存の安全手法とともに、CoT監視可能性とCoT監視への投資についてさらなる研究を推奨する。
CoTの監視性は脆弱である可能性があるので、フロンティアモデル開発者がCoTの監視性に対する開発決定の影響を考慮することを推奨します。
論文 参考訳(メタデータ) (2025-07-15T16:43:41Z) - When Chain of Thought is Necessary, Language Models Struggle to Evade Monitors [10.705880888253501]
CoT(Chain-of- Thought)モニタリングは、AIの安全性を擁護するものだ。
この「不信」に関する最近の研究は、その信頼性に疑問を呈している。
重要な特性は忠実さではなく監視性である、と我々は主張する。
論文 参考訳(メタデータ) (2025-07-07T17:54:52Z) - Mitigating Deceptive Alignment via Self-Monitoring [15.365589693661823]
我々は,CoT Monitor+という,自己監視をチェーン・オブ・シントプロセス自体に組み込むフレームワークを開発した。
生成中、モデルは(i)通常の推論ステップを生成し、(ii)不整合戦略のフラグと抑制のために訓練された内部自己評価信号を生成する。
この信号は強化学習の補助的な報酬として使われ、正直な推論に報いるフィードバックループを作成し、隠れた目標を阻止する。
論文 参考訳(メタデータ) (2025-05-24T17:41:47Z) - Monitoring Reasoning Models for Misbehavior and the Risks of Promoting Obfuscation [56.102976602468615]
エージェントコーディング環境における報酬ハッキングのために,OpenAI o3-miniのようなフロンティア推論モデルを監視することができることを示す。
最適化が多すぎると、エージェントは難解な報酬のハッキングを学び、その意図を思考の連鎖の中に隠してしまう。
論文 参考訳(メタデータ) (2025-03-14T23:50:34Z) - Learning Uncertainty For Safety-Oriented Semantic Segmentation In
Autonomous Driving [77.39239190539871]
自律運転における安全クリティカル画像セグメンテーションを実現するために、不確実性推定をどのように活用できるかを示す。
相似性関数によって測定された不一致予測に基づく新しい不確実性尺度を導入する。
本研究では,提案手法が競合手法よりも推論時間において計算集約性が低いことを示す。
論文 参考訳(メタデータ) (2021-05-28T09:23:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。