論文の概要: Output Supervision Can Obfuscate the Chain of Thought
- arxiv url: http://arxiv.org/abs/2511.11584v1
- Date: Sat, 11 Oct 2025 08:13:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-07 19:06:32.176323
- Title: Output Supervision Can Obfuscate the Chain of Thought
- Title(参考訳): アウトプット・スーパービジョンは思考の連鎖を曖昧にする
- Authors: Jacob Drori, Luke Marks, Bryce Woodworth, Alex Cloud, Alexander Matt Turner,
- Abstract要約: OpenAI (2025) は、思考の連鎖(CoT)モニターに対するトレーニングが難解なCoTを引き起こす可能性があることを示した。
このようなトレーニングは、2つのメカニズムによっても難読化CoTを発生させる可能性がある。
- 参考スコア(独自算出の注目度): 40.8558418962786
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: OpenAI (2025) showed that training against a chain of thought (CoT) monitor can cause obfuscated CoTs, which contain bad behavior the monitor cannot detect. They proposed to keep CoTs monitorable by training only against output monitors that do not have access to CoT. We show that such training can still cause obfuscated CoTs via two mechanisms. First, when a model is trained to produce a safe-looking output, that model may generalize to making its CoTs look safe. Second, since later tokens are conditioned on earlier ones, safe-looking CoTs may increase the likelihood of safe outputs, causing safe-looking CoTs to be reinforced. We introduce two mitigations to address these two issues, which achieve a Pareto improvement in terms of monitorability and task performance compared to regular training.
- Abstract(参考訳): OpenAI (2025) は、思考の連鎖(CoT)モニターに対するトレーニングは、モニターが検出できない悪い振る舞いを含む難解なCoTを引き起こす可能性があることを示した。
彼らはCoTにアクセスできない出力モニタに対してのみ、トレーニングによってCoTを監視可能にすることを提案した。
このようなトレーニングは、2つのメカニズムによっても難読化CoTを発生させる可能性がある。
第一に、モデルが安全に見える出力を生成するように訓練された場合、そのモデルはCoTを安全に見えるように一般化するかもしれない。
第二に、後続のトークンが初期のトークンに条件付けされているため、安全に見えるCoTは安全な出力の可能性を高め、安全に見えるCoTを補強する可能性がある。
これら2つの課題に対処する2つの緩和策を導入し、通常のトレーニングに比べて監視性とタスクパフォーマンスの点でParetoの改善を実現した。
関連論文リスト
- A Concrete Roadmap towards Safety Cases based on Chain-of-Thought Monitoring [0.826731104724488]
本稿では,推論モデルにおけるチェーン・オブ・シント(CoT)モニタリングに基づく安全事例構築のロードマップを提案する。
我々は、CoTモニタリングは、制御と信頼性の両方の安全ケースをサポートするかもしれないと論じる。
論文 参考訳(メタデータ) (2025-10-22T11:13:52Z) - Can Reasoning Models Obfuscate Reasoning? Stress-Testing Chain-of-Thought Monitorability [35.180361462848516]
Chain-of-Thought(CoT)は、アライメント監視のための有望なツールである。
モデルは検出を回避しながら隠れた敵の目標を追求するためにCoTを難読化できるのか?
我々は,CoT難燃化を誘発するプロンプトの,構成可能で定量化可能な分類法を開発した。
論文 参考訳(メタデータ) (2025-10-21T18:07:10Z) - Beyond Linear Probes: Dynamic Safety Monitoring for Language Models [67.15793594651609]
従来の安全モニタは、クエリ毎に同じ量の計算を必要とする。
動的アクティベーションモニタリングのための線形プローブの自然な拡張であるTrncated Polynomials (TPCs)を紹介する。
我々の重要な洞察は、TPCを段階的に、短期的に訓練し、評価できるということです。
論文 参考訳(メタデータ) (2025-09-30T13:32:59Z) - Chain of Thought Monitorability: A New and Fragile Opportunity for AI Safety [85.79426562762656]
CoTモニタリングは不完全であり、一部の誤った行動に気づかないままにすることができる。
我々は、既存の安全手法とともに、CoT監視可能性とCoT監視への投資についてさらなる研究を推奨する。
CoTの監視性は脆弱である可能性があるので、フロンティアモデル開発者がCoTの監視性に対する開発決定の影響を考慮することを推奨します。
論文 参考訳(メタデータ) (2025-07-15T16:43:41Z) - CoT Red-Handed: Stress Testing Chain-of-Thought Monitoring [3.6284577335311563]
CoT(Chain-of-Thought)モニタリングは、アクションのみの監視がサボタージュを確実に識別できないシナリオにおいて、最大27ポイントの検出を改善する。
CoTトレースはまた、モニターを欺く誤解を招く合理化も含み、より明白なサボタージュケースのパフォーマンスを低下させる。
このハイブリッドモニターは、テストされたすべてのモデルとタスクにわたってCoTとアクションオンリーのモニターを一貫して上回り、微妙な詐欺シナリオに対するアクションオンリーのモニタリングよりも4倍高い速度で検出する。
論文 参考訳(メタデータ) (2025-05-29T15:47:36Z) - Reasoning Models Don't Always Say What They Think [48.05987314492555]
CoT(Chain-of-Thought)は、モデルの意図と推論プロセスの監視を可能にする。
提案する6つの推論ヒントにまたがる最先端推論モデルのCoT忠実度を評価した。
論文 参考訳(メタデータ) (2025-05-08T16:51:43Z) - Monitoring Reasoning Models for Misbehavior and the Risks of Promoting Obfuscation [56.102976602468615]
エージェントコーディング環境における報酬ハッキングのために,OpenAI o3-miniのようなフロンティア推論モデルを監視することができることを示す。
最適化が多すぎると、エージェントは難解な報酬のハッキングを学び、その意図を思考の連鎖の中に隠してしまう。
論文 参考訳(メタデータ) (2025-03-14T23:50:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。