論文の概要: Aligned, Orthogonal or In-conflict: When can we safely optimize Chain-of-Thought?
- arxiv url: http://arxiv.org/abs/2603.30036v1
- Date: Tue, 31 Mar 2026 17:38:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.959838
- Title: Aligned, Orthogonal or In-conflict: When can we safely optimize Chain-of-Thought?
- Title(参考訳): aligned, Orthogonal, In-Conflict: いつ,チェーン・オブ・ソートを安全に最適化できるのか?
- Authors: Max Kaufmann, David Lindner, Roland S. Zimmermann, and Rohin Shah,
- Abstract要約: CoT(Chain-of-Thought)モニタリングは、AIシステムを効果的に監視するための有望なアプローチである。
モデルのCoTがモデルを監視するのに役立つ範囲は、トレーニングの影響を受けます。
我々は、いつ、なぜこの現象が起こるかを予測するための概念的枠組みを提案し、実証的に検証する。
- 参考スコア(独自算出の注目度): 9.998810236275826
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chain-of-Thought (CoT) monitoring, in which automated systems monitor the CoT of an LLM, is a promising approach for effectively overseeing AI systems. However, the extent to which a model's CoT helps us oversee the model - the monitorability of the CoT - can be affected by training, for instance by the model learning to hide important features of its reasoning. We propose and empirically validate a conceptual framework for predicting when and why this occurs. We model LLM post-training as an RL environment where the reward decomposes into two terms: one term depending on final outputs and another term depending on the CoT. Our framework allows us to classify these two terms as "aligned", "orthogonal", or "in-conflict" before training. We predict that training with in-conflict terms will reduce monitorability, orthogonal terms will not affect it, and aligned terms will improve it. To validate our framework, we use it to classify a set of RL environments, train LLMs within those environments, and evaluate how training affects CoT monitorability. We find that (1) training with "in-conflict" reward terms reduces CoT monitorability and (2) optimizing in-conflict reward terms is difficult.
- Abstract(参考訳): LLMのCoTを監視する自動システムであるChain-of-Thought(CoT)モニタリングは、AIシステムを効果的に監視するための有望なアプローチである。
しかしながら、モデルのCoTがモデル(CoTの監視可能性)を監督するのに役立つ範囲は、例えば、モデル学習がその推論の重要な特徴を隠すために、トレーニングの影響を受けます。
我々は、いつ、なぜこの現象が起こるかを予測するための概念的枠組みを提案し、実証的に検証する。
我々は、LLM後学習を、報酬が最終出力に依存する項と、CoTに依存する項の2つの項に分解されるRL環境としてモデル化する。
私たちのフレームワークは、トレーニング前にこれらの2つの用語を"整合性"、"直交性"、"非衝突性"に分類することができます。
コンフリクト項によるトレーニングによって監視性が低下し、直交項が影響しない、整列項が改善すると予測する。
フレームワークを検証するために、一連のRL環境を分類し、それらの環境内でLLMをトレーニングし、トレーニングがCoT監視可能性にどのように影響するかを評価する。
その結果,(1)「インコンフリクト」報酬項によるトレーニングはCoT監視性を低下させ,(2)インコンフリクト報酬項の最適化は困難であることが判明した。
関連論文リスト
- Analyzing and Improving Chain-of-Thought Monitorability Through Information Theory [11.144603446849674]
CoT(Chain-of- Thought)モニターは、出力が興味のある属性を示す可能性があることを検知する推論トレースを分析するシステムである。
本稿では,CoTと出力の非ゼロな相互情報が必要であるが,CoT監視には不十分であることを示す。
論文 参考訳(メタデータ) (2026-02-20T15:50:30Z) - Reasoning Under Pressure: How do Training Incentives Influence Chain-of-Thought Monitorability? [7.914706904029561]
推論モデルに適用された異なるエンハンチングインセンティブが、その監視可能性にどのように影響するかを検討する。
対向最適化(監視精度を犠牲にする)がモニター性能を低下させるのに対して、監視可能性の直接最適化は確実に改善に繋がらない。
論文 参考訳(メタデータ) (2025-11-28T21:34:34Z) - A Pragmatic Way to Measure Chain-of-Thought Monitorability [10.811252340660907]
CoT(Chain-of-Thought)モニタリングは、AIの安全性にユニークな機会を提供する。
監視可能性を維持するために,可視性とカバレッジという2つのコンポーネントを測定するための実用的手法を提案する。
我々はこれらのメトリクスをオートラッタープロンプトで実装し、任意の有能なLCMが既存のCoTの可視性とカバレッジを計算できるようにする。
論文 参考訳(メタデータ) (2025-10-28T00:44:25Z) - Output Supervision Can Obfuscate the Chain of Thought [40.8558418962786]
OpenAI (2025) は、思考の連鎖(CoT)モニターに対するトレーニングが難解なCoTを引き起こす可能性があることを示した。
このようなトレーニングは、2つのメカニズムによっても難読化CoTを発生させる可能性がある。
論文 参考訳(メタデータ) (2025-10-11T08:13:02Z) - Steerable Adversarial Scenario Generation through Test-Time Preference Alignment [58.37104890690234]
対立シナリオ生成は、自律運転システムの安全性評価のためのコスト効率の良いアプローチである。
textbfSteerable textbfAdversarial scenario textbfGEnerator (SAGE) という新しいフレームワークを導入する。
SAGEは、逆境とリアリズムの間のトレードオフを、再トレーニングなしできめ細かいテストタイムコントロールを可能にします。
論文 参考訳(メタデータ) (2025-09-24T13:27:35Z) - Monitoring Reasoning Models for Misbehavior and the Risks of Promoting Obfuscation [56.102976602468615]
エージェントコーディング環境における報酬ハッキングのために,OpenAI o3-miniのようなフロンティア推論モデルを監視することができることを示す。
最適化が多すぎると、エージェントは難解な報酬のハッキングを学び、その意図を思考の連鎖の中に隠してしまう。
論文 参考訳(メタデータ) (2025-03-14T23:50:34Z) - TRACT: Regression-Aware Fine-tuning Meets Chain-of-Thought Reasoning for LLM-as-a-Judge [59.57934574562651]
TRACT(Two-stage Regression-Aware fine-tuning with CoT)は、CoT推論と回帰学習を組み合わせた手法である。
4つの LLM-as-a-judge データセットと2つの LLM データセットによる実験により、TRACT が既存の手法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2025-03-06T12:33:20Z) - Efficient Adversarial Training in LLMs with Continuous Attacks [99.5882845458567]
大規模言語モデル(LLM)は、安全ガードレールをバイパスできる敵攻撃に対して脆弱である。
本稿では,2つの損失からなる高速対向訓練アルゴリズム(C-AdvUL)を提案する。
C-AdvIPOは、対向的に堅牢なアライメントのためのユーティリティデータを必要としない、対向型のIPOである。
論文 参考訳(メタデータ) (2024-05-24T14:20:09Z) - Robust Pre-Training by Adversarial Contrastive Learning [120.33706897927391]
近年の研究では、敵の訓練と統合されると、自己監督型事前訓練が最先端の堅牢性につながることが示されている。
我々は,データ強化と対向的摂動の両面に整合した学習表現により,ロバストネスを意識した自己指導型事前学習を改善する。
論文 参考訳(メタデータ) (2020-10-26T04:44:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。