論文の概要: Investigating CoT Monitorability in Large Reasoning Models
- arxiv url: http://arxiv.org/abs/2511.08525v2
- Date: Fri, 14 Nov 2025 01:46:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 13:23:30.631467
- Title: Investigating CoT Monitorability in Large Reasoning Models
- Title(参考訳): 大型共振モデルにおけるCoTモニタリング可能性の検討
- Authors: Shu Yang, Junchao Wu, Xilin Gong, Xuansheng Wu, Derek Wong, Ninhao Liu, Di Wang,
- Abstract要約: 大規模推論モデル (LRM) は、最終解を出す前に拡張推論をすることで複雑なタスクにおいて顕著な性能を示す。
これらの詳細な推論トレースは、AI安全性、CoT Monitorabilityの新しい機会も生み出す。
しかし、CoT分析によってより効率的なモニターを構築しようとすると、2つの根本的な課題が生じる。
- 参考スコア(独自算出の注目度): 10.511177985572333
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Reasoning Models (LRMs) have demonstrated remarkable performance on complex tasks by engaging in extended reasoning before producing final answers. Beyond improving abilities, these detailed reasoning traces also create a new opportunity for AI safety, CoT Monitorability: monitoring potential model misbehavior, such as the use of shortcuts or sycophancy, through their chain-of-thought (CoT) during decision-making. However, two key fundamental challenges arise when attempting to build more effective monitors through CoT analysis. First, as prior research on CoT faithfulness has pointed out, models do not always truthfully represent their internal decision-making in the generated reasoning. Second, monitors themselves may be either overly sensitive or insufficiently sensitive, and can potentially be deceived by models' long, elaborate reasoning traces. In this paper, we present the first systematic investigation of the challenges and potential of CoT monitorability. Motivated by two fundamental challenges we mentioned before, we structure our study around two central perspectives: (i) verbalization: to what extent do LRMs faithfully verbalize the true factors guiding their decisions in the CoT, and (ii) monitor reliability: to what extent can misbehavior be reliably detected by a CoT-based monitor? Specifically, we provide empirical evidence and correlation analyses between verbalization quality, monitor reliability, and LLM performance across mathematical, scientific, and ethical domains. Then we further investigate how different CoT intervention methods, designed to improve reasoning efficiency or performance, will affect monitoring effectiveness. Finally, we propose MoME, a new paradigm in which LLMs monitor other models' misbehavior through their CoT and provide structured judgments along with supporting evidence.
- Abstract(参考訳): 大規模推論モデル (LRM) は、最終解を出す前に拡張推論をすることで複雑なタスクにおいて顕著な性能を示す。
能力の向上以外にも、これらの詳細な推論トレースは、AI安全性のための新たな機会、CoT Monitorability(CoT監視可能性)も生み出している。
しかし、CoT分析によってより効率的なモニターを構築しようとすると、2つの根本的な課題が生じる。
第一に、CoTの忠実性に関する以前の研究が指摘しているように、モデルは生成された推論において内的意思決定を真に表しているとは限らない。
第二に、モニター自体が過度に敏感か不十分に敏感であり、モデルの長く精巧な推論トレースによって騙される可能性がある。
本稿では,CoT監視可能性の課題と可能性について,初めて体系的に検討する。
先程述べた2つの基本的な課題によって、我々は2つの中心的な視点で研究を構成した。
一 動詞化:どの程度において、LRMは、CoTにおける意思決定を導く真の要因を忠実に言語化するか、及び
(二 信頼性の監視:CoTベースのモニターでどの程度の誤動作を確実に検出できるか。
具体的には, 数学的, 科学的, 倫理的領域にまたがる言語品質, 信頼性の監視, LLM性能の実証的エビデンスと相関分析を行う。
さらに、推論効率や性能を改善するために設計された異なるCoT介入手法が、モニタリングの有効性にどのように影響するかについても検討する。
最後に,LLMが他のモデルの動作をCoTを通して監視し,支持する証拠とともに構造化された判断を与える新しいパラダイムであるMoMEを提案する。
関連論文リスト
- A Concrete Roadmap towards Safety Cases based on Chain-of-Thought Monitoring [0.826731104724488]
本稿では,推論モデルにおけるチェーン・オブ・シント(CoT)モニタリングに基づく安全事例構築のロードマップを提案する。
我々は、CoTモニタリングは、制御と信頼性の両方の安全ケースをサポートするかもしれないと論じる。
論文 参考訳(メタデータ) (2025-10-22T11:13:52Z) - Can Reasoning Models Obfuscate Reasoning? Stress-Testing Chain-of-Thought Monitorability [35.180361462848516]
Chain-of-Thought(CoT)は、アライメント監視のための有望なツールである。
モデルは検出を回避しながら隠れた敵の目標を追求するためにCoTを難読化できるのか?
我々は,CoT難燃化を誘発するプロンプトの,構成可能で定量化可能な分類法を開発した。
論文 参考訳(メタデータ) (2025-10-21T18:07:10Z) - From <Answer> to <Think>: Multidimensional Supervision of Reasoning Process for LLM Optimization [62.07990937720985]
DRM(Dimension-level Reward Model)は、大規模言語モデルのための新しい監視フレームワークである。
DRMは3つの基本的、相補的、解釈可能な次元に沿って推論プロセスの品質を評価する。
実験の結果、DRMは効果的な監視信号を提供し、LCMの最適化を誘導し、推論能力を向上することが示された。
論文 参考訳(メタデータ) (2025-10-13T14:29:15Z) - FaithCoT-Bench: Benchmarking Instance-Level Faithfulness of Chain-of-Thought Reasoning [62.452350134196934]
FaithCoT-Benchは、インスタンスレベルのCoT不信検出のための統一ベンチマークである。
我々の枠組みは差別的な決定問題として不誠実検出を定式化している。
FaithCoT-Bench は LLM のより解釈可能で信頼性の高い推論に向けた将来の研究の基盤となる。
論文 参考訳(メタデータ) (2025-10-05T05:16:54Z) - CoT Red-Handed: Stress Testing Chain-of-Thought Monitoring [3.6284577335311563]
CoT(Chain-of-Thought)モニタリングは、アクションのみの監視がサボタージュを確実に識別できないシナリオにおいて、最大27ポイントの検出を改善する。
CoTトレースはまた、モニターを欺く誤解を招く合理化も含み、より明白なサボタージュケースのパフォーマンスを低下させる。
このハイブリッドモニターは、テストされたすべてのモデルとタスクにわたってCoTとアクションオンリーのモニターを一貫して上回り、微妙な詐欺シナリオに対するアクションオンリーのモニタリングよりも4倍高い速度で検出する。
論文 参考訳(メタデータ) (2025-05-29T15:47:36Z) - Critic-CoT: Boosting the reasoning abilities of large language model via Chain-of-thoughts Critic [48.94340387130627]
Critic-CoTは、LLMをSystem-2のような批判能力にプッシュするフレームワークである。
人間のアノテーションを使わずにCoT推論パラダイムと遠隔スーパービジョンデータの自動構築
GSM8KとMATHの実験は、我々の強化されたモデルがタスク解決性能を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2024-08-29T08:02:09Z) - Measuring and Improving Chain-of-Thought Reasoning in Vision-Language Models [61.28463542324576]
視覚言語モデル(VLM)は近年,人間のような出力を生成できる視覚アシスタントとして,強力な有効性を示している。
我々は、既存の最先端のVLMを評価し、最高の性能モデルでさえ、強力な視覚的推論能力と一貫性を示すことができないことを発見した。
本稿では,VLMの推論性能と一貫性の向上を目的とした2段階トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-08T17:49:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。