論文の概要: Measuring Chain-of-Thought Monitorability Through Faithfulness and Verbosity
- arxiv url: http://arxiv.org/abs/2510.27378v1
- Date: Fri, 31 Oct 2025 11:14:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:16.081067
- Title: Measuring Chain-of-Thought Monitorability Through Faithfulness and Verbosity
- Title(参考訳): 忠実度とVerbosityによるチェーンオブソート監視性の測定
- Authors: Austin Meek, Eitan Sprejer, Iván Arcuschin, Austin J. Brockmeier, Steven Basart,
- Abstract要約: CoT(Chain-of- Thought)出力によって、モデルのステップバイステップ推論を読み取ることができます。
BBH,GPQA,MMLUの命令調整モデルと推論モデルについて検討した。
- 参考スコア(独自算出の注目度): 3.117948413097524
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chain-of-thought (CoT) outputs let us read a model's step-by-step reasoning. Since any long, serial reasoning process must pass through this textual trace, the quality of the CoT is a direct window into what the model is thinking. This visibility could help us spot unsafe or misaligned behavior (monitorability), but only if the CoT is transparent about its internal reasoning (faithfulness). Fully measuring faithfulness is difficult, so researchers often focus on examining the CoT in cases where the model changes its answer after adding a cue to the input. This proxy finds some instances of unfaithfulness but loses information when the model maintains its answer, and does not investigate aspects of reasoning not tied to the cue. We extend these results to a more holistic sense of monitorability by introducing verbosity: whether the CoT lists every factor needed to solve the task. We combine faithfulness and verbosity into a single monitorability score that shows how well the CoT serves as the model's external `working memory', a property that many safety schemes based on CoT monitoring depend on. We evaluate instruction-tuned and reasoning models on BBH, GPQA, and MMLU. Our results show that models can appear faithful yet remain hard to monitor when they leave out key factors, and that monitorability differs sharply across model families. We release our evaluation code using the Inspect library to support reproducible future work.
- Abstract(参考訳): CoT(Chain-of- Thought)出力によって、モデルのステップバイステップ推論を読み取ることができます。
長いシリアル推論プロセスは、このテキストトレースを通らなければならないので、CoTの品質は、モデルが考えていることへの直接の窓である。
この可視性は、安全でない行動や不整合(監視可能性)を見つけるのに役立ちますが、CoTが内部の理由(事実性)を透明化している場合に限られます。
忠実さの完全測定は難しいため、研究者は入力に手がかりを加えた後、モデルが答えを変更する場合、CoTを調べることに集中することが多い。
このプロキシは、不信感のいくつかのインスタンスを見つけるが、モデルが応答を維持しているときに情報が失われ、キューに結び付けられていない推論の側面を調査しない。
私たちはこれらの結果を、冗長性を導入することで、より包括的な監視可能性に拡張します。
私たちは忠実さと冗長さを単一の監視可能性スコアに組み合わせて、CoTがモデルの外部の‘ワーキングメモリ’としていかにうまく機能するかを示します。
BBH,GPQA,MMLUの命令調整モデルと推論モデルについて検討した。
以上の結果から,モデルが重要な要因を逸脱した場合は,モデルが忠実に見えても監視が困難であること,モデルファミリ間での監視性が著しく異なることが示唆された。
我々は、再現可能な将来の作業をサポートするために、Inspectライブラリを使用して評価コードをリリースする。
関連論文リスト
- Can Aha Moments Be Fake? Identifying True and Decorative Thinking Steps in Chain-of-Thought [72.45900226435289]
大きな言語モデル(LLM)は、テスト時に長いチェーン・オブ・ソート(CoT)を生成することができ、複雑なタスクを解決できる。
提案したTrue Thinking Score (TTS) を用いて、各推論ステップの段階的因果関係がモデルの最終予測に与える影響を測定する。
我々は、LLMの潜在空間におけるTrueThinking方向を同定し、モデルに特定のCoTステップの実行や無視を強制することができる。
論文 参考訳(メタデータ) (2025-10-28T20:14:02Z) - A Pragmatic Way to Measure Chain-of-Thought Monitorability [10.811252340660907]
CoT(Chain-of-Thought)モニタリングは、AIの安全性にユニークな機会を提供する。
監視可能性を維持するために,可視性とカバレッジという2つのコンポーネントを測定するための実用的手法を提案する。
我々はこれらのメトリクスをオートラッタープロンプトで実装し、任意の有能なLCMが既存のCoTの可視性とカバレッジを計算できるようにする。
論文 参考訳(メタデータ) (2025-10-28T00:44:25Z) - Can Reasoning Models Obfuscate Reasoning? Stress-Testing Chain-of-Thought Monitorability [35.180361462848516]
Chain-of-Thought(CoT)は、アライメント監視のための有望なツールである。
モデルは検出を回避しながら隠れた敵の目標を追求するためにCoTを難読化できるのか?
我々は,CoT難燃化を誘発するプロンプトの,構成可能で定量化可能な分類法を開発した。
論文 参考訳(メタデータ) (2025-10-21T18:07:10Z) - FaithCoT-Bench: Benchmarking Instance-Level Faithfulness of Chain-of-Thought Reasoning [62.452350134196934]
FaithCoT-Benchは、インスタンスレベルのCoT不信検出のための統一ベンチマークである。
我々の枠組みは差別的な決定問題として不誠実検出を定式化している。
FaithCoT-Bench は LLM のより解釈可能で信頼性の高い推論に向けた将来の研究の基盤となる。
論文 参考訳(メタデータ) (2025-10-05T05:16:54Z) - Beyond Linear Probes: Dynamic Safety Monitoring for Language Models [67.15793594651609]
従来の安全モニタは、クエリ毎に同じ量の計算を必要とする。
動的アクティベーションモニタリングのための線形プローブの自然な拡張であるTrncated Polynomials (TPCs)を紹介する。
我々の重要な洞察は、TPCを段階的に、短期的に訓練し、評価できるということです。
論文 参考訳(メタデータ) (2025-09-30T13:32:59Z) - When Chain of Thought is Necessary, Language Models Struggle to Evade Monitors [10.705880888253501]
CoT(Chain-of- Thought)モニタリングは、AIの安全性を擁護するものだ。
この「不信」に関する最近の研究は、その信頼性に疑問を呈している。
重要な特性は忠実さではなく監視性である、と我々は主張する。
論文 参考訳(メタデータ) (2025-07-07T17:54:52Z) - Mitigating Deceptive Alignment via Self-Monitoring [15.365589693661823]
我々は,CoT Monitor+という,自己監視をチェーン・オブ・シントプロセス自体に組み込むフレームワークを開発した。
生成中、モデルは(i)通常の推論ステップを生成し、(ii)不整合戦略のフラグと抑制のために訓練された内部自己評価信号を生成する。
この信号は強化学習の補助的な報酬として使われ、正直な推論に報いるフィードバックループを作成し、隠れた目標を阻止する。
論文 参考訳(メタデータ) (2025-05-24T17:41:47Z) - Reasoning Models Don't Always Say What They Think [48.05987314492555]
CoT(Chain-of-Thought)は、モデルの意図と推論プロセスの監視を可能にする。
提案する6つの推論ヒントにまたがる最先端推論モデルのCoT忠実度を評価した。
論文 参考訳(メタデータ) (2025-05-08T16:51:43Z) - Monitoring Reasoning Models for Misbehavior and the Risks of Promoting Obfuscation [56.102976602468615]
エージェントコーディング環境における報酬ハッキングのために,OpenAI o3-miniのようなフロンティア推論モデルを監視することができることを示す。
最適化が多すぎると、エージェントは難解な報酬のハッキングを学び、その意図を思考の連鎖の中に隠してしまう。
論文 参考訳(メタデータ) (2025-03-14T23:50:34Z) - Measuring Faithfulness in Chain-of-Thought Reasoning [19.074147845029355]
大きな言語モデル(LLM)は、質問に答える前にステップバイステップの"Chain-of-Thought"(CoT)推論を生成する場合、より優れたパフォーマンスを発揮する。
記述された推論が、モデルの実際の推論(すなわち、質問に答えるプロセス)の忠実な説明であるかどうかは不明である。
我々は,CoTに介入する際のモデル予測がどう変化するかを調べることで,CoT推論が不信である可能性の仮説を考察する。
論文 参考訳(メタデータ) (2023-07-17T01:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。