論文の概要: MonitorBench: A Comprehensive Benchmark for Chain-of-Thought Monitorability in Large Language Models
- arxiv url: http://arxiv.org/abs/2603.28590v1
- Date: Mon, 30 Mar 2026 15:37:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.486969
- Title: MonitorBench: A Comprehensive Benchmark for Chain-of-Thought Monitorability in Large Language Models
- Title(参考訳): MonitorBench: 大規模言語モデルにおけるチェーン・オブ・ソート(Chain-of-Thought)監視性のための総合ベンチマーク
- Authors: Han Wang, Yifan Sun, Brian Ko, Mann Talati, Jiawen Gong, Zimeng Li, Naicheng Yu, Xucheng Yu, Wei Shen, Vedant Jolly, Huan Zhang,
- Abstract要約: 大規模言語モデル(LLM)は、最終的な出力に対して必ずしも因果的ではない思考の連鎖(CoT)を生成することができる。
本研究では,LCMのCoT監視性を評価するためのベンチマークである MonitorBench を提案する。
- 参考スコア(独自算出の注目度): 17.655317708526603
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) can generate chains of thought (CoTs) that are not always causally responsible for their final outputs. When such a mismatch occurs, the CoT no longer faithfully reflects the decision-critical factors driving the model's behavior, leading to the reduced CoT monitorability problem. However, a comprehensive and fully open-source benchmark for studying CoT monitorability remains lacking. To address this gap, we propose MonitorBench, a systematic benchmark for evaluating CoT monitorability in LLMs. MonitorBench provides: (1) a diverse set of 1,514 test instances with carefully designed decision-critical factors across 19 tasks spanning 7 categories to characterize when CoTs can be used to monitor the factors driving LLM behavior; and (2) two stress-test settings to quantify the extent to which CoT monitorability can be degraded. Extensive experiments across multiple popular LLMs with varying capabilities show that CoT monitorability is higher when producing the final target response requires structural reasoning through the decision-critical factor. Closed-source LLMs generally show lower monitorability, and there exists a negative relationship between monitorability and model capability. Moreover, both open- and closed-source LLMs can intentionally reduce monitorability under stress-tests, with monitorability dropping by up to 30% in some tasks that do not require structural reasoning over the decision-critical factors. Beyond these empirical insights, MonitorBench provides a basis for further research on evaluating future LLMs, studying advanced stress-test monitorability techniques, and developing new monitoring approaches.
- Abstract(参考訳): 大規模言語モデル(LLM)は、最終的な出力に対して必ずしも因果的ではない思考の連鎖(CoT)を生成することができる。
このようなミスマッチが発生した場合、CoTはもはやモデルの振る舞いを駆動する決定クリティカルな要因を忠実に反映せず、CoT監視可能性の低下につながる。
しかしながら、CoT監視可能性を研究するための包括的で完全なオープンソースベンチマークは、まだ不足している。
このギャップに対処するために,LLMにおけるCoT監視可能性を評価するための系統的ベンチマークである MonitorBench を提案する。
MonitorBenchが提供するのは,(1) 7つのカテゴリにまたがる19のタスクに対して,慎重に設計された決定クリティカルな要因を備えた1,514のテストインスタンスの多種多様である。
様々な機能を持つ複数のLLMに対する大規模な実験により、最終目標応答を生成する際には、決定クリティカルな要因による構造的推論が要求される場合、CoTの監視可能性が高くなることが示された。
クローズドソースのLCMは一般的に監視可能性の低下を示し、監視可能性とモデル能力の間には負の関係がある。
さらに、オープンソースのLLMとクローズドソースのLLMは、ストレステスト下での監視性を意図的に低減し、決定クリティカルな要因に関する構造的推論を必要としないタスクにおいて、監視性は最大30%低下する。
これらの経験的洞察の他に、MonitorBenchは将来のLCMの評価、高度なストレス-テスト監視技術の研究、新しいモニタリング手法の開発に関する基礎を提供する。
関連論文リスト
- What If Consensus Lies? Selective-Complementary Reinforcement Learning at Test Time [57.533031432715084]
TTRL(Test-Time Reinforcement Learning)は、Large Language Models(LLM)が、ラベルのないテストストリームの推論能力を向上することを可能にする。
既存のTTRL法は、正の擬似ラベル戦略にのみ依存している。
本研究では,ラベル雑音増幅を効果的に緩和する堅牢なテスト時間強化学習フレームワークであるSCRLを提案する。
論文 参考訳(メタデータ) (2026-03-20T11:47:12Z) - Analyzing and Improving Chain-of-Thought Monitorability Through Information Theory [11.144603446849674]
CoT(Chain-of- Thought)モニターは、出力が興味のある属性を示す可能性があることを検知する推論トレースを分析するシステムである。
本稿では,CoTと出力の非ゼロな相互情報が必要であるが,CoT監視には不十分であることを示す。
論文 参考訳(メタデータ) (2026-02-20T15:50:30Z) - No Global Plan in Chain-of-Thought: Uncover the Latent Planning Horizon of LLMs [65.783709850324]
この研究は、Chain-of-Thought (CoT): Large Language Models (LLMs)の力学に関する先行的な補完的な観察に由来する。
LLMは、CoTの出現前の後続の推論の遅延計画を示すため、明示的なCoTの重要性は低下する。
各種タスク領域にまたがる隠れ状態に適用し,LLMの潜在計画強度について検討する。
論文 参考訳(メタデータ) (2026-02-02T13:46:56Z) - AutoMonitor-Bench: Evaluating the Reliability of LLM-Based Misbehavior Monitor [19.39430341586964]
AutoMonitor-Benchは、さまざまなタスクや障害モードにわたる誤動作モニタの信頼性を体系的に評価する最初のベンチマークである。
本研究では,2つの相補的指標(ミスレート(MR)とFalse Alarm Rate(FAR))を用いてモニタの評価を行った。
本研究では、153,581個のサンプルとQwen3-4B-インストラクションからなる大規模トレーニングコーパスを構築し、既知の比較的簡単に構築可能な誤動作データセットによるトレーニングが、目に見えない、より暗黙的な誤動作に対する監視性能を向上させるかどうかを調査する。
論文 参考訳(メタデータ) (2026-01-09T12:09:45Z) - Monitoring Monitorability [7.993120960324396]
本稿では,3つの評価アーチタイプ(介入,プロセス,結果整合性)と新しい監視可能性指標を提案する。
我々は、様々なフロンティアモデルの監視可能性を比較し、ほとんどのモデルが公平だが、完全には監視できないことを発見した。
モデルにフォローアップ質問をし、フォローアップCoTをモニターに付与することで、監視性を向上させることができることを示す。
論文 参考訳(メタデータ) (2025-12-20T10:46:04Z) - Investigating CoT Monitorability in Large Reasoning Models [10.511177985572333]
大規模推論モデル (LRM) は、最終解を出す前に拡張推論をすることで複雑なタスクにおいて顕著な性能を示す。
これらの詳細な推論トレースは、AI安全性、CoT Monitorabilityの新しい機会も生み出す。
しかし、CoT分析によってより効率的なモニターを構築しようとすると、2つの根本的な課題が生じる。
論文 参考訳(メタデータ) (2025-11-11T18:06:34Z) - CoT-Saliency: Unified Chain-of-Thought Reasoning for Heterogeneous Saliency Tasks [96.64597365827046]
本稿では,3つの運用上不均一なサリエンシタスクを共同で処理する,最初の統合フレームワークを提案する。
タスクの不均一性を橋渡しする視覚言語モデル(VLM)において、チェーン・オブ・ソート(CoT)推論プロセスを導入する。
我々は,全タスクにまたがる特別なSOTA手法と強力なクローズドソースVLMの整合性を示す。
論文 参考訳(メタデータ) (2025-11-01T04:37:01Z) - FaithCoT-Bench: Benchmarking Instance-Level Faithfulness of Chain-of-Thought Reasoning [62.452350134196934]
FaithCoT-Benchは、インスタンスレベルのCoT不信検出のための統一ベンチマークである。
我々の枠組みは差別的な決定問題として不誠実検出を定式化している。
FaithCoT-Bench は LLM のより解釈可能で信頼性の高い推論に向けた将来の研究の基盤となる。
論文 参考訳(メタデータ) (2025-10-05T05:16:54Z) - Beyond Linear Probes: Dynamic Safety Monitoring for Language Models [67.15793594651609]
従来の安全モニタは、クエリ毎に同じ量の計算を必要とする。
動的アクティベーションモニタリングのための線形プローブの自然な拡張であるTrncated Polynomials (TPCs)を紹介する。
我々の重要な洞察は、TPCを段階的に、短期的に訓練し、評価できるということです。
論文 参考訳(メタデータ) (2025-09-30T13:32:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。