論文の概要: A Pragmatic Way to Measure Chain-of-Thought Monitorability
- arxiv url: http://arxiv.org/abs/2510.23966v1
- Date: Tue, 28 Oct 2025 00:44:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.696474
- Title: A Pragmatic Way to Measure Chain-of-Thought Monitorability
- Title(参考訳): 整合性測定のための実用的方法
- Authors: Scott Emmons, Roland S. Zimmermann, David K. Elson, Rohin Shah,
- Abstract要約: CoT(Chain-of-Thought)モニタリングは、AIの安全性にユニークな機会を提供する。
監視可能性を維持するために,可視性とカバレッジという2つのコンポーネントを測定するための実用的手法を提案する。
我々はこれらのメトリクスをオートラッタープロンプトで実装し、任意の有能なLCMが既存のCoTの可視性とカバレッジを計算できるようにする。
- 参考スコア(独自算出の注目度): 10.811252340660907
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Chain-of-Thought (CoT) monitoring offers a unique opportunity for AI safety, this opportunity could be lost through shifts in training practices or model architecture. To help preserve monitorability, we propose a pragmatic way to measure two components of it: legibility (whether the reasoning can be followed by a human) and coverage (whether the CoT contains all the reasoning needed for a human to also produce the final output). We implement these metrics with an autorater prompt that enables any capable LLM to compute the legibility and coverage of existing CoTs. After sanity-checking our prompted autorater with synthetic CoT degradations, we apply it to several frontier models on challenging benchmarks, finding that they exhibit high monitorability. We present these metrics, including our complete autorater prompt, as a tool for developers to track how design decisions impact monitorability. While the exact prompt we share is still a preliminary version under ongoing development, we are sharing it now in the hopes that others in the community will find it useful. Our method helps measure the default monitorability of CoT - it should be seen as a complement, not a replacement, for the adversarial stress-testing needed to test robustness against deliberately evasive models.
- Abstract(参考訳): Chain-of-Thought(CoT)モニタリングはAIの安全性にユニークな機会を提供するが、この機会はトレーニングプラクティスやモデルアーキテクチャのシフトによって失われる可能性がある。
可視性(推論が人間に追従できるかどうか)とカバレッジ(CoTには、人間が最終的な出力を生成するために必要なすべての理由が含まれているかどうか)の2つの要素を測定するための実践的な方法を提案する。
我々はこれらのメトリクスをオートラッタープロンプトで実装し、任意の有能なLCMが既存のCoTの可視性とカバレッジを計算できるようにする。
合成CoT劣化によるオートラッターの正当性チェックを行った結果,試行錯誤ベンチマークのフロンティアモデルに適用し,高い監視性を示した。
設計決定が監視可能性にどのように影響するかを開発者が追跡するためのツールとして、完全なオートラッタープロンプトを含むこれらの指標を提示します。
私たちが共有する正確なプロンプトは、まだ開発中の予備バージョンですが、コミュニティの他の人が役に立つと期待して、現在共有しています。
我々の手法はCoTのデフォルトの監視可能性を測定するのに役立ち、故意に回避可能なモデルに対する堅牢性をテストするのに必要な対向的ストレステストの補体として見なされるべきである。
関連論文リスト
- Can Confidence Estimates Decide When Chain-of-Thought Is Necessary for LLMs? [32.02698064940949]
CoT(Chain-of- Thought)プロンプトは、大規模言語モデルの推論能力を高めるための一般的な手法として登場した。
本研究は,CoTゲーティングのためのトレーニング不要信頼度推定手法に関する最初の体系的研究である。
論文 参考訳(メタデータ) (2025-10-23T21:33:28Z) - A Concrete Roadmap towards Safety Cases based on Chain-of-Thought Monitoring [0.826731104724488]
本稿では,推論モデルにおけるチェーン・オブ・シント(CoT)モニタリングに基づく安全事例構築のロードマップを提案する。
我々は、CoTモニタリングは、制御と信頼性の両方の安全ケースをサポートするかもしれないと論じる。
論文 参考訳(メタデータ) (2025-10-22T11:13:52Z) - Can Reasoning Models Obfuscate Reasoning? Stress-Testing Chain-of-Thought Monitorability [35.180361462848516]
Chain-of-Thought(CoT)は、アライメント監視のための有望なツールである。
モデルは検出を回避しながら隠れた敵の目標を追求するためにCoTを難読化できるのか?
我々は,CoT難燃化を誘発するプロンプトの,構成可能で定量化可能な分類法を開発した。
論文 参考訳(メタデータ) (2025-10-21T18:07:10Z) - Beyond Linear Probes: Dynamic Safety Monitoring for Language Models [67.15793594651609]
従来の安全モニタは、クエリ毎に同じ量の計算を必要とする。
動的アクティベーションモニタリングのための線形プローブの自然な拡張であるTrncated Polynomials (TPCs)を紹介する。
我々の重要な洞察は、TPCを段階的に、短期的に訓練し、評価できるということです。
論文 参考訳(メタデータ) (2025-09-30T13:32:59Z) - Chain of Thought Monitorability: A New and Fragile Opportunity for AI Safety [85.79426562762656]
CoTモニタリングは不完全であり、一部の誤った行動に気づかないままにすることができる。
我々は、既存の安全手法とともに、CoT監視可能性とCoT監視への投資についてさらなる研究を推奨する。
CoTの監視性は脆弱である可能性があるので、フロンティアモデル開発者がCoTの監視性に対する開発決定の影響を考慮することを推奨します。
論文 参考訳(メタデータ) (2025-07-15T16:43:41Z) - When Chain of Thought is Necessary, Language Models Struggle to Evade Monitors [10.705880888253501]
CoT(Chain-of- Thought)モニタリングは、AIの安全性を擁護するものだ。
この「不信」に関する最近の研究は、その信頼性に疑問を呈している。
重要な特性は忠実さではなく監視性である、と我々は主張する。
論文 参考訳(メタデータ) (2025-07-07T17:54:52Z) - Monitoring Reasoning Models for Misbehavior and the Risks of Promoting Obfuscation [56.102976602468615]
エージェントコーディング環境における報酬ハッキングのために,OpenAI o3-miniのようなフロンティア推論モデルを監視することができることを示す。
最適化が多すぎると、エージェントは難解な報酬のハッキングを学び、その意図を思考の連鎖の中に隠してしまう。
論文 参考訳(メタデータ) (2025-03-14T23:50:34Z) - Reinforcement Learning with a Terminator [80.34572413850186]
我々は, TerMDP のパラメータを学習し, 推定問題の構造を活用し, 状態ワイドな信頼境界を提供する。
我々はこれらを用いて証明可能な効率のよいアルゴリズムを構築し、終端を考慮し、その後悔を抑える。
論文 参考訳(メタデータ) (2022-05-30T18:40:28Z) - Learning Uncertainty For Safety-Oriented Semantic Segmentation In
Autonomous Driving [77.39239190539871]
自律運転における安全クリティカル画像セグメンテーションを実現するために、不確実性推定をどのように活用できるかを示す。
相似性関数によって測定された不一致予測に基づく新しい不確実性尺度を導入する。
本研究では,提案手法が競合手法よりも推論時間において計算集約性が低いことを示す。
論文 参考訳(メタデータ) (2021-05-28T09:23:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。