論文の概要: A Concrete Roadmap towards Safety Cases based on Chain-of-Thought Monitoring
- arxiv url: http://arxiv.org/abs/2510.19476v1
- Date: Wed, 22 Oct 2025 11:13:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:15.727889
- Title: A Concrete Roadmap towards Safety Cases based on Chain-of-Thought Monitoring
- Title(参考訳): チェーン・オブ・ソートモニタリングに基づく安全事例へのコンクリート道路図
- Authors: Julian Schulz,
- Abstract要約: 本稿では,推論モデルにおけるチェーン・オブ・シント(CoT)モニタリングに基づく安全事例構築のロードマップを提案する。
我々は、CoTモニタリングは、制御と信頼性の両方の安全ケースをサポートするかもしれないと論じる。
- 参考スコア(独自算出の注目度): 0.826731104724488
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As AI systems approach dangerous capability levels where inability safety cases become insufficient, we need alternative approaches to ensure safety. This paper presents a roadmap for constructing safety cases based on chain-of-thought (CoT) monitoring in reasoning models and outlines our research agenda. We argue that CoT monitoring might support both control and trustworthiness safety cases. We propose a two-part safety case: (1) establishing that models lack dangerous capabilities when operating without their CoT, and (2) ensuring that any dangerous capabilities enabled by a CoT are detectable by CoT monitoring. We systematically examine two threats to monitorability: neuralese and encoded reasoning, which we categorize into three forms (linguistic drift, steganography, and alien reasoning) and analyze their potential drivers. We evaluate existing and novel techniques for maintaining CoT faithfulness. For cases where models produce non-monitorable reasoning, we explore the possibility of extracting a monitorable CoT from a non-monitorable CoT. To assess the viability of CoT monitoring safety cases, we establish prediction markets to aggregate forecasts on key technical milestones influencing their feasibility.
- Abstract(参考訳): AIシステムは、不安定な安全ケースが不十分になった危険な能力レベルにアプローチするので、安全を確保するための代替アプローチが必要です。
本稿では、モデル推論におけるチェーン・オブ・シント(CoT)モニタリングに基づく安全事例構築のロードマップを示し、研究課題の概要を述べる。
我々は、CoTモニタリングは、制御と信頼性の両方の安全ケースをサポートするかもしれないと論じる。
本稿では,(1)CoTなしでの動作において,モデルに危険な機能がないこと,(2)CoTモニタリングによってCoTによって可能となる危険な機能を検出すること,の2つのケースを提案する。
我々は、ニューラルネットワークと符号化推論の2つの脅威を体系的に検討し、これらを3つの形式(言語的ドリフト、ステガノグラフィ、エイリアン推論)に分類し、その潜在的なドライバを分析する。
我々は,CoT忠実性を維持するための既存および新規技術の評価を行った。
モデルが監視不能な推論を生成する場合、監視不能なCoTから監視不能なCoTを抽出する可能性を探る。
安全ケースのCoTモニタリングの実現可能性を評価するため、予測市場を構築し、重要な技術的マイルストーンの予測を集約し、その実現可能性に影響を与える。
関連論文リスト
- Can Reasoning Models Obfuscate Reasoning? Stress-Testing Chain-of-Thought Monitorability [35.180361462848516]
Chain-of-Thought(CoT)は、アライメント監視のための有望なツールである。
モデルは検出を回避しながら隠れた敵の目標を追求するためにCoTを難読化できるのか?
我々は,CoT難燃化を誘発するプロンプトの,構成可能で定量化可能な分類法を開発した。
論文 参考訳(メタデータ) (2025-10-21T18:07:10Z) - Towards Safe Reasoning in Large Reasoning Models via Corrective Intervention [53.25106308403173]
既存の手法は、安全推論の独特な重要性を軽視し、信頼性を損なうとともに、悪質なユーザに対して安全でない推論がアクセス可能で、悪質なユーザによって悪用された場合、アプリケーションに潜在的なリスクを生じさせることを示す。
我々は、安全トリガー付きコンプライアンスステップを代入し、強い信号による優先学習のためのペアを構築することで、安全推論を強制するアライメント手法であるIntervened Preference Optimization (IPO)を提案する。
論文 参考訳(メタデータ) (2025-09-29T07:41:09Z) - Thought Purity: A Defense Framework For Chain-of-Thought Attack [16.56580534764132]
本稿では,悪意のあるコンテンツに対する抵抗性を高めつつ,操作効率を保ちつつ,その耐性を高めるフレームワークであるThought Purityを提案する。
本手法は,強化学習型推論システムにおけるCoTA脆弱性に対する最初の包括的防御機構を確立する。
論文 参考訳(メタデータ) (2025-07-16T15:09:13Z) - Chain of Thought Monitorability: A New and Fragile Opportunity for AI Safety [85.79426562762656]
CoTモニタリングは不完全であり、一部の誤った行動に気づかないままにすることができる。
我々は、既存の安全手法とともに、CoT監視可能性とCoT監視への投資についてさらなる研究を推奨する。
CoTの監視性は脆弱である可能性があるので、フロンティアモデル開発者がCoTの監視性に対する開発決定の影響を考慮することを推奨します。
論文 参考訳(メタデータ) (2025-07-15T16:43:41Z) - When Chain of Thought is Necessary, Language Models Struggle to Evade Monitors [10.705880888253501]
CoT(Chain-of- Thought)モニタリングは、AIの安全性を擁護するものだ。
この「不信」に関する最近の研究は、その信頼性に疑問を呈している。
重要な特性は忠実さではなく監視性である、と我々は主張する。
論文 参考訳(メタデータ) (2025-07-07T17:54:52Z) - Advancing Neural Network Verification through Hierarchical Safety Abstract Interpretation [52.626086874715284]
我々は、安全でない出力の階層構造を検証する抽象的DNN検証と呼ばれる新しい問題定式化を導入する。
出力到達可能な集合に関する抽象的解釈と推論を活用することにより,形式的検証プロセスにおいて,複数の安全性レベルを評価することができる。
我々の貢献には、新しい抽象的安全性の定式化と既存のアプローチとの関係を理論的に探求することが含まれる。
論文 参考訳(メタデータ) (2025-05-08T13:29:46Z) - An Approach to Technical AGI Safety and Security [72.83728459135101]
我々は、人類を著しく傷つけるのに十分な害のリスクに対処するアプローチを開発する。
私たちは、誤用や悪用に対する技術的なアプローチに重点を置いています。
これらの成分を組み合わせてAGIシステムの安全性を実現する方法について概説する。
論文 参考訳(メタデータ) (2025-04-02T15:59:31Z) - Monitoring Reasoning Models for Misbehavior and the Risks of Promoting Obfuscation [56.102976602468615]
エージェントコーディング環境における報酬ハッキングのために,OpenAI o3-miniのようなフロンティア推論モデルを監視することができることを示す。
最適化が多すぎると、エージェントは難解な報酬のハッキングを学び、その意図を思考の連鎖の中に隠してしまう。
論文 参考訳(メタデータ) (2025-03-14T23:50:34Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。