論文の概要: Chain of Thought Monitorability: A New and Fragile Opportunity for AI Safety
- arxiv url: http://arxiv.org/abs/2507.11473v1
- Date: Tue, 15 Jul 2025 16:43:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-16 19:46:03.191819
- Title: Chain of Thought Monitorability: A New and Fragile Opportunity for AI Safety
- Title(参考訳): 思考の監視可能性の連鎖:AIの安全性のための新奇な機会
- Authors: Tomek Korbak, Mikita Balesni, Elizabeth Barnes, Yoshua Bengio, Joe Benton, Joseph Bloom, Mark Chen, Alan Cooney, Allan Dafoe, Anca Dragan, Scott Emmons, Owain Evans, David Farhi, Ryan Greenblatt, Dan Hendrycks, Marius Hobbhahn, Evan Hubinger, Geoffrey Irving, Erik Jenner, Daniel Kokotajlo, Victoria Krakovna, Shane Legg, David Lindner, David Luan, Aleksander Mądry, Julian Michael, Neel Nanda, Dave Orr, Jakub Pachocki, Ethan Perez, Mary Phuong, Fabien Roger, Joshua Saxe, Buck Shlegeris, Martín Soto, Eric Steinberger, Jasmine Wang, Wojciech Zaremba, Bowen Baker, Rohin Shah, Vlad Mikulik,
- Abstract要約: CoTモニタリングは不完全であり、一部の誤った行動に気づかないままにすることができる。
我々は、既存の安全手法とともに、CoT監視可能性とCoT監視への投資についてさらなる研究を推奨する。
CoTの監視性は脆弱である可能性があるので、フロンティアモデル開発者がCoTの監視性に対する開発決定の影響を考慮することを推奨します。
- 参考スコア(独自算出の注目度): 85.79426562762656
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI systems that "think" in human language offer a unique opportunity for AI safety: we can monitor their chains of thought (CoT) for the intent to misbehave. Like all other known AI oversight methods, CoT monitoring is imperfect and allows some misbehavior to go unnoticed. Nevertheless, it shows promise and we recommend further research into CoT monitorability and investment in CoT monitoring alongside existing safety methods. Because CoT monitorability may be fragile, we recommend that frontier model developers consider the impact of development decisions on CoT monitorability.
- Abstract(参考訳): 人間の言語で"考える"AIシステムは、AIの安全性にユニークな機会を与えます。
他の既知のAI監視方法と同様に、CoTモニタリングは不完全であり、一部の誤った行動に気づかないままにすることができる。
それにもかかわらず、これは有望であり、既存の安全手法とともにCoT監視可能性とCoT監視への投資に関するさらなる研究を推奨する。
CoTの監視性は脆弱である可能性があるので、フロンティアモデル開発者がCoTの監視性に対する開発決定の影響を考慮することを推奨します。
関連論文リスト
- When Chain of Thought is Necessary, Language Models Struggle to Evade Monitors [10.705880888253501]
CoT(Chain-of- Thought)モニタリングは、AIの安全性を擁護するものだ。
この「不信」に関する最近の研究は、その信頼性に疑問を呈している。
重要な特性は忠実さではなく監視性である、と我々は主張する。
論文 参考訳(メタデータ) (2025-07-07T17:54:52Z) - SafeCoT: Improving VLM Safety with Minimal Reasoning [5.452721786714111]
我々は、視覚言語モデルにおける拒絶動作を改善する軽量で解釈可能なフレームワークであるSafeCoTを紹介する。
SafeCoTは,訓練データに制限がある場合でも,過度な拒絶と一般化を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-06-10T03:13:50Z) - Towards provable probabilistic safety for scalable embodied AI systems [79.31011047593492]
エンボディードAIシステムは、様々なアプリケーションでますます普及している。
複雑な運用環境での安全性確保は依然として大きな課題である。
提案する確率的安全性は,大規模展開の残留リスクが予め定義された閾値以下であることを保証することを目的としている。
論文 参考訳(メタデータ) (2025-06-05T15:46:25Z) - An Approach to Technical AGI Safety and Security [72.83728459135101]
我々は、人類を著しく傷つけるのに十分な害のリスクに対処するアプローチを開発する。
私たちは、誤用や悪用に対する技術的なアプローチに重点を置いています。
これらの成分を組み合わせてAGIシステムの安全性を実現する方法について概説する。
論文 参考訳(メタデータ) (2025-04-02T15:59:31Z) - Monitoring Reasoning Models for Misbehavior and the Risks of Promoting Obfuscation [56.102976602468615]
エージェントコーディング環境における報酬ハッキングのために,OpenAI o3-miniのようなフロンティア推論モデルを監視することができることを示す。
最適化が多すぎると、エージェントは難解な報酬のハッキングを学び、その意図を思考の連鎖の中に隠してしまう。
論文 参考訳(メタデータ) (2025-03-14T23:50:34Z) - To Think or Not to Think: Exploring the Unthinking Vulnerability in Large Reasoning Models [56.19026073319406]
大規模推論モデル (LRM) は、最終的な答えを生成する前に明確な推論トレースを生成することで複雑なタスクを解決するように設計されている。
LRM(Unthinking)と呼ばれる重要な脆弱性を明らかにし、特別なトークンを操作することで思考プロセスを回避できます。
本稿では,この脆弱性を悪意と有益の両方の観点から検討する。
論文 参考訳(メタデータ) (2025-02-16T10:45:56Z) - Safeguarded Progress in Reinforcement Learning: Safe Bayesian
Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。
探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-12-18T16:09:43Z) - SoK: Modeling Explainability in Security Analytics for Interpretability,
Trustworthiness, and Usability [2.656910687062026]
高信頼のセキュリティアプリケーションにおいて、解釈可能性、信頼性、およびユーザビリティが重要な考慮事項である。
ディープラーニングモデルは、分類や予測につながる重要な特徴や要因を特定するブラックボックスとして振る舞う。
ほとんどの説明法は矛盾した説明を提供し、忠実度は低く、敵の操作に影響を受けやすい。
論文 参考訳(メタデータ) (2022-10-31T15:01:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。