論文の概要: Lessons from External Review of DeepMind's Scheming Inability Safety Case
- arxiv url: http://arxiv.org/abs/2604.21964v1
- Date: Thu, 23 Apr 2026 17:45:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 15:36:26.222174
- Title: Lessons from External Review of DeepMind's Scheming Inability Safety Case
- Title(参考訳): DeepMindのScheming Inability Safetyケースの外部レビューから学んだこと
- Authors: Stephen Barrett, Francisco Javier Campos Zabala, Sean P. Fillingham, Umair Siddique, James Walpole, Robin Bloomfield, Henry Papadatos,
- Abstract要約: フロンティアAIシステムの安全性のケースは、証拠によって支持され、害のリスクが許容範囲内にあるという説得力のある議論を提供するべきである。
本稿では、Assurance 2.0フレームワークを用いて、Google DeepMindのパブリックスキーマ障害の安全性ケースの外部レビューを行う。
- 参考スコア(独自算出の注目度): 0.07329200485567826
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safety cases for frontier AI systems should provide a convincing argument, supported by evidence, that the risk of harm is within an acceptable bound. When developers author their own safety cases, confirmation bias and conflicted incentives can affect the quality of argument. External review can help to address this. In this paper, we apply the Assurance 2.0 framework to perform an external review of Google DeepMind's public scheming inability safety case. We surface substantive new concerns that materially affect the scope of the safety case and its applicability for decision-making. Based on this experience, we provide concrete recommendations for how external review should be conducted and what information AI developers should provide to support it.
- Abstract(参考訳): フロンティアAIシステムの安全性のケースは、証拠によって支持され、害のリスクが許容範囲内にあるという説得力のある議論を提供するべきである。
開発者が自身の安全ケースを作成すれば、確認バイアスと矛盾したインセンティブが議論の質に影響を与える可能性がある。
外部レビューはこの問題に対処するのに役立ちます。
本稿では、Assurance 2.0フレームワークを用いて、Google DeepMindのパブリックスキーマ障害の安全性ケースの外部レビューを行う。
安全事例の範囲と意思決定への適用性に実質的な影響を及ぼす新たな懸念が浮かび上がっている。
この経験に基づいて、外部レビューの実施方法と、それをサポートするためにAI開発者が提供すべき情報について、具体的なレコメンデーションを提供します。
関連論文リスト
- Clear, Compelling Arguments: Rethinking the Foundations of Frontier AI Safety Cases [1.0170129555792935]
本稿では,フロンティアAIシステムの安全性に関する最近の議論に寄与する。
安全ケースは構造化されており、特定のコンテキストにおいてシステムが確実に安全にデプロイできるという防御可能な主張である。
その結果、フロンティアAIの安全性のケースが注目されている。
論文 参考訳(メタデータ) (2026-03-08T16:25:58Z) - SafeRBench: A Comprehensive Benchmark for Safety Assessment in Large Reasoning Models [60.8821834954637]
LRMの安全性をエンドツーエンドに評価する最初のベンチマークであるSafeRBenchを紹介する。
私たちは、リスクカテゴリとレベルを入力設計に組み込んだ先駆者です。
我々は,長い推論トレースを意味的に一貫性のある単位にセグメント化するためのマイクロシンクのチャンキング機構を導入する。
論文 参考訳(メタデータ) (2025-11-19T06:46:33Z) - Securing External Deeper-than-black-box GPAI Evaluations [49.1574468325115]
本稿では,汎用AI(GPAI)モデルの安全かつ効果的な外部評価を行う上での課題と可能性について検討する。
サイズ、能力、到達度、付随するリスクの指数的な増加により、説明責任、安全性、および公的な信頼を保証するには、従来のブラックボックスメソッドを超えるフレームワークが必要である。
論文 参考訳(メタデータ) (2025-03-10T16:13:45Z) - Position: Ensuring mutual privacy is necessary for effective external evaluation of proprietary AI systems [17.53028680356076]
AIシステムの外部評価は、その潜在的なリスクを理解するための重要なアプローチとして、ますます認識されている。
実際に外部評価を行うことは、評価者のシステムアクセスとAI開発者のプライバシとセキュリティ上の懸念のバランスをとる上で、大きな課題に直面します。
論文 参考訳(メタデータ) (2025-03-03T12:24:59Z) - Assessing confidence in frontier AI safety cases [37.839615078345886]
安全ケースは、システムの安全性に関する最上位のクレームを支持する構造化された議論を示す。
これにより、トップレベルのクレームとどのレベルの信頼が結びつくべきかという疑問が持ち上がる。
提案手法は,AI開発者が優先し,議論の敗者に対する調査をより効率的に行う方法である。
論文 参考訳(メタデータ) (2025-02-09T06:35:11Z) - Safety case template for frontier AI: A cyber inability argument [2.2628353000034065]
攻撃的サイバー能力のための安全ケーステンプレートを提案する。
リスクモデルを特定し、リスクモデルからプロキシタスクを導出し、プロキシタスクの評価設定を定義し、評価結果を結びつける。
論文 参考訳(メタデータ) (2024-11-12T18:45:08Z) - Foveate, Attribute, and Rationalize: Towards Physically Safe and
Trustworthy AI [76.28956947107372]
包括的不安全テキストは、日常的なシナリオから生じる可能性のある特定の関心領域であり、有害なテキストを検出するのが困難である。
安全の文脈において、信頼に値する合理的な生成のために外部知識を活用する新しいフレームワークであるFARMを提案する。
実験の結果,FARMはSafeTextデータセットの最先端結果を得ることができ,安全性の分類精度が5.9%向上したことがわかった。
論文 参考訳(メタデータ) (2022-12-19T17:51:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。