論文の概要: Assessing confidence in frontier AI safety cases
- arxiv url: http://arxiv.org/abs/2502.05791v1
- Date: Sun, 09 Feb 2025 06:35:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:33:51.758400
- Title: Assessing confidence in frontier AI safety cases
- Title(参考訳): 最前線のAI安全事例における信頼度の評価
- Authors: Stephen Barrett, Philip Fox, Joshua Krook, Tuneer Mondal, Simon Mylius, Alejandro Tlaie,
- Abstract要約: 安全ケースは、システムの安全性に関する最上位のクレームを支持する構造化された議論を示す。
これにより、トップレベルのクレームとどのレベルの信頼が結びつくべきかという疑問が持ち上がる。
提案手法は,AI開発者が優先し,議論の敗者に対する調査をより効率的に行う方法である。
- 参考スコア(独自算出の注目度): 37.839615078345886
- License:
- Abstract: Powerful new frontier AI technologies are bringing many benefits to society but at the same time bring new risks. AI developers and regulators are therefore seeking ways to assure the safety of such systems, and one promising method under consideration is the use of safety cases. A safety case presents a structured argument in support of a top-level claim about a safety property of the system. Such top-level claims are often presented as a binary statement, for example "Deploying the AI system does not pose unacceptable risk". However, in practice, it is often not possible to make such statements unequivocally. This raises the question of what level of confidence should be associated with a top-level claim. We adopt the Assurance 2.0 safety assurance methodology, and we ground our work by specific application of this methodology to a frontier AI inability argument that addresses the harm of cyber misuse. We find that numerical quantification of confidence is challenging, though the processes associated with generating such estimates can lead to improvements in the safety case. We introduce a method for better enabling reproducibility and transparency in probabilistic assessment of confidence in argument leaf nodes through a purely LLM-implemented Delphi method. We propose a method by which AI developers can prioritise, and thereby make their investigation of argument defeaters more efficient. Proposals are also made on how best to communicate confidence information to executive decision-makers.
- Abstract(参考訳): 強力な新しいフロンティアAI技術は、社会に多くの利益をもたらしつつ、同時に新たなリスクをもたらしている。
そのため、AI開発者と規制当局は、そのようなシステムの安全性を保証する方法を模索しており、検討中の1つの有望な方法は、安全ケースの使用である。
安全ケースは、システムの安全性に関する最上位のクレームを支持する構造化された議論を示す。
このようなトップレベルのクレームは、しばしばバイナリステートメントとして提示される。
しかし、実際にはそのような言明を不当に行うことはしばしば不可能である。
これにより、トップレベルのクレームとどのレベルの信頼が結びつくべきかという疑問が持ち上がる。
私たちは、Assurance 2.0の安全性保証方法論を採用し、この方法論を特定の応用によって、サイバー不正使用の危険性に対処する、フロンティアAIの障害論に基礎を置きます。
信頼性の数値的な定量化は難しいが、そのような推定を生成するプロセスは安全ケースの改善につながる可能性がある。
純粋にLLMを実装したDelphi法を用いた議論葉ノードの信頼性の確率論的評価において、再現性と透明性を向上する手法を提案する。
提案手法は,AI開発者が優先し,議論の敗者に対する調査をより効率的に行う方法である。
また、経営陣の意思決定者に信頼情報を伝える最善の方法に関する提案もなされている。
関連論文リスト
- Vulnerability Mitigation for Safety-Aligned Language Models via Debiasing [12.986006070964772]
安全性アライメントは、現実世界のAIアプリケーションにとって重要な研究トピックである。
本研究はまず,モデルの有用性を犠牲にすることなく,このような脆弱性を除去することの難しさを明らかにした。
本手法は,安全性を維持しつつモデルの有用性を高め,トレードオフを改善できる。
論文 参考訳(メタデータ) (2025-02-04T09:31:54Z) - OpenAI o1 System Card [274.83891368890977]
o1モデルシリーズは、思考の連鎖を用いて推論するために大規模な強化学習で訓練されている。
本報告では,OpenAI o1およびOpenAI o1-miniモデルに対して実施される安全作業の概要について述べる。
論文 参考訳(メタデータ) (2024-12-21T18:04:31Z) - Safety case template for frontier AI: A cyber inability argument [2.2628353000034065]
攻撃的サイバー能力のための安全ケーステンプレートを提案する。
リスクモデルを特定し、リスクモデルからプロキシタスクを導出し、プロキシタスクの評価設定を定義し、評価結果を結びつける。
論文 参考訳(メタデータ) (2024-11-12T18:45:08Z) - SafetyAnalyst: Interpretable, transparent, and steerable safety moderation for AI behavior [56.10557932893919]
我々は、新しいAI安全モデレーションフレームワークであるSafetyAnalystを紹介する。
AIの振る舞いを考えると、SafetyAnalystはチェーン・オブ・シークレット・推論を使用してその潜在的な結果を分析する。
あらゆる有害かつ有益な効果を、完全に解釈可能な重みパラメータを用いて有害度スコアに集約する。
論文 参考訳(メタデータ) (2024-10-22T03:38:37Z) - Safetywashing: Do AI Safety Benchmarks Actually Measure Safety Progress? [59.96471873997733]
我々は、より有意義な安全指標を開発するための実証的な基盤を提案し、機械学習研究の文脈でAIの安全性を定義する。
我々は、AI安全研究のためのより厳格なフレームワークを提供し、安全性評価の科学を前進させ、測定可能な進歩への道筋を明らかにすることを目指している。
論文 参考訳(メタデータ) (2024-07-31T17:59:24Z) - Towards Guaranteed Safe AI: A Framework for Ensuring Robust and Reliable AI Systems [88.80306881112313]
我々は、AI安全性に対する一連のアプローチを紹介し、定義する。
これらのアプローチの中核的な特徴は、高保証の定量的安全性保証を備えたAIシステムを作ることである。
これら3つのコアコンポーネントをそれぞれ作成するためのアプローチを概説し、主な技術的課題を説明し、それらに対する潜在的なソリューションをいくつか提案します。
論文 参考訳(メタデータ) (2024-05-10T17:38:32Z) - Safeguarded Progress in Reinforcement Learning: Safe Bayesian
Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。
探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-12-18T16:09:43Z) - Integrating Testing and Operation-related Quantitative Evidences in
Assurance Cases to Argue Safety of Data-Driven AI/ML Components [2.064612766965483]
将来的には、AIは人間の身体に害を与える可能性のあるシステムに、ますます浸透していくだろう。
このような安全クリティカルなシステムでは、その残留リスクが許容範囲を超えないことが証明されなければならない。
本稿では,目標達成のためのより包括的な議論構造を提案する。
論文 参考訳(メタデータ) (2022-02-10T20:35:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。