論文の概要: Evaluating AI Companies' Frontier Safety Frameworks: Methodology and Results
- arxiv url: http://arxiv.org/abs/2512.01166v1
- Date: Mon, 01 Dec 2025 00:55:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.618894
- Title: Evaluating AI Companies' Frontier Safety Frameworks: Methodology and Results
- Title(参考訳): AI企業のフロンティア安全フレームワークを評価する - 方法論と結果
- Authors: Lily Stelling, Malcolm Murray, Simeon Campos, Henry Papadatos,
- Abstract要約: 12のAI企業が、先進的なAIシステムによる破滅的なリスクを管理するためのアプローチを概説する、フロンティア安全フレームワークを公開した。
我々は,安全クリティカル産業から確立されたリスク管理原則に基づく65基準評価手法を開発した。
リスク識別、リスク分析と評価、リスク処理、リスクガバナンスという4つの側面の12のフレームワークを評価します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Following the Seoul AI Safety Summit in 2024, twelve AI companies published frontier safety frameworks outlining their approaches to managing catastrophic risks from advanced AI systems. These frameworks now serve as a key mechanism for AI risk governance, utilized by regulations and governance instruments such as the EU AI Act's Code of Practice and California's Transparency in Frontier Artificial Intelligence Act. Given their centrality to AI risk management, assessments of such frameworks are warranted. Existing assessments evaluate them at a high level of abstraction and lack granularity on specific practices for companies to adopt. We address this gap by developing a 65-criteria assessment methodology grounded in established risk management principles from safety-critical industries. We evaluate the twelve frameworks across four dimensions: risk identification, risk analysis and evaluation, risk treatment, and risk governance. Companies' current scores are low, ranging from 8% to 35%. By adopting existing best practices already in use across the frameworks, companies could reach 52%. The most critical gaps are nearly universal: companies generally fail to (a) define quantitative risk tolerances, (b) specify capability thresholds for pausing development, and (c) systematically identify unknown risks. To guide improvement, we provide specific recommendations for each company and each criterion.
- Abstract(参考訳): 2024年のソウルAI安全サミットに続いて、12のAI企業が、先進的なAIシステムによる破滅的なリスクを管理するための、フロンティア安全フレームワークを公開した。
これらのフレームワークは現在、EU AI Act’s Code of PracticeやCalifornia's Transparency in Frontier Artificial Intelligence Actといった規制やガバナンス手段によって活用されている、AIリスクガバナンスの重要なメカニズムとして機能している。
AIリスク管理の中心性を考えると、このようなフレームワークの評価は保証される。
既存の評価は、それらを高いレベルの抽象化で評価し、企業が採用する特定のプラクティスの粒度を欠いている。
我々は、安全クリティカル産業から確立されたリスク管理原則に基づく65基準評価手法を開発することで、このギャップに対処する。
リスク識別、リスク分析と評価、リスク処理、リスクガバナンスという4つの側面の12のフレームワークを評価します。
企業の現在のスコアは8%から35%まで低い。
すでにフレームワーク全体で使用されている既存のベストプラクティスを採用することで、企業は52%に達する可能性がある。
もっとも重要なギャップは、ほぼ普遍的だ。
a) 量的リスク許容度を定義する。
b) 開発を一時停止する能力閾値を指定し、
(c) 未知のリスクを体系的に識別する。
改善の指針として,企業毎の推奨事項と基準を設定した。
関連論文リスト
- RADAR: A Risk-Aware Dynamic Multi-Agent Framework for LLM Safety Evaluation via Role-Specialized Collaboration [81.38705556267917]
大規模言語モデル(LLM)の既存の安全性評価手法は、固有の制約に悩まされている。
リスク概念空間を再構築する理論的枠組みを導入する。
マルチエージェント協調評価フレームワークRADARを提案する。
論文 参考訳(メタデータ) (2025-09-28T09:35:32Z) - Intolerable Risk Threshold Recommendations for Artificial Intelligence [0.2383122657918106]
フロンティアAIモデルは、公共の安全、人権、経済の安定、社会的価値に深刻なリスクをもたらす可能性がある。
リスクは、意図的に敵の誤用、システム障害、意図しないカスケード効果、複数のモデルにまたがる同時障害から生じる可能性がある。
16のグローバルAI産業組織がFrontier AI Safety Commitmentsに署名し、27の国とEUは、これらのしきい値を定義する意図を宣言した。
論文 参考訳(メタデータ) (2025-03-04T12:30:37Z) - AILuminate: Introducing v1.0 of the AI Risk and Reliability Benchmark from MLCommons [62.374792825813394]
本稿ではAI製品リスクと信頼性を評価するための業界標準ベンチマークとして,AIluminate v1.0を紹介する。
このベンチマークは、危険、違法、または望ましくない行動を12の危険カテゴリーで引き起こすように設計されたプロンプトに対するAIシステムの抵抗を評価する。
論文 参考訳(メタデータ) (2025-02-19T05:58:52Z) - A Frontier AI Risk Management Framework: Bridging the Gap Between Current AI Practices and Established Risk Management [0.0]
最近の強力なAIシステムの開発は、堅牢なリスク管理フレームワークの必要性を強調している。
本稿では,フロンティアAI開発のための包括的リスク管理フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-10T16:47:00Z) - Effective Mitigations for Systemic Risks from General-Purpose AI [9.39718128736321]
AIの安全性、重要なインフラ、民主的プロセス、化学、生物学的、放射線学、核リスク(CBRN)、差別と偏見にまたがる専門知識を持つ76人の専門家を調査した。
リスク軽減対策は,様々なシステム的リスクを低減し,ドメインの専門家が技術的に実現可能であると認識されている。
安全インシデント報告とセキュリティ情報共有、サードパーティのデプロイ前モデル監査、デプロイ前リスク評価の3つの対策が注目されている。
論文 参考訳(メタデータ) (2024-11-14T22:39:25Z) - AIR-Bench 2024: A Safety Benchmark Based on Risk Categories from Regulations and Policies [80.90138009539004]
AIR-Bench 2024は、新しい政府の規制や企業のポリシーに適合する最初のAI安全ベンチマークである。
8つの政府規制と16の企業政策を4階層の安全分類に分解し、最も低い階層に粒度の細かいリスクカテゴリを分類する。
AIR-Bench 2024上での言語モデルの評価を行い,その安全性に関する知見を明らかにした。
論文 参考訳(メタデータ) (2024-07-11T21:16:48Z) - AI Risk Categorization Decoded (AIR 2024): From Government Regulations to Corporate Policies [88.32153122712478]
我々は4階層の分類に分類された314のユニークなリスクカテゴリを特定した。
最高レベルでは、この分類はシステム・アンド・オペレーショナル・リスク、コンテンツ・セーフティ・リスク、社会的なリスク、法と権利のリスクを含む。
我々は、セクター間の情報共有と、生成型AIモデルとシステムのリスク軽減におけるベストプラクティスの推進を通じて、AIの安全性を向上することを目指している。
論文 参考訳(メタデータ) (2024-06-25T18:13:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。