論文の概要: A Grading Rubric for AI Safety Frameworks
- arxiv url: http://arxiv.org/abs/2409.08751v1
- Date: Fri, 13 Sep 2024 12:01:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-16 16:49:03.777163
- Title: A Grading Rubric for AI Safety Frameworks
- Title(参考訳): AI安全フレームワークのためのグラディングルーブリック
- Authors: Jide Alaga, Jonas Schuett, Markus Anderljung,
- Abstract要約: Anthropic、OpenAI、Google DeepMindといった主要プレイヤーはすでにAI安全フレームワークを公開している。
本稿では, 政府, 学界, 市民社会がこれらの枠組みの判断を下すために, グレーディング・ルーリックを提案する。
- 参考スコア(独自算出の注目度): 1.053373860696675
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Over the past year, artificial intelligence (AI) companies have been increasingly adopting AI safety frameworks. These frameworks outline how companies intend to keep the potential risks associated with developing and deploying frontier AI systems to an acceptable level. Major players like Anthropic, OpenAI, and Google DeepMind have already published their frameworks, while another 13 companies have signaled their intent to release similar frameworks by February 2025. Given their central role in AI companies' efforts to identify and address unacceptable risks from their systems, AI safety frameworks warrant significant scrutiny. To enable governments, academia, and civil society to pass judgment on these frameworks, this paper proposes a grading rubric. The rubric consists of seven evaluation criteria and 21 indicators that concretize the criteria. Each criterion can be graded on a scale from A (gold standard) to F (substandard). The paper also suggests three methods for applying the rubric: surveys, Delphi studies, and audits. The purpose of the grading rubric is to enable nuanced comparisons between frameworks, identify potential areas of improvement, and promote a race to the top in responsible AI development.
- Abstract(参考訳): 過去1年間、人工知能(AI)企業は、AI安全フレームワークをますます採用してきた。
これらのフレームワークは、企業がフロンティアAIシステムの開発とデプロイに関連する潜在的なリスクを許容できるレベルに維持する方法について概説している。
Anthropic、OpenAI、Google DeepMindといった主要企業がすでにフレームワークを公開しており、2025年2月までに同様のフレームワークをリリースする意向を示している企業が13社いる。
システムから受け入れられないリスクを特定し、対処するAI企業の取り組みにおける中心的な役割を考えると、AI安全フレームワークは重大な精査を保証している。
本稿では,政府,学界,市民社会がこれらの枠組みについて判断を下すために,段階的なルーリックを提案する。
ルーブリックは7つの評価基準と21の指標から成り、基準を補強する。
各基準は、A(金標準)からF(準標準)までのスケールで等級化することができる。
また, 調査, デルフィ研究, 監査の3つの手法を提案する。
グレーディングルーリックの目的は、フレームワーク間の微妙な比較を可能にし、潜在的な改善領域を特定し、責任あるAI開発のトップへのレースを促進することである。
関連論文リスト
- Engineering Trustworthy AI: A Developer Guide for Empirical Risk Minimization [53.80919781981027]
信頼できるAIのための重要な要件は、経験的リスク最小化のコンポーネントの設計選択に変換できる。
私たちは、AIの信頼性の新たな標準を満たすAIシステムを構築するための実用的なガイダンスを提供したいと思っています。
論文 参考訳(メタデータ) (2024-10-25T07:53:32Z) - Using AI Alignment Theory to understand the potential pitfalls of regulatory frameworks [55.2480439325792]
本稿では、欧州連合の人工知能法(EU AI法)を批判的に検討する。
人工知能における技術的アライメントの潜在的な落とし穴に焦点を当てたアライメント理論(AT)研究からの洞察を利用する。
これらの概念をEU AI Actに適用すると、潜在的な脆弱性と規制を改善するための領域が明らかになる。
論文 参考訳(メタデータ) (2024-10-10T17:38:38Z) - Ethical and Scalable Automation: A Governance and Compliance Framework for Business Applications [0.0]
本稿では、AIが倫理的で、制御可能で、実行可能で、望ましいものであることを保証するフレームワークを紹介する。
異なるケーススタディは、学術と実践の両方の環境でAIを統合することで、このフレームワークを検証する。
論文 参考訳(メタデータ) (2024-09-25T12:39:28Z) - Mapping Technical Safety Research at AI Companies: A literature review and incentives analysis [0.0]
レポートは、3つの主要なAI企業が実施する安全なAI開発に関する技術研究を分析している。
Anthropic、Google DeepMind、OpenAI。
私たちは安全なAI開発を、大規模な誤用や事故のリスクを生じにくいAIシステムの開発であると定義しました。
論文 参考訳(メタデータ) (2024-09-12T09:34:55Z) - Safetywashing: Do AI Safety Benchmarks Actually Measure Safety Progress? [59.96471873997733]
我々は、より有意義な安全指標を開発するための実証的な基盤を提案し、機械学習研究の文脈でAIの安全性を定義する。
我々は、AI安全研究のためのより厳格なフレームワークを提供し、安全性評価の科学を前進させ、測定可能な進歩への道筋を明らかにすることを目指している。
論文 参考訳(メタデータ) (2024-07-31T17:59:24Z) - AIR-Bench 2024: A Safety Benchmark Based on Risk Categories from Regulations and Policies [80.90138009539004]
AIR-Bench 2024は、新しい政府の規制や企業のポリシーに適合する最初のAI安全ベンチマークである。
8つの政府規制と16の企業政策を4階層の安全分類に分解し、最も低い階層に粒度の細かいリスクカテゴリを分類する。
AIR-Bench 2024上での言語モデルの評価を行い,その安全性に関する知見を明らかにした。
論文 参考訳(メタデータ) (2024-07-11T21:16:48Z) - Particip-AI: A Democratic Surveying Framework for Anticipating Future AI Use Cases, Harms and Benefits [54.648819983899614]
汎用AIは、一般大衆がAIを使用してそのパワーを利用するための障壁を下げたようだ。
本稿では,AI利用事例とその影響を推測し,評価するためのフレームワークであるPartICIP-AIを紹介する。
論文 参考訳(メタデータ) (2024-03-21T19:12:37Z) - Trust, Accountability, and Autonomy in Knowledge Graph-based AI for
Self-determination [1.4305544869388402]
知識グラフ(KG)は、インテリジェントな意思決定を支えるための基盤として登場した。
KGと神経学習の統合は、現在活発な研究のトピックである。
本稿では,KGベースのAIによる自己決定を支援するための基礎的なトピックと研究の柱を概念化する。
論文 参考訳(メタデータ) (2023-10-30T12:51:52Z) - APPRAISE: a governance framework for innovation with AI systems [0.0]
EU人工知能法(英語: EU Artificial Intelligence Act、AIA)は、AIシステムの有害な影響を封じ込めようとする最初の重大な立法の試みである。
本稿では,AIイノベーションのためのガバナンスフレームワークを提案する。
このフレームワークは戦略変数と責任ある価値創造のギャップを埋める。
論文 参考訳(メタデータ) (2023-09-26T12:20:07Z) - Guideline for Trustworthy Artificial Intelligence -- AI Assessment
Catalog [0.0]
AIアプリケーションとそれに基づくビジネスモデルが、高品質な標準に従って開発されている場合にのみ、その潜在能力を最大限に発揮できることは明らかです。
AIアプリケーションの信頼性の問題は非常に重要であり、多くの主要な出版物の主題となっている。
このAIアセスメントカタログは、まさにこの点に対応しており、2つのターゲットグループを対象としている。
論文 参考訳(メタデータ) (2023-06-20T08:07:18Z) - An interdisciplinary conceptual study of Artificial Intelligence (AI)
for helping benefit-risk assessment practices: Towards a comprehensive
qualification matrix of AI programs and devices (pre-print 2020) [55.41644538483948]
本稿では,インテリジェンスの概念に対処するさまざまな分野の既存の概念を包括的に分析する。
目的は、AIシステムを評価するための共有概念や相違点を特定することである。
論文 参考訳(メタデータ) (2021-05-07T12:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。