論文の概要: AIR-Bench 2024: A Safety Benchmark Based on Risk Categories from Regulations and Policies
- arxiv url: http://arxiv.org/abs/2407.17436v2
- Date: Mon, 5 Aug 2024 18:12:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-07 18:22:38.828353
- Title: AIR-Bench 2024: A Safety Benchmark Based on Risk Categories from Regulations and Policies
- Title(参考訳): AIR-Bench 2024: 規制と政策のリスクカテゴリに基づく安全ベンチマーク
- Authors: Yi Zeng, Yu Yang, Andy Zhou, Jeffrey Ziwei Tan, Yuheng Tu, Yifan Mai, Kevin Klyman, Minzhou Pan, Ruoxi Jia, Dawn Song, Percy Liang, Bo Li,
- Abstract要約: AIR-Bench 2024は、新しい政府の規制や企業のポリシーに適合する最初のAI安全ベンチマークである。
8つの政府規制と16の企業政策を4階層の安全分類に分解し、最も低い階層に粒度の細かいリスクカテゴリを分類する。
AIR-Bench 2024上での言語モデルの評価を行い,その安全性に関する知見を明らかにした。
- 参考スコア(独自算出の注目度): 80.90138009539004
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundation models (FMs) provide societal benefits but also amplify risks. Governments, companies, and researchers have proposed regulatory frameworks, acceptable use policies, and safety benchmarks in response. However, existing public benchmarks often define safety categories based on previous literature, intuitions, or common sense, leading to disjointed sets of categories for risks specified in recent regulations and policies, which makes it challenging to evaluate and compare FMs across these benchmarks. To bridge this gap, we introduce AIR-Bench 2024, the first AI safety benchmark aligned with emerging government regulations and company policies, following the regulation-based safety categories grounded in our AI risks study, AIR 2024. AIR 2024 decomposes 8 government regulations and 16 company policies into a four-tiered safety taxonomy with 314 granular risk categories in the lowest tier. AIR-Bench 2024 contains 5,694 diverse prompts spanning these categories, with manual curation and human auditing to ensure quality. We evaluate leading language models on AIR-Bench 2024, uncovering insights into their alignment with specified safety concerns. By bridging the gap between public benchmarks and practical AI risks, AIR-Bench 2024 provides a foundation for assessing model safety across jurisdictions, fostering the development of safer and more responsible AI systems.
- Abstract(参考訳): ファンデーションモデル(FM)は社会的利益を提供するが、リスクを増幅する。
政府、企業、研究者は、規制の枠組み、許容可能な使用ポリシー、そしてそれに対応する安全ベンチマークを提案している。
しかし、既存の公的なベンチマークでは、しばしば過去の文献、直観、常識に基づいて安全カテゴリーを定義しており、最近の規制や政策で特定されるリスクに対する不整合したカテゴリのセットとなり、これらのベンチマーク間でFMを評価し比較することは困難である。
このギャップを埋めるために、私たちはAIR-Bench 2024を紹介します。これは、AIリスクスタディであるAIR 2024に根ざした規制ベースの安全カテゴリに従って、新しい政府の規制と企業のポリシーに沿った、最初のAI安全ベンチマークです。
AIR 2024は8つの政府規制と16の企業政策を4階層の安全分類に分解し、314の粒度のリスクカテゴリーを最低階層に分類する。
AIR-Bench 2024には、これらのカテゴリにまたがる5,694の多様なプロンプトが含まれている。
AIR-Bench 2024上での言語モデルの評価を行い,その安全性に関する知見を明らかにした。
公的なベンチマークと実践的なAIリスクのギャップを埋めることによって、AIR-Bench 2024は、管轄区域間でモデルの安全性を評価し、より安全で責任のあるAIシステムの開発を促進する基盤を提供する。
関連論文リスト
- Auction-Based Regulation for Artificial Intelligence [28.86995747151915]
本稿では,AIの安全性を規制するオークションベースの規制機構を提案する。
我々は、各参加エージェントの最善の戦略は、所定の最小限の安全閾値よりも安全なモデルを送ることであることを確実に保証する。
その結果,我々の規制オークションは,安全率と参加率を20%,参加率を15%向上させることがわかった。
論文 参考訳(メタデータ) (2024-10-02T17:57:02Z) - A Grading Rubric for AI Safety Frameworks [1.053373860696675]
Anthropic、OpenAI、Google DeepMindといった主要プレイヤーはすでにAI安全フレームワークを公開している。
本稿では, 政府, 学界, 市民社会がこれらの枠組みの判断を下すために, グレーディング・ルーリックを提案する。
論文 参考訳(メタデータ) (2024-09-13T12:01:55Z) - Safetywashing: Do AI Safety Benchmarks Actually Measure Safety Progress? [59.96471873997733]
我々は、より有意義な安全指標を開発するための実証的な基盤を提案し、機械学習研究の文脈でAIの安全性を定義する。
我々は、AI安全研究のためのより厳格なフレームワークを提供し、安全性評価の科学を前進させ、測定可能な進歩への道筋を明らかにすることを目指している。
論文 参考訳(メタデータ) (2024-07-31T17:59:24Z) - AI Risk Categorization Decoded (AIR 2024): From Government Regulations to Corporate Policies [88.32153122712478]
我々は4階層の分類に分類された314のユニークなリスクカテゴリを特定した。
最高レベルでは、この分類はシステム・アンド・オペレーショナル・リスク、コンテンツ・セーフティ・リスク、社会的なリスク、法と権利のリスクを含む。
我々は、セクター間の情報共有と、生成型AIモデルとシステムのリスク軽減におけるベストプラクティスの推進を通じて、AIの安全性を向上することを目指している。
論文 参考訳(メタデータ) (2024-06-25T18:13:05Z) - Introducing v0.5 of the AI Safety Benchmark from MLCommons [101.98401637778638]
本稿では,MLCommons AI Safety Working Groupが作成したAI Safety Benchmarkのv0.5を紹介する。
このベンチマークは、チャットチューニング言語モデルを使用するAIシステムの安全性リスクを評価するように設計されている。
論文 参考訳(メタデータ) (2024-04-18T15:01:00Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - AI Risk Profiles: A Standards Proposal for Pre-Deployment AI Risk
Disclosures [0.8702432681310399]
下流の意思決定をガイドできるリスクプロファイリング標準を提案する。
この基準は、提案したAIリスクの分類に基づいており、文献で提案されるさまざまなリスクの高度な分類を反映している。
我々はこの方法論を,公開情報を用いた多数の著名なAIシステムに適用する。
論文 参考訳(メタデータ) (2023-09-22T20:45:15Z) - Foveate, Attribute, and Rationalize: Towards Physically Safe and
Trustworthy AI [76.28956947107372]
包括的不安全テキストは、日常的なシナリオから生じる可能性のある特定の関心領域であり、有害なテキストを検出するのが困難である。
安全の文脈において、信頼に値する合理的な生成のために外部知識を活用する新しいフレームワークであるFARMを提案する。
実験の結果,FARMはSafeTextデータセットの最先端結果を得ることができ,安全性の分類精度が5.9%向上したことがわかった。
論文 参考訳(メタデータ) (2022-12-19T17:51:47Z) - Assurance Cases as Foundation Stone for Auditing AI-enabled and
Autonomous Systems: Workshop Results and Political Recommendations for Action
from the ExamAI Project [2.741266294612776]
ソフトウェア欠陥に対する安全基準の実施方法について検討する。
機能安全基準は、安全統合レベル(SIL)を使用して、どの安全対策を実施するかを定義する。
本稿では,個別に選択された,適用された措置が十分であると主張するための保証事例の利用を提案する。
論文 参考訳(メタデータ) (2022-08-17T10:05:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。