論文の概要: Intolerable Risk Threshold Recommendations for Artificial Intelligence
- arxiv url: http://arxiv.org/abs/2503.05812v1
- Date: Tue, 04 Mar 2025 12:30:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:53:29.451974
- Title: Intolerable Risk Threshold Recommendations for Artificial Intelligence
- Title(参考訳): 人工知能のための耐え難いリスク閾値勧告
- Authors: Deepika Raman, Nada Madkour, Evan R. Murphy, Krystal Jackson, Jessica Newman,
- Abstract要約: フロンティアAIモデルは、公共の安全、人権、経済の安定、社会的価値に深刻なリスクをもたらす可能性がある。
リスクは、意図的に敵の誤用、システム障害、意図しないカスケード効果、複数のモデルにまたがる同時障害から生じる可能性がある。
16のグローバルAI産業組織がFrontier AI Safety Commitmentsに署名し、27の国とEUは、これらのしきい値を定義する意図を宣言した。
- 参考スコア(独自算出の注目度): 0.2383122657918106
- License:
- Abstract: Frontier AI models -- highly capable foundation models at the cutting edge of AI development -- may pose severe risks to public safety, human rights, economic stability, and societal value in the coming years. These risks could arise from deliberate adversarial misuse, system failures, unintended cascading effects, or simultaneous failures across multiple models. In response to such risks, at the AI Seoul Summit in May 2024, 16 global AI industry organizations signed the Frontier AI Safety Commitments, and 27 nations and the EU issued a declaration on their intent to define these thresholds. To fulfill these commitments, organizations must determine and disclose ``thresholds at which severe risks posed by a model or system, unless adequately mitigated, would be deemed intolerable.'' To assist in setting and operationalizing intolerable risk thresholds, we outline key principles and considerations; for example, to aim for ``good, not perfect'' thresholds in the face of limited data on rapidly advancing AI capabilities and consequently evolving risks. We also propose specific threshold recommendations, including some detailed case studies, for a subset of risks across eight risk categories: (1) Chemical, Biological, Radiological, and Nuclear (CBRN) Weapons, (2) Cyber Attacks, (3) Model Autonomy, (4) Persuasion and Manipulation, (5) Deception, (6) Toxicity, (7) Discrimination, and (8) Socioeconomic Disruption. Our goal is to serve as a starting point or supplementary resource for policymakers and industry leaders, encouraging proactive risk management that prioritizes preventing intolerable risks (ex ante) rather than merely mitigating them after they occur (ex post).
- Abstract(参考訳): AI開発の最先端にある高度な基盤モデルであるフロンティアAIモデルは、公共の安全、人権、経済の安定、社会的な価値に深刻なリスクをもたらす可能性がある。
これらのリスクは、意図的に敵の誤用、システム障害、意図しないカスケード効果、複数のモデルにまたがる同時障害から生じる可能性がある。
このようなリスクに対応するため、2024年5月のAIソウルサミットでは、16のグローバルAI産業組織がFrontier AI Safety Commitmentsに署名し、27の国とEUは、これらのしきい値を定義する意図を宣言した。
これらのコミットメントを達成するために、組織はモデルやシステムによって引き起こされる深刻なリスクが適切に緩和されない限り、許容できないと判断し、開示しなければなりません。
例えば、急速に進化するAI能力と結果として進化するリスクに関する限られたデータに直面して、‘良き、完璧ではない’しきい値を目指しています。
1) 化学・生物・放射線・原子力(CBRN)兵器,(2) サイバー攻撃,(3) モデル自律性,(4) 説得・操作,(5) 認知,(6) 毒性,(7) 識別,(8) 社会経済破壊。
当社のゴールは、政策立案者や業界リーダーの出発点や補助的資源として機能し、(投稿後)単に(投稿後)リスクを緩和するのではなく、許容できないリスク(例外的)の防止を優先する積極的リスク管理を奨励することにあります。
関連論文リスト
- AI Risk Categorization Decoded (AIR 2024): From Government Regulations to Corporate Policies [88.32153122712478]
我々は4階層の分類に分類された314のユニークなリスクカテゴリを特定した。
最高レベルでは、この分類はシステム・アンド・オペレーショナル・リスク、コンテンツ・セーフティ・リスク、社会的なリスク、法と権利のリスクを含む。
我々は、セクター間の情報共有と、生成型AIモデルとシステムのリスク軽減におけるベストプラクティスの推進を通じて、AIの安全性を向上することを目指している。
論文 参考訳(メタデータ) (2024-06-25T18:13:05Z) - Risk thresholds for frontier AI [1.053373860696675]
人気が高まっているアプローチの1つは、機能しきい値を定義することである。
リスク閾値は単に、どれだけのリスクが過剰かを記述するだけです。
主な欠点は、信頼性の高い評価が難しいことだ。
論文 参考訳(メタデータ) (2024-06-20T20:16:29Z) - CRiskEval: A Chinese Multi-Level Risk Evaluation Benchmark Dataset for Large Language Models [46.93425758722059]
CRiskEvalは、大規模言語モデル(LLM)に固有のリスク確率を正確に計測するために設計された中国のデータセットである。
7種類のフロンティアリスクと4つの安全性レベルを持つ新たなリスク分類を定義する。
データセットは、事前に定義された7種類のフロンティアリスクに関連するシナリオをシミュレートする14,888の質問で構成されている。
論文 参考訳(メタデータ) (2024-06-07T08:52:24Z) - Risks and Opportunities of Open-Source Generative AI [64.86989162783648]
Generative AI(Gen AI)の応用は、科学や医学、教育など、さまざまな分野に革命をもたらすことが期待されている。
こうした地震の変化の可能性は、この技術の潜在的なリスクについて活発に議論を巻き起こし、より厳格な規制を要求した。
この規制は、オープンソースの生成AIの誕生する分野を危険にさらす可能性がある。
論文 参考訳(メタデータ) (2024-05-14T13:37:36Z) - Near to Mid-term Risks and Opportunities of Open-Source Generative AI [94.06233419171016]
Generative AIの応用は、科学や医学、教育など、さまざまな分野に革命をもたらすことが期待されている。
こうした地震の影響の可能性は、潜在的なリスクに関する活発な議論を引き起こし、より厳格な規制を要求した。
この規制は、オープンソースのジェネレーティブAIの誕生する分野を危険にさらしている可能性が高い。
論文 参考訳(メタデータ) (2024-04-25T21:14:24Z) - Taxonomy to Regulation: A (Geo)Political Taxonomy for AI Risks and Regulatory Measures in the EU AI Act [0.0]
この研究は、AIに関連する(地質)政治的リスクに焦点を当てた分類法を提案する。
1)地政学的圧力,(2)悪用,(3)環境,社会的,倫理的リスク,(4)プライバシ・トラスト・ヴァイオレーションの4つのカテゴリに分類される。
論文 参考訳(メタデータ) (2024-04-17T15:32:56Z) - The risks of risk-based AI regulation: taking liability seriously [46.90451304069951]
AIの開発と規制は、重要な段階に達したようだ。
一部の専門家は、GPT-4よりも強力なAIシステムのトレーニングに関するモラトリアムを求めている。
本稿では、最も先進的な法的提案である欧州連合のAI法について分析する。
論文 参考訳(メタデータ) (2023-11-03T12:51:37Z) - Managing extreme AI risks amid rapid progress [171.05448842016125]
我々は、大規模社会被害、悪意のある使用、自律型AIシステムに対する人間の制御の不可逆的な喪失を含むリスクについて説明する。
このようなリスクがどのように発生し、どのように管理するかについては、合意の欠如があります。
現在のガバナンスイニシアチブには、誤用や無謀を防ぎ、自律システムにほとんど対処するメカニズムや制度が欠けている。
論文 参考訳(メタデータ) (2023-10-26T17:59:06Z) - Frontier AI Regulation: Managing Emerging Risks to Public Safety [15.85618115026625]
脆弱なAI」モデルは、公共の安全に深刻なリスクをもたらすのに十分な危険能力を持つ可能性がある。
業界の自己規制は重要な第一歩です。
安全基準の最初のセットを提案する。
論文 参考訳(メタデータ) (2023-07-06T17:03:25Z) - Three lines of defense against risks from AI [0.0]
AIリスク管理の責任者は必ずしも明確ではない。
3つの防衛ライン(3LoD)モデルは、多くの産業でベストプラクティスと考えられている。
私は、AI企業がモデルを実装できる方法を提案する。
論文 参考訳(メタデータ) (2022-12-16T09:33:00Z) - Actionable Guidance for High-Consequence AI Risk Management: Towards
Standards Addressing AI Catastrophic Risks [12.927021288925099]
人工知能(AI)システムは、社会規模で非常に高い、または破滅的な結果をもたらす事象のリスクを提示することができる。
NISTはAIリスク評価と管理に関する自主的なガイダンスとして、AI RMF(AI Artificial Intelligence Risk Management Framework)を開発している。
我々は、非常に高い、または破滅的な結果のイベントのリスクを特定し、管理することに焦点を当てた、行動可能なガイダンスの詳細な推奨を提供する。
論文 参考訳(メタデータ) (2022-06-17T18:40:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。