論文の概要: Affirmative safety: An approach to risk management for high-risk AI
- arxiv url: http://arxiv.org/abs/2406.15371v1
- Date: Sun, 14 Apr 2024 20:48:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 07:21:03.972782
- Title: Affirmative safety: An approach to risk management for high-risk AI
- Title(参考訳): 肯定的安全性:ハイリスクAIのリスク管理へのアプローチ
- Authors: Akash R. Wasil, Joshua Clymer, David Krueger, Emily Dardaman, Simeon Campos, Evan R. Murphy,
- Abstract要約: 高いリスクを持つAIシステムを開発または展開するエンティティは、肯定的な安全性の証拠を示すために必要であるべきだ、と私たちは主張する。
本稿では,モデル開発者が一定のリスクを規制基準値以下に維持する証拠を提示しなければならない,高度なAIのためのリスク管理手法を提案する。
- 参考スコア(独自算出の注目度): 6.133009503054252
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prominent AI experts have suggested that companies developing high-risk AI systems should be required to show that such systems are safe before they can be developed or deployed. The goal of this paper is to expand on this idea and explore its implications for risk management. We argue that entities developing or deploying high-risk AI systems should be required to present evidence of affirmative safety: a proactive case that their activities keep risks below acceptable thresholds. We begin the paper by highlighting global security risks from AI that have been acknowledged by AI experts and world governments. Next, we briefly describe principles of risk management from other high-risk fields (e.g., nuclear safety). Then, we propose a risk management approach for advanced AI in which model developers must provide evidence that their activities keep certain risks below regulator-set thresholds. As a first step toward understanding what affirmative safety cases should include, we illustrate how certain kinds of technical evidence and operational evidence can support an affirmative safety case. In the technical section, we discuss behavioral evidence (evidence about model outputs), cognitive evidence (evidence about model internals), and developmental evidence (evidence about the training process). In the operational section, we offer examples of organizational practices that could contribute to affirmative safety cases: information security practices, safety culture, and emergency response capacity. Finally, we briefly compare our approach to the NIST AI Risk Management Framework. Overall, we hope our work contributes to ongoing discussions about national and global security risks posed by AI and regulatory approaches to address these risks.
- Abstract(参考訳): 著名なAI専門家は、リスクの高いAIシステムを開発する企業は、そのようなシステムが開発またはデプロイされる前に安全であることを示さなければならない、と提案している。
本研究の目的は、この考え方を拡張し、リスク管理への影響を探ることである。
リスクの高いAIシステムを開発または展開するエンティティは、肯定的な安全性の証拠を示すために必要であるべきだ、と私たちは主張する。
我々は、AIの専門家や世界政府によって承認されたAIのグローバルなセキュリティリスクを強調して、論文を開始する。
次に、リスク管理の原則を他の高リスク分野(原子力安全など)から簡単に説明する。
そこで我々は,モデル開発者が一定のリスクを規制基準値以下に維持する証拠を提示しなければならない,高度なAIのためのリスク管理手法を提案する。
肯定的安全事例が含めるべきものを理解するための第一歩として、ある種の技術的証拠や運用的証拠が肯定的安全事例をどう支援できるかを説明する。
技術的なセクションでは、行動証拠(モデル出力の証拠)、認知的証拠(モデル内部の証拠)、発達的証拠(トレーニング過程の証拠)について論じる。
運用セクションでは、情報セキュリティの実践、安全文化、緊急対応能力といった、肯定的な安全事例に寄与する組織プラクティスの例を紹介します。
最後に、我々のアプローチをNIST AI Risk Management Frameworkと比較する。
全体として、これらのリスクに対処するためのAIと規制アプローチによって引き起こされる国家的およびグローバルなセキュリティリスクに関する議論に、我々の研究が貢献することを願っています。
関連論文リスト
- Safety case template for frontier AI: A cyber inability argument [2.2628353000034065]
攻撃的サイバー能力のための安全ケーステンプレートを提案する。
リスクモデルを特定し、リスクモデルからプロキシタスクを導出し、プロキシタスクの評価設定を定義し、評価結果を結びつける。
論文 参考訳(メタデータ) (2024-11-12T18:45:08Z) - Risk Sources and Risk Management Measures in Support of Standards for General-Purpose AI Systems [2.3266896180922187]
我々は、汎用AIシステムのためのリスクソースとリスク管理対策の広範なカタログをコンパイルする。
この作業には、モデル開発、トレーニング、デプロイメントステージにわたる技術的、運用的、社会的リスクの特定が含まれる。
このカタログは、AIガバナンスと標準における利害関係者による直接的な使用を容易にするために、パブリックドメインライセンス下でリリースされている。
論文 参考訳(メタデータ) (2024-10-30T21:32:56Z) - Safeguarding AI Agents: Developing and Analyzing Safety Architectures [0.0]
本稿では,人間チームと連携するAIシステムにおける安全対策の必要性について論じる。
我々は,AIエージェントシステムにおける安全プロトコルを強化する3つのフレームワークを提案し,評価する。
これらのフレームワークはAIエージェントシステムの安全性とセキュリティを大幅に強化することができると結論付けている。
論文 参考訳(メタデータ) (2024-09-03T10:14:51Z) - EAIRiskBench: Towards Evaluating Physical Risk Awareness for Task Planning of Foundation Model-based Embodied AI Agents [47.69642609574771]
EAI(Embodied AI)は、高度なAIモデルを現実世界のインタラクションのための物理的なエンティティに統合する。
高レベルのタスク計画のためのEAIエージェントの"脳"としてのファンデーションモデルは、有望な結果を示している。
しかし、これらのエージェントの物理的環境への展開は、重大な安全性上の課題を呈している。
EAIRiskBenchは、EAIシナリオにおける自動物理的リスクアセスメントのための新しいフレームワークである。
論文 参考訳(メタデータ) (2024-08-08T13:19:37Z) - Safetywashing: Do AI Safety Benchmarks Actually Measure Safety Progress? [59.96471873997733]
我々は、より有意義な安全指標を開発するための実証的な基盤を提案し、機械学習研究の文脈でAIの安全性を定義する。
我々は、AI安全研究のためのより厳格なフレームワークを提供し、安全性評価の科学を前進させ、測定可能な進歩への道筋を明らかにすることを目指している。
論文 参考訳(メタデータ) (2024-07-31T17:59:24Z) - AI Risk Categorization Decoded (AIR 2024): From Government Regulations to Corporate Policies [88.32153122712478]
我々は4階層の分類に分類された314のユニークなリスクカテゴリを特定した。
最高レベルでは、この分類はシステム・アンド・オペレーショナル・リスク、コンテンツ・セーフティ・リスク、社会的なリスク、法と権利のリスクを含む。
我々は、セクター間の情報共有と、生成型AIモデルとシステムのリスク軽減におけるベストプラクティスの推進を通じて、AIの安全性を向上することを目指している。
論文 参考訳(メタデータ) (2024-06-25T18:13:05Z) - AI Risk Management Should Incorporate Both Safety and Security [185.68738503122114]
AIリスクマネジメントの利害関係者は、安全とセキュリティの間のニュアンス、シナジー、相互作用を意識すべきである、と私たちは主張する。
我々は、AIの安全性とAIのセキュリティの違いと相互作用を明らかにするために、統一された参照フレームワークを導入する。
論文 参考訳(メタデータ) (2024-05-29T21:00:47Z) - Control Risk for Potential Misuse of Artificial Intelligence in Science [85.91232985405554]
我々は、科学におけるAI誤用の危険性の認識を高めることを目的としている。
化学科学における誤用の実例を取り上げる。
我々は、科学におけるAIモデルの誤用リスクを制御するSciGuardというシステムを提案する。
論文 参考訳(メタデータ) (2023-12-11T18:50:57Z) - Towards Safer Generative Language Models: A Survey on Safety Risks,
Evaluations, and Improvements [76.80453043969209]
本調査では,大規模モデルに関する安全研究の枠組みについて述べる。
まず、広範囲にわたる安全問題を導入し、その後、大型モデルの安全性評価手法を掘り下げる。
トレーニングからデプロイメントまで,大規模なモデルの安全性を高めるための戦略について検討する。
論文 参考訳(メタデータ) (2023-02-18T09:32:55Z) - Quantitative AI Risk Assessments: Opportunities and Challenges [9.262092738841979]
AIベースのシステムは、組織、個人、社会に価値を提供するために、ますます活用されている。
リスクは、提案された規制、訴訟、および一般的な社会的懸念につながった。
本稿では,定量的AIリスクアセスメントの概念について考察する。
論文 参考訳(メタデータ) (2022-09-13T21:47:25Z) - Actionable Guidance for High-Consequence AI Risk Management: Towards
Standards Addressing AI Catastrophic Risks [12.927021288925099]
人工知能(AI)システムは、社会規模で非常に高い、または破滅的な結果をもたらす事象のリスクを提示することができる。
NISTはAIリスク評価と管理に関する自主的なガイダンスとして、AI RMF(AI Artificial Intelligence Risk Management Framework)を開発している。
我々は、非常に高い、または破滅的な結果のイベントのリスクを特定し、管理することに焦点を当てた、行動可能なガイダンスの詳細な推奨を提供する。
論文 参考訳(メタデータ) (2022-06-17T18:40:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。