論文の概要: Safety Cases: Justifying the Safety of Advanced AI Systems
- arxiv url: http://arxiv.org/abs/2403.10462v1
- Date: Fri, 15 Mar 2024 16:53:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-18 16:11:26.566084
- Title: Safety Cases: Justifying the Safety of Advanced AI Systems
- Title(参考訳): 安全ケース - 高度なAIシステムの安全性を正当化する
- Authors: Joshua Clymer, Nick Gabrieli, David Krueger, Thomas Larsen,
- Abstract要約: これはAIシステムが大惨事を引き起こす可能性が低いという構造化された根拠である。
安全を正当化するための議論の4つのカテゴリについて論じる。大惨事を引き起こすことができないこと、十分に強力な制御手段、危害を引き起こす能力に拘わらず信頼感があること、信頼できるAIアドバイザへの言及である。
我々は、各カテゴリにおける議論の具体的な例を評価し、AIシステムが安全にデプロイ可能であることを正当化するために、議論をどのように組み合わせるかを概説する。
- 参考スコア(独自算出の注目度): 5.097102520834254
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As AI systems become more advanced, companies and regulators will make difficult decisions about whether it is safe to train and deploy them. To prepare for these decisions, we investigate how developers could make a 'safety case,' which is a structured rationale that AI systems are unlikely to cause a catastrophe. We propose a framework for organizing a safety case and discuss four categories of arguments to justify safety: total inability to cause a catastrophe, sufficiently strong control measures, trustworthiness despite capability to cause harm, and deference to credible AI advisors. We evaluate concrete examples of arguments in each category and outline how arguments could be combined to justify that AI systems are safe to deploy.
- Abstract(参考訳): AIシステムがより高度化するにつれ、企業や規制機関は、トレーニングとデプロイが安全かどうかという難しい決定を下すことになる。
これらの決定に備えて、我々は、AIシステムが大惨事を引き起こす可能性が低いという構造化された根拠である、開発者がどのようにして「安全ケース」を作ることができるかを調査する。
安全ケースの組織化のための枠組みを提案し、安全を正当化するための4つのカテゴリについて論じる。大惨事を引き起こすことができないこと、十分に強力な制御手段、危害を引き起こす能力に拘わらず信頼感があること、信頼できるAIアドバイザへの言及である。
我々は、各カテゴリにおける議論の具体的な例を評価し、AIシステムが安全にデプロイ可能であることを正当化するために、議論をどのように組み合わせるかを概説する。
関連論文リスト
- Concrete Problems in AI Safety, Revisited [1.4089652912597792]
AIシステムが社会で普及するにつれて、AIコミュニティはAI安全の概念に夢中になっている。
このような事象の現実的なケースの分析を通じて、現在の語彙は、AIデプロイメントの遭遇した問題の範囲を捉えているが、拡張された社会技術フレーミングが必要であることを実証する。
論文 参考訳(メタデータ) (2023-12-18T23:38:05Z) - Control Risk for Potential Misuse of Artificial Intelligence in Science [85.91232985405554]
我々は、科学におけるAI誤用の危険性の認識を高めることを目的としている。
化学科学における誤用の実例を取り上げる。
我々は、科学におけるAIモデルの誤用リスクを制御するSciGuardというシステムを提案する。
論文 参考訳(メタデータ) (2023-12-11T18:50:57Z) - AI Deception: A Survey of Examples, Risks, and Potential Solutions [20.84424818447696]
本稿は、現在のAIシステムが人間を騙す方法を学んだことを論じる。
我々は虚偽を、真理以外の結果の追求において、虚偽の信念を体系的に誘導するものとして定義する。
論文 参考訳(メタデータ) (2023-08-28T17:59:35Z) - Foveate, Attribute, and Rationalize: Towards Physically Safe and
Trustworthy AI [76.28956947107372]
包括的不安全テキストは、日常的なシナリオから生じる可能性のある特定の関心領域であり、有害なテキストを検出するのが困難である。
安全の文脈において、信頼に値する合理的な生成のために外部知識を活用する新しいフレームワークであるFARMを提案する。
実験の結果,FARMはSafeTextデータセットの最先端結果を得ることができ,安全性の分類精度が5.9%向上したことがわかった。
論文 参考訳(メタデータ) (2022-12-19T17:51:47Z) - X-Risk Analysis for AI Research [24.78742908726579]
我々は、AI x-riskの分析方法のガイドを提供する。
まず、今日のシステムの安全性についてレビューする。
次に,今後のシステムの安全性に長期的影響を与える戦略について議論する。
論文 参考訳(メタデータ) (2022-06-13T00:22:50Z) - Cybertrust: From Explainable to Actionable and Interpretable AI (AI2) [58.981120701284816]
Actionable and Interpretable AI (AI2)は、AIレコメンデーションにユーザの信頼度を明確に定量化し視覚化する。
これにより、AIシステムの予測を調べてテストすることで、システムの意思決定に対する信頼の基盤を確立することができる。
論文 参考訳(メタデータ) (2022-01-26T18:53:09Z) - Safe AI -- How is this Possible? [0.45687771576879593]
従来の安全エンジニアリングは、決定論的で非進化的なシステムが、明確に定義されたコンテキストで運用されるものから、予測不可能な操作コンテキストで機能する自律的で学習可能なAIシステムへと、転換点に近づいている。
我々は、安全AIの基本的な課題を概説し、AIシステムの安全な振る舞いにおいて、不確実性を最小化し、信頼性を高め、許容レベルまで、厳格なエンジニアリングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-25T16:32:35Z) - Arguments about Highly Reliable Agent Designs as a Useful Path to
Artificial Intelligence Safety [0.0]
HRAD(Highly Reliable Agent Designs)は、最も議論の的かつ野心的なアプローチの一つである。
我々は,(1)付随効用,(2)脱融合,(3)正確な仕様,(4)予測の議論をタイトルにした。
本稿では,出版・非公式文献のレビューに基づいて,その前提と主張を論じるとともに,その話題に関する立場を述べた専門家も紹介する。
論文 参考訳(メタデータ) (2022-01-09T07:42:37Z) - AdvSim: Generating Safety-Critical Scenarios for Self-Driving Vehicles [76.46575807165729]
我々は,任意のLiDARベースの自律システムに対して,安全クリティカルなシナリオを生成するための,敵対的フレームワークであるAdvSimを提案する。
センサデータから直接シミュレートすることにより、完全な自律スタックに対して安全クリティカルな敵シナリオを得る。
論文 参考訳(メタデータ) (2021-01-16T23:23:12Z) - Toward Trustworthy AI Development: Mechanisms for Supporting Verifiable
Claims [59.64274607533249]
AI開発者は、責任を負うことのできる検証可能な主張をする必要がある。
このレポートは、さまざまな利害関係者がAIシステムに関するクレームの妥当性を改善するための様々なステップを示唆している。
我々は、この目的のための10のメカニズム、すなわち、組織、ソフトウェア、ハードウェアを分析し、それらのメカニズムの実装、探索、改善を目的とした推奨を行う。
論文 参考訳(メタデータ) (2020-04-15T17:15:35Z) - Learning from Learning Machines: Optimisation, Rules, and Social Norms [91.3755431537592]
経済的な実体の行動に最も類似したAIの領域は道徳的に良い意思決定の領域であるようだ。
近年のAIにおけるディープラーニングの成功は、そのような問題を解決するための明示的な仕様よりも暗黙的な仕様の方が優れていることを示唆している。
論文 参考訳(メタデータ) (2019-12-29T17:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。