論文の概要: Functional trustworthiness of AI systems by statistically valid testing
- arxiv url: http://arxiv.org/abs/2310.02727v1
- Date: Wed, 4 Oct 2023 11:07:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 15:28:56.120998
- Title: Functional trustworthiness of AI systems by statistically valid testing
- Title(参考訳): 統計的に有効なテストによるAIシステムの機能的信頼性
- Authors: Bernhard Nessler, Thomas Doms, Sepp Hochreiter
- Abstract要約: 著者らは、現在のEU人工知能(AI)法の草案で要求される不適切な措置と手続きのために、欧州市民の安全、健康、および権利を懸念している。
私たちは、現在のEU AI Actの草案だけでなく、CEN/CENELECの標準化活動も、AIシステムの真の機能保証は非現実的であり、複雑すぎるという立場に頼っていることを観察しています。
- 参考スコア(独自算出の注目度): 7.717286312400472
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The authors are concerned about the safety, health, and rights of the
European citizens due to inadequate measures and procedures required by the
current draft of the EU Artificial Intelligence (AI) Act for the conformity
assessment of AI systems. We observe that not only the current draft of the EU
AI Act, but also the accompanying standardization efforts in CEN/CENELEC, have
resorted to the position that real functional guarantees of AI systems
supposedly would be unrealistic and too complex anyways. Yet enacting a
conformity assessment procedure that creates the false illusion of trust in
insufficiently assessed AI systems is at best naive and at worst grossly
negligent. The EU AI Act thus misses the point of ensuring quality by
functional trustworthiness and correctly attributing responsibilities.
The trustworthiness of an AI decision system lies first and foremost in the
correct statistical testing on randomly selected samples and in the precision
of the definition of the application domain, which enables drawing samples in
the first place. We will subsequently call this testable quality functional
trustworthiness. It includes a design, development, and deployment that enables
correct statistical testing of all relevant functions.
We are firmly convinced and advocate that a reliable assessment of the
statistical functional properties of an AI system has to be the indispensable,
mandatory nucleus of the conformity assessment. In this paper, we describe the
three necessary elements to establish a reliable functional trustworthiness,
i.e., (1) the definition of the technical distribution of the application, (2)
the risk-based minimum performance requirements, and (3) the statistically
valid testing based on independent random samples.
- Abstract(参考訳): 著者らは、AIシステムの適合性評価に関する現在のEU人工知能(AI)法の草案で要求される不適切な措置と手続きのために、欧州市民の安全、健康、および権利を懸念している。
私たちは、現在のEU AI Actの草案だけでなく、CEN/CENELECの標準化活動も、AIシステムの真の機能保証は非現実的であり、複雑すぎるという立場に頼っていることを観察しています。
しかし、不十分に評価されたAIシステムにおける信頼の誤った錯覚を生み出す整合性評価手順を実践することは、最も単純であり、最悪の過敏である。
したがって、EUのAI法は、機能的信頼性と責任の適切な帰属によって品質を保証する点を見逃している。
ai決定システムの信頼性は、ランダムに選択されたサンプルの正しい統計テストとアプリケーションドメインの定義の精度において第一に第一に存在し、そもそもサンプルを描画することができる。
これをテスト可能な品質機能信頼性と呼びます。
関連するすべての機能の正しい統計テストを可能にする設計、開発、デプロイが含まれている。
我々は、AIシステムの統計的機能特性の信頼性評価が、適合性評価の必須かつ必須の核である必要があると強く確信し、主張する。
本稿では,(1)アプリケーションの技術的分布の定義,(2)リスクベースの最小性能要件,(3)独立したランダムサンプルに基づく統計的に有効なテスト,という,信頼性の高い機能的信頼性を確立するために必要な3つの要素について述べる。
関連論文リスト
- Word-Sequence Entropy: Towards Uncertainty Estimation in Free-Form
Medical Question Answering Applications and Beyond [63.969531254692725]
不確実性推定は、安全クリティカルな人間とAIのインタラクションシステムの信頼性を確保する上で重要な役割を果たす。
本稿では,ワードシーケンスエントロピー(WSE, Word-Sequence Entropy)を提案する。
We show that WSE exhibits excellent performance on accurate uncertainty Measurement under two standard criteria for correctness evaluation。
論文 参考訳(メタデータ) (2024-02-22T03:46:08Z) - RAISE -- Radiology AI Safety, an End-to-end lifecycle approach [5.829180249228172]
放射線学へのAIの統合は、臨床ケアの供給と効率を改善する機会をもたらす。
モデルが安全性、有効性、有効性の最高基準を満たすことに注力すべきである。
ここで提示されるロードマップは、放射線学におけるデプロイ可能で信頼性があり、安全なAIの達成を早めることを目的としている。
論文 参考訳(メタデータ) (2023-11-24T15:59:14Z) - ASSERT: Automated Safety Scenario Red Teaming for Evaluating the
Robustness of Large Language Models [65.79770974145983]
ASSERT、Automated Safety Scenario Red Teamingは、セマンティックなアグリゲーション、ターゲットブートストラップ、敵の知識注入という3つの方法で構成されている。
このプロンプトを4つの安全領域に分割し、ドメインがモデルの性能にどのように影響するかを詳細に分析する。
統計的に有意な性能差は, 意味的関連シナリオにおける絶対分類精度が最大11%, ゼロショット逆数設定では最大19%の絶対誤差率であることがわかった。
論文 参考訳(メタデータ) (2023-10-14T17:10:28Z) - No Trust without regulation! [0.0]
機械学習(ML)の性能の爆発と、その応用の可能性は、産業システムにおけるその利用を考慮し続けています。
安全と、その基準、規制、標準の問題については、いまだに片側に過度に残っています。
欧州委員会は、安全で信頼性があり、ヨーロッパの倫理的価値を尊重するAIベースのアプリケーションを統合するための、前進と強固なアプローチを構築するための基盤を築き上げた。
論文 参考訳(メタデータ) (2023-09-27T09:08:41Z) - Guideline for Trustworthy Artificial Intelligence -- AI Assessment
Catalog [0.0]
AIアプリケーションとそれに基づくビジネスモデルが、高品質な標準に従って開発されている場合にのみ、その潜在能力を最大限に発揮できることは明らかです。
AIアプリケーションの信頼性の問題は非常に重要であり、多くの主要な出版物の主題となっている。
このAIアセスメントカタログは、まさにこの点に対応しており、2つのターゲットグループを対象としている。
論文 参考訳(メタデータ) (2023-06-20T08:07:18Z) - Designing for Responsible Trust in AI Systems: A Communication
Perspective [56.80107647520364]
我々は、MATCHと呼ばれる概念モデルを開発するために、技術に対する信頼に関するコミュニケーション理論と文献から引き出す。
私たちは、AIシステムの能力として透明性とインタラクションを強調します。
我々は、技術クリエーターが使用する適切な方法を特定するのに役立つ要件のチェックリストを提案する。
論文 参考訳(メタデータ) (2022-04-29T00:14:33Z) - Statistical Perspectives on Reliability of Artificial Intelligence
Systems [6.284088451820049]
AIシステムの信頼性に関する統計的視点を提供する。
本稿では,AI信頼性研究のためのSMART統計フレームワークを提案する。
我々は、AI信頼性のモデリングと分析における最近の発展について論じる。
論文 参考訳(メタデータ) (2021-11-09T20:00:14Z) - An interdisciplinary conceptual study of Artificial Intelligence (AI)
for helping benefit-risk assessment practices: Towards a comprehensive
qualification matrix of AI programs and devices (pre-print 2020) [55.41644538483948]
本稿では,インテリジェンスの概念に対処するさまざまな分野の既存の概念を包括的に分析する。
目的は、AIシステムを評価するための共有概念や相違点を特定することである。
論文 参考訳(メタデータ) (2021-05-07T12:01:31Z) - Multisource AI Scorecard Table for System Evaluation [3.74397577716445]
本稿では、AI/機械学習(ML)システムの開発者およびユーザに対して標準チェックリストを提供するマルチソースAIスコアカードテーブル(MAST)について述べる。
本稿では,インテリジェンス・コミュニティ・ディレクティブ(ICD)203で概説されている分析的トレードクラフト標準が,AIシステムの性能を評価するためのフレームワークを提供する方法について考察する。
論文 参考訳(メタデータ) (2021-02-08T03:37:40Z) - Approaching Neural Network Uncertainty Realism [53.308409014122816]
自動運転車などの安全クリティカルなシステムには、定量化または少なくとも上限の不確実性が不可欠です。
マハラノビス距離に基づく統計的テストにより、厳しい品質基準である不確実性リアリズムを評価します。
自動車分野に採用し、プレーンエンコーダデコーダモデルと比較して、不確実性リアリズムを大幅に改善することを示した。
論文 参考訳(メタデータ) (2021-01-08T11:56:12Z) - Trustworthy AI [75.99046162669997]
入力データの小さな敵対的変化への脆さ、決定の説明能力、トレーニングデータのバイアスに対処する能力は、最も顕著な制限である。
我々は,AIシステムに対するユーザおよび公的な信頼を高める上での6つの重要な問題に対処するために,信頼に値するAIに関するチュートリアルを提案する。
論文 参考訳(メタデータ) (2020-11-02T20:04:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。