Fugu-MT 論文翻訳(概要): Functional trustworthiness of AI systems by statistically valid testing

論文の概要: Functional trustworthiness of AI systems by statistically valid testing

arxiv url: http://arxiv.org/abs/2310.02727v1
Date: Wed, 4 Oct 2023 11:07:52 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-05 15:28:56.120998
Title: Functional trustworthiness of AI systems by statistically valid testing
Title（参考訳）: 統計的に有効なテストによるAIシステムの機能的信頼性
Authors: Bernhard Nessler, Thomas Doms, Sepp Hochreiter
Abstract要約: 著者らは、現在のEU人工知能(AI)法の草案で要求される不適切な措置と手続きのために、欧州市民の安全、健康、および権利を懸念している。私たちは、現在のEU AI Actの草案だけでなく、CEN/CENELECの標準化活動も、AIシステムの真の機能保証は非現実的であり、複雑すぎるという立場に頼っていることを観察しています。
参考スコア（独自算出の注目度）: 7.717286312400472
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The authors are concerned about the safety, health, and rights of the European citizens due to inadequate measures and procedures required by the current draft of the EU Artificial Intelligence (AI) Act for the conformity assessment of AI systems. We observe that not only the current draft of the EU AI Act, but also the accompanying standardization efforts in CEN/CENELEC, have resorted to the position that real functional guarantees of AI systems supposedly would be unrealistic and too complex anyways. Yet enacting a conformity assessment procedure that creates the false illusion of trust in insufficiently assessed AI systems is at best naive and at worst grossly negligent. The EU AI Act thus misses the point of ensuring quality by functional trustworthiness and correctly attributing responsibilities. The trustworthiness of an AI decision system lies first and foremost in the correct statistical testing on randomly selected samples and in the precision of the definition of the application domain, which enables drawing samples in the first place. We will subsequently call this testable quality functional trustworthiness. It includes a design, development, and deployment that enables correct statistical testing of all relevant functions. We are firmly convinced and advocate that a reliable assessment of the statistical functional properties of an AI system has to be the indispensable, mandatory nucleus of the conformity assessment. In this paper, we describe the three necessary elements to establish a reliable functional trustworthiness, i.e., (1) the definition of the technical distribution of the application, (2) the risk-based minimum performance requirements, and (3) the statistically valid testing based on independent random samples.
Abstract（参考訳）: 著者らは、AIシステムの適合性評価に関する現在のEU人工知能(AI)法の草案で要求される不適切な措置と手続きのために、欧州市民の安全、健康、および権利を懸念している。私たちは、現在のEU AI Actの草案だけでなく、CEN/CENELECの標準化活動も、AIシステムの真の機能保証は非現実的であり、複雑すぎるという立場に頼っていることを観察しています。しかし、不十分に評価されたAIシステムにおける信頼の誤った錯覚を生み出す整合性評価手順を実践することは、最も単純であり、最悪の過敏である。したがって、EUのAI法は、機能的信頼性と責任の適切な帰属によって品質を保証する点を見逃している。 ai決定システムの信頼性は、ランダムに選択されたサンプルの正しい統計テストとアプリケーションドメインの定義の精度において第一に第一に存在し、そもそもサンプルを描画することができる。これをテスト可能な品質機能信頼性と呼びます。関連するすべての機能の正しい統計テストを可能にする設計、開発、デプロイが含まれている。我々は、AIシステムの統計的機能特性の信頼性評価が、適合性評価の必須かつ必須の核である必要があると強く確信し、主張する。本稿では,(1)アプリケーションの技術的分布の定義,(2)リスクベースの最小性能要件,(3)独立したランダムサンプルに基づく統計的に有効なテスト,という,信頼性の高い機能的信頼性を確立するために必要な3つの要素について述べる。

関連論文リスト

A Domain-Agnostic Scalable AI Safety Ensuring Framework [8.086635708001166]
AIの安全性に対する現在のアプローチは、通常、ドメイン固有の安全性条件に対処する。我々は,AIシステムがユーザ定義制約に適合することを確実にする,新しいAI安全フレームワークを提案する。様々な分野の実験を通して、我々のフレームワークの有効性を実証する。
論文参考訳（メタデータ） (2025-04-29T16:38:35Z)
AILuminate: Introducing v1.0 of the AI Risk and Reliability Benchmark from MLCommons [62.374792825813394]
本稿ではAI製品リスクと信頼性を評価するための業界標準ベンチマークとして,AIluminate v1.0を紹介する。このベンチマークは、危険、違法、または望ましくない行動を12の危険カテゴリーで引き起こすように設計されたプロンプトに対するAIシステムの抵抗を評価する。
論文参考訳（メタデータ） (2025-02-19T05:58:52Z)
Declare and Justify: Explicit assumptions in AI evaluations are necessary for effective regulation [2.07180164747172]
規制は、開発者が評価に関する主要な前提を明示的に識別し、正当化する必要がある、と我々は主張する。我々は、包括的脅威モデリング、プロキシタスクの妥当性、適切な能力付与など、AI評価における中核的な仮定を特定する。提案したアプローチは,AI開発における透明性の向上を目標とし,先進的なAIシステムのより効果的なガバナンスに向けた実践的な道筋を提供する。
論文参考訳（メタデータ） (2024-11-19T19:13:56Z)
Know Where You're Uncertain When Planning with Multimodal Foundation Models: A Formal Framework [54.40508478482667]
認識と計画生成の不確実性を解消し、定量化し、緩和する包括的枠組みを提案する。本稿では,知覚と意思決定の独特な性質に合わせた手法を提案する。この不確実性分散フレームワークは, 変動率を最大40%削減し, タスク成功率をベースラインに比べて5%向上させることを示した。
論文参考訳（メタデータ） (2024-11-03T17:32:00Z)
Meta-Sealing: A Revolutionizing Integrity Assurance Protocol for Transparent, Tamper-Proof, and Trustworthy AI System [0.0]
この研究は、AIシステムの整合性検証を根本的に変更する暗号フレームワークであるMeta-Sealingを紹介する。このフレームワークは、高度な暗号と分散検証を組み合わせることで、数学的厳密さと計算効率の両方を達成する、暗黙の保証を提供する。
論文参考訳（メタデータ） (2024-10-31T15:31:22Z)
Engineering Trustworthy AI: A Developer Guide for Empirical Risk Minimization [53.80919781981027]
信頼できるAIのための重要な要件は、経験的リスク最小化のコンポーネントの設計選択に変換できる。私たちは、AIの信頼性の新たな標準を満たすAIシステムを構築するための実用的なガイダンスを提供したいと思っています。
論文参考訳（メタデータ） (2024-10-25T07:53:32Z)
The Dilemma of Uncertainty Estimation for General Purpose AI in the EU AI Act [6.9060054915724]
AI法は、欧州連合全体のAIシステムの規制である。我々は、不確実性推定が、実世界でモデルをデプロイするために必要なコンポーネントであるべきだと論じる。
論文参考訳（メタデータ） (2024-08-20T23:59:51Z)
Towards Guaranteed Safe AI: A Framework for Ensuring Robust and Reliable AI Systems [88.80306881112313]
我々は、AI安全性に対する一連のアプローチを紹介し、定義する。これらのアプローチの中核的な特徴は、高保証の定量的安全性保証を備えたAIシステムを作ることである。これら3つのコアコンポーネントをそれぞれ作成するためのアプローチを概説し、主な技術的課題を説明し、それらに対する潜在的なソリューションをいくつか提案します。
論文参考訳（メタデータ） (2024-05-10T17:38:32Z)
Navigating the EU AI Act: A Methodological Approach to Compliance for Safety-critical Products [0.0]
本稿では,リスクの高いAIシステムに対するEU AI Act要件を解釈するための方法論を提案する。まず,AIシステムに対する製品品質モデルの拡張を提案し,現行の品質モデルではカバーされない法に関する属性を取り入れた。次に、ステークホルダーレベルで技術的要件を導出するための契約ベースのアプローチを提案します。
論文参考訳（メタデータ） (2024-03-25T14:32:18Z)
ASSERT: Automated Safety Scenario Red Teaming for Evaluating the Robustness of Large Language Models [65.79770974145983]
ASSERT、Automated Safety Scenario Red Teamingは、セマンティックなアグリゲーション、ターゲットブートストラップ、敵の知識注入という3つの方法で構成されている。このプロンプトを4つの安全領域に分割し、ドメインがモデルの性能にどのように影響するかを詳細に分析する。統計的に有意な性能差は, 意味的関連シナリオにおける絶対分類精度が最大11%, ゼロショット逆数設定では最大19%の絶対誤差率であることがわかった。
論文参考訳（メタデータ） (2023-10-14T17:10:28Z)
From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文参考訳（メタデータ） (2023-06-18T09:54:33Z)
Multisource AI Scorecard Table for System Evaluation [3.74397577716445]
本稿では、AI/機械学習(ML)システムの開発者およびユーザに対して標準チェックリストを提供するマルチソースAIスコアカードテーブル(MAST)について述べる。本稿では,インテリジェンス・コミュニティ・ディレクティブ(ICD)203で概説されている分析的トレードクラフト標準が,AIシステムの性能を評価するためのフレームワークを提供する方法について考察する。
論文参考訳（メタデータ） (2021-02-08T03:37:40Z)
Trustworthy AI [75.99046162669997]
入力データの小さな敵対的変化への脆さ、決定の説明能力、トレーニングデータのバイアスに対処する能力は、最も顕著な制限である。我々は,AIシステムに対するユーザおよび公的な信頼を高める上での6つの重要な問題に対処するために,信頼に値するAIに関するチュートリアルを提案する。
論文参考訳（メタデータ） (2020-11-02T20:04:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。