論文の概要: Evaluating Trustworthiness of AI-Enabled Decision Support Systems:
Validation of the Multisource AI Scorecard Table (MAST)
- arxiv url: http://arxiv.org/abs/2311.18040v1
- Date: Wed, 29 Nov 2023 19:34:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 19:01:53.149494
- Title: Evaluating Trustworthiness of AI-Enabled Decision Support Systems:
Validation of the Multisource AI Scorecard Table (MAST)
- Title(参考訳): AI対応意思決定支援システムの信頼性評価:マルチソースAIスコアカードテーブル(MAST)の検証
- Authors: Pouria Salehi, Yang Ba, Nayoung Kim, Ahmadreza Mosallanezhad, Anna
Pan, Myke C. Cohen, Yixuan Wang, Jieqiong Zhao, Shawaiz Bhatti, James Sung,
Erik Blasch, Michelle V. Mancenido, Erin K. Chiou
- Abstract要約: Multisource AI Scorecard Table (MAST)は、信頼できるAIシステムの設計と評価を通知するチェックリストツールである。
我々は、AI対応意思決定支援システムにおいて、MASTが人々の信頼感と関連しているかどうかを評価する。
- 参考スコア(独自算出の注目度): 10.983659980278926
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Multisource AI Scorecard Table (MAST) is a checklist tool based on
analytic tradecraft standards to inform the design and evaluation of
trustworthy AI systems. In this study, we evaluate whether MAST is associated
with people's trust perceptions in AI-enabled decision support systems
(AI-DSSs). Evaluating trust in AI-DSSs poses challenges to researchers and
practitioners. These challenges include identifying the components,
capabilities, and potential of these systems, many of which are based on the
complex deep learning algorithms that drive DSS performance and preclude
complete manual inspection. We developed two interactive, AI-DSS test
environments using the MAST criteria. One emulated an identity verification
task in security screening, and another emulated a text summarization system to
aid in an investigative reporting task. Each test environment had one version
designed to match low-MAST ratings, and another designed to match high-MAST
ratings, with the hypothesis that MAST ratings would be positively related to
the trust ratings of these systems. A total of 177 subject matter experts were
recruited to interact with and evaluate these systems. Results generally show
higher MAST ratings for the high-MAST conditions compared to the low-MAST
groups, and that measures of trust perception are highly correlated with the
MAST ratings. We conclude that MAST can be a useful tool for designing and
evaluating systems that will engender high trust perceptions, including AI-DSS
that may be used to support visual screening and text summarization tasks.
However, higher MAST ratings may not translate to higher joint performance.
- Abstract(参考訳): マルチソースAIスコアカードテーブル(Multisource AI Scorecard Table、MAST)は、信頼できるAIシステムの設計と評価を知らせる、分析トレードクラフト標準に基づくチェックリストツールである。
本研究では,ai対応意思決定支援システム(ai-dsss)におけるマストと人々の信頼感との関連性を評価する。
AI-DSSの信頼を評価することは、研究者や実践者に課題をもたらす。
これらの課題には、DSSのパフォーマンスを駆動し、完全な手動検査を妨げる複雑なディープラーニングアルゴリズムに基づく、これらのシステムのコンポーネント、機能、ポテンシャルの特定が含まれる。
MAST基準を用いた2つの対話型AI-DSSテスト環境を開発した。
1つはセキュリティスクリーニングでid検証タスクをエミュレートし、もう1つはテキスト要約システムをエミュレートして調査報告タスクを支援する。
それぞれのテスト環境は、低いMASTレーティングにマッチするように設計されたバージョンと、高いMASTレーティングにマッチするように設計されたバージョンがあり、MASTレーティングはこれらのシステムの信頼レーティングに肯定的な関係があるという仮説がある。
これらのシステムと相互作用し評価するために、合計177人の主題の専門家が雇われた。
その結果,低MAST群と比較して高いMAST評価率を示し,信頼感尺度はMAST評価と高い相関性を示した。
我々は、MASTは、視覚スクリーニングやテキスト要約タスクをサポートするAI-DSSを含む、高い信頼感を育むシステムの設計と評価に有用なツールであると結論付けている。
しかし、より高いMASTレーティングは、より高いジョイントパフォーマンスには変換されない。
関連論文リスト
- Can We Trust AI Benchmarks? An Interdisciplinary Review of Current Issues in AI Evaluation [2.2241228857601727]
本稿では,定量的なベンチマーク手法の欠点を論じる,約100の学術研究の学際的メタレビューを示す。
これは、より広範な社会技術的問題を伴うベンチマークの設計と適用において、多くのきめ細かい問題をもたらす。
レビューではまた、不正なインセンティブ、妥当性の問題の構築、未知の未知、ベンチマーク結果のゲームに関する問題など、現在のプラクティスにおける一連のシステム的欠陥についても取り上げている。
論文 参考訳(メタデータ) (2025-02-10T15:25:06Z) - AI-Compass: A Comprehensive and Effective Multi-module Testing Tool for AI Systems [26.605694684145313]
本研究では,AIシステムを包括的かつ効果的に評価するテストツール,ツールを設計,実装する。
このツールは、敵の堅牢性、モデル解釈可能性、およびニューロン分析を広範囲に評価する。
私たちの研究は、ランドスケープをテストするAIシステムの一般的なソリューションに光を当てています。
論文 参考訳(メタデータ) (2024-11-09T11:15:17Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - MFE-ETP: A Comprehensive Evaluation Benchmark for Multi-modal Foundation Models on Embodied Task Planning [50.45558735526665]
具体的タスクプランニングにおけるMFMの性能について,より深く,包括的に評価する。
我々は,その複雑で可変なタスクシナリオを特徴付けるMFE-ETPという新しいベンチマークを提案する。
ベンチマークと評価プラットフォームを用いて、いくつかの最先端のMFMを評価し、それらが人間レベルの性能に著しく遅れていることを発見した。
論文 参考訳(メタデータ) (2024-07-06T11:07:18Z) - Testing autonomous vehicles and AI: perspectives and challenges from cybersecurity, transparency, robustness and fairness [53.91018508439669]
この研究は、人工知能を自律走行車(AV)に統合する複雑さを探求する
AIコンポーネントがもたらした課題と、テスト手順への影響を調べます。
本稿は、重要な課題を特定し、AV技術におけるAIの研究・開発に向けた今後の方向性を提案する。
論文 参考訳(メタデータ) (2024-02-21T08:29:42Z) - PADTHAI-MM: Principles-based Approach for Designing Trustworthy, Human-centered AI using MAST Methodology [5.215782336985273]
マルチソースAIスコアカードテーブル(Multisource AI Scorecard Table, MAST)は、AI対応意思決定支援システムを評価するための、体系的かつトレードクラフト中心のアプローチを提供することによって、ギャップを埋めるように設計されている。
我々は,信頼に値する,人間中心のAIを設計するためのテキスト原則に基づくアプローチという,反復的な設計フレームワークを導入する。
我々はこの枠組みを防衛情報タスク報告支援(READIT)の開発において実証する。
論文 参考訳(メタデータ) (2024-01-24T23:15:44Z) - Towards Reliable AI: Adequacy Metrics for Ensuring the Quality of
System-level Testing of Autonomous Vehicles [5.634825161148484]
我々は、"Test suite Instance Space Adequacy"(TISA)メトリクスと呼ばれる一連のブラックボックステストの精度指標を紹介します。
TISAメトリクスは、テストスイートの多様性とカバレッジと、テスト中に検出されたバグの範囲の両方を評価する手段を提供する。
AVのシステムレベルのシミュレーションテストにおいて検出されたバグ数との相関を検証し,TISA測定の有効性を評価する。
論文 参考訳(メタデータ) (2023-11-14T10:16:05Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Benchmarking Quality-Dependent and Cost-Sensitive Score-Level Multimodal
Biometric Fusion Algorithms [58.156733807470395]
本稿では,BioSecure DS2 (Access Control) 評価キャンペーンの枠組み内で実施したベンチマーク研究について報告する。
キャンペーンは、約500人の中規模施設における物理的アクセス制御の適用を目標とした。
我々の知る限りでは、これは品質ベースのマルチモーダル融合アルゴリズムをベンチマークする最初の試みである。
論文 参考訳(メタデータ) (2021-11-17T13:39:48Z) - Multisource AI Scorecard Table for System Evaluation [3.74397577716445]
本稿では、AI/機械学習(ML)システムの開発者およびユーザに対して標準チェックリストを提供するマルチソースAIスコアカードテーブル(MAST)について述べる。
本稿では,インテリジェンス・コミュニティ・ディレクティブ(ICD)203で概説されている分析的トレードクラフト標準が,AIシステムの性能を評価するためのフレームワークを提供する方法について考察する。
論文 参考訳(メタデータ) (2021-02-08T03:37:40Z) - SMT-based Safety Verification of Parameterised Multi-Agent Systems [78.04236259129524]
パラメータ化マルチエージェントシステム(MAS)の検証について検討する。
特に、与えられた状態公式として特徴づけられる不要な状態が、所定のMASで到達可能かどうかについて検討する。
論文 参考訳(メタデータ) (2020-08-11T15:24:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。