論文の概要: Evaluating Trustworthiness of AI-Enabled Decision Support Systems:
Validation of the Multisource AI Scorecard Table (MAST)
- arxiv url: http://arxiv.org/abs/2311.18040v1
- Date: Wed, 29 Nov 2023 19:34:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 19:01:53.149494
- Title: Evaluating Trustworthiness of AI-Enabled Decision Support Systems:
Validation of the Multisource AI Scorecard Table (MAST)
- Title(参考訳): AI対応意思決定支援システムの信頼性評価:マルチソースAIスコアカードテーブル(MAST)の検証
- Authors: Pouria Salehi, Yang Ba, Nayoung Kim, Ahmadreza Mosallanezhad, Anna
Pan, Myke C. Cohen, Yixuan Wang, Jieqiong Zhao, Shawaiz Bhatti, James Sung,
Erik Blasch, Michelle V. Mancenido, Erin K. Chiou
- Abstract要約: Multisource AI Scorecard Table (MAST)は、信頼できるAIシステムの設計と評価を通知するチェックリストツールである。
我々は、AI対応意思決定支援システムにおいて、MASTが人々の信頼感と関連しているかどうかを評価する。
- 参考スコア(独自算出の注目度): 10.983659980278926
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Multisource AI Scorecard Table (MAST) is a checklist tool based on
analytic tradecraft standards to inform the design and evaluation of
trustworthy AI systems. In this study, we evaluate whether MAST is associated
with people's trust perceptions in AI-enabled decision support systems
(AI-DSSs). Evaluating trust in AI-DSSs poses challenges to researchers and
practitioners. These challenges include identifying the components,
capabilities, and potential of these systems, many of which are based on the
complex deep learning algorithms that drive DSS performance and preclude
complete manual inspection. We developed two interactive, AI-DSS test
environments using the MAST criteria. One emulated an identity verification
task in security screening, and another emulated a text summarization system to
aid in an investigative reporting task. Each test environment had one version
designed to match low-MAST ratings, and another designed to match high-MAST
ratings, with the hypothesis that MAST ratings would be positively related to
the trust ratings of these systems. A total of 177 subject matter experts were
recruited to interact with and evaluate these systems. Results generally show
higher MAST ratings for the high-MAST conditions compared to the low-MAST
groups, and that measures of trust perception are highly correlated with the
MAST ratings. We conclude that MAST can be a useful tool for designing and
evaluating systems that will engender high trust perceptions, including AI-DSS
that may be used to support visual screening and text summarization tasks.
However, higher MAST ratings may not translate to higher joint performance.
- Abstract(参考訳): マルチソースAIスコアカードテーブル(Multisource AI Scorecard Table、MAST)は、信頼できるAIシステムの設計と評価を知らせる、分析トレードクラフト標準に基づくチェックリストツールである。
本研究では,ai対応意思決定支援システム(ai-dsss)におけるマストと人々の信頼感との関連性を評価する。
AI-DSSの信頼を評価することは、研究者や実践者に課題をもたらす。
これらの課題には、DSSのパフォーマンスを駆動し、完全な手動検査を妨げる複雑なディープラーニングアルゴリズムに基づく、これらのシステムのコンポーネント、機能、ポテンシャルの特定が含まれる。
MAST基準を用いた2つの対話型AI-DSSテスト環境を開発した。
1つはセキュリティスクリーニングでid検証タスクをエミュレートし、もう1つはテキスト要約システムをエミュレートして調査報告タスクを支援する。
それぞれのテスト環境は、低いMASTレーティングにマッチするように設計されたバージョンと、高いMASTレーティングにマッチするように設計されたバージョンがあり、MASTレーティングはこれらのシステムの信頼レーティングに肯定的な関係があるという仮説がある。
これらのシステムと相互作用し評価するために、合計177人の主題の専門家が雇われた。
その結果,低MAST群と比較して高いMAST評価率を示し,信頼感尺度はMAST評価と高い相関性を示した。
我々は、MASTは、視覚スクリーニングやテキスト要約タスクをサポートするAI-DSSを含む、高い信頼感を育むシステムの設計と評価に有用なツールであると結論付けている。
しかし、より高いMASTレーティングは、より高いジョイントパフォーマンスには変換されない。
関連論文リスト
- Testing autonomous vehicles and AI: perspectives and challenges from cybersecurity, transparency, robustness and fairness [53.91018508439669]
この研究は、人工知能を自律走行車(AV)に統合する複雑さを探求する
AIコンポーネントがもたらした課題と、テスト手順への影響を調べます。
本稿は、重要な課題を特定し、AV技術におけるAIの研究・開発に向けた今後の方向性を提案する。
論文 参考訳(メタデータ) (2024-02-21T08:29:42Z) - PADTHAI-MM: A Principled Approach for Designing Trustable,
Human-centered AI systems using the MAST Methodology [5.38932801848643]
チェックリスト評価システムであるMultisource AI Scorecard Table (MAST)は、AI対応意思決定支援システムの設計と評価におけるこのギャップに対処する。
我々は,MAST手法を用いた信頼性の高い人間中心型AIシステムを設計するための原則的アプローチを提案する。
我々は,MAST誘導設計により信頼感が向上し,MAST基準が性能,プロセス,目的情報と結びつくことを示す。
論文 参考訳(メタデータ) (2024-01-24T23:15:44Z) - Towards Reliable AI: Adequacy Metrics for Ensuring the Quality of
System-level Testing of Autonomous Vehicles [5.634825161148484]
我々は、"Test suite Instance Space Adequacy"(TISA)メトリクスと呼ばれる一連のブラックボックステストの精度指標を紹介します。
TISAメトリクスは、テストスイートの多様性とカバレッジと、テスト中に検出されたバグの範囲の両方を評価する手段を提供する。
AVのシステムレベルのシミュレーションテストにおいて検出されたバグ数との相関を検証し,TISA測定の有効性を評価する。
論文 参考訳(メタデータ) (2023-11-14T10:16:05Z) - SQUARE: Automatic Question Answering Evaluation using Multiple Positive
and Negative References [73.67707138779245]
SQuArE (Sentence-level QUestion AnsweRing Evaluation) という新しい評価指標を提案する。
文レベルの抽出(回答選択)と生成(GenQA)の両方のQAシステムでSQuArEを評価する。
論文 参考訳(メタデータ) (2023-09-21T16:51:30Z) - An Experimental Investigation into the Evaluation of Explainability
Methods [60.54170260771932]
この研究は、9つの最先端XAI法と3つのダミー法(例えば、ランダム・サリエンシ・マップ)に適用された14の異なるメトリクスを比較した。
実験の結果、これらの指標のどれが高い相関関係を示し、潜在的な冗長性を示している。
論文 参考訳(メタデータ) (2023-05-25T08:07:07Z) - Benchmarking Quality-Dependent and Cost-Sensitive Score-Level Multimodal
Biometric Fusion Algorithms [58.156733807470395]
本稿では,BioSecure DS2 (Access Control) 評価キャンペーンの枠組み内で実施したベンチマーク研究について報告する。
キャンペーンは、約500人の中規模施設における物理的アクセス制御の適用を目標とした。
我々の知る限りでは、これは品質ベースのマルチモーダル融合アルゴリズムをベンチマークする最初の試みである。
論文 参考訳(メタデータ) (2021-11-17T13:39:48Z) - Statistical Perspectives on Reliability of Artificial Intelligence
Systems [6.284088451820049]
AIシステムの信頼性に関する統計的視点を提供する。
本稿では,AI信頼性研究のためのSMART統計フレームワークを提案する。
我々は、AI信頼性のモデリングと分析における最近の発展について論じる。
論文 参考訳(メタデータ) (2021-11-09T20:00:14Z) - Certifiable Artificial Intelligence Through Data Fusion [7.103626867766158]
本稿では,人工知能(AI)システムの採用,フィールド化,保守に関する課題をレビューし,提案する。
画像データ融合により、精度対距離を考慮したAI物体認識精度を支援する。
論文 参考訳(メタデータ) (2021-11-03T03:34:19Z) - Multisource AI Scorecard Table for System Evaluation [3.74397577716445]
本稿では、AI/機械学習(ML)システムの開発者およびユーザに対して標準チェックリストを提供するマルチソースAIスコアカードテーブル(MAST)について述べる。
本稿では,インテリジェンス・コミュニティ・ディレクティブ(ICD)203で概説されている分析的トレードクラフト標準が,AIシステムの性能を評価するためのフレームワークを提供する方法について考察する。
論文 参考訳(メタデータ) (2021-02-08T03:37:40Z) - SMT-based Safety Verification of Parameterised Multi-Agent Systems [78.04236259129524]
パラメータ化マルチエージェントシステム(MAS)の検証について検討する。
特に、与えられた状態公式として特徴づけられる不要な状態が、所定のMASで到達可能かどうかについて検討する。
論文 参考訳(メタデータ) (2020-08-11T15:24:05Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。