Fugu-MT 論文翻訳(概要): Evaluating Trustworthiness of AI-Enabled Decision Support Systems: Validation of the Multisource AI Scorecard Table (MAST)

論文の概要: Evaluating Trustworthiness of AI-Enabled Decision Support Systems: Validation of the Multisource AI Scorecard Table (MAST)

arxiv url: http://arxiv.org/abs/2311.18040v1
Date: Wed, 29 Nov 2023 19:34:15 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-01 19:01:53.149494
Title: Evaluating Trustworthiness of AI-Enabled Decision Support Systems: Validation of the Multisource AI Scorecard Table (MAST)
Title（参考訳）: AI対応意思決定支援システムの信頼性評価:マルチソースAIスコアカードテーブル(MAST)の検証
Authors: Pouria Salehi, Yang Ba, Nayoung Kim, Ahmadreza Mosallanezhad, Anna Pan, Myke C. Cohen, Yixuan Wang, Jieqiong Zhao, Shawaiz Bhatti, James Sung, Erik Blasch, Michelle V. Mancenido, Erin K. Chiou
Abstract要約: Multisource AI Scorecard Table (MAST)は、信頼できるAIシステムの設計と評価を通知するチェックリストツールである。我々は、AI対応意思決定支援システムにおいて、MASTが人々の信頼感と関連しているかどうかを評価する。
参考スコア（独自算出の注目度）: 10.983659980278926
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The Multisource AI Scorecard Table (MAST) is a checklist tool based on analytic tradecraft standards to inform the design and evaluation of trustworthy AI systems. In this study, we evaluate whether MAST is associated with people's trust perceptions in AI-enabled decision support systems (AI-DSSs). Evaluating trust in AI-DSSs poses challenges to researchers and practitioners. These challenges include identifying the components, capabilities, and potential of these systems, many of which are based on the complex deep learning algorithms that drive DSS performance and preclude complete manual inspection. We developed two interactive, AI-DSS test environments using the MAST criteria. One emulated an identity verification task in security screening, and another emulated a text summarization system to aid in an investigative reporting task. Each test environment had one version designed to match low-MAST ratings, and another designed to match high-MAST ratings, with the hypothesis that MAST ratings would be positively related to the trust ratings of these systems. A total of 177 subject matter experts were recruited to interact with and evaluate these systems. Results generally show higher MAST ratings for the high-MAST conditions compared to the low-MAST groups, and that measures of trust perception are highly correlated with the MAST ratings. We conclude that MAST can be a useful tool for designing and evaluating systems that will engender high trust perceptions, including AI-DSS that may be used to support visual screening and text summarization tasks. However, higher MAST ratings may not translate to higher joint performance.
Abstract（参考訳）: マルチソースAIスコアカードテーブル(Multisource AI Scorecard Table、MAST)は、信頼できるAIシステムの設計と評価を知らせる、分析トレードクラフト標準に基づくチェックリストツールである。本研究では,ai対応意思決定支援システム(ai-dsss)におけるマストと人々の信頼感との関連性を評価する。 AI-DSSの信頼を評価することは、研究者や実践者に課題をもたらす。これらの課題には、DSSのパフォーマンスを駆動し、完全な手動検査を妨げる複雑なディープラーニングアルゴリズムに基づく、これらのシステムのコンポーネント、機能、ポテンシャルの特定が含まれる。 MAST基準を用いた2つの対話型AI-DSSテスト環境を開発した。 1つはセキュリティスクリーニングでid検証タスクをエミュレートし、もう1つはテキスト要約システムをエミュレートして調査報告タスクを支援する。それぞれのテスト環境は、低いMASTレーティングにマッチするように設計されたバージョンと、高いMASTレーティングにマッチするように設計されたバージョンがあり、MASTレーティングはこれらのシステムの信頼レーティングに肯定的な関係があるという仮説がある。これらのシステムと相互作用し評価するために、合計177人の主題の専門家が雇われた。その結果,低MAST群と比較して高いMAST評価率を示し,信頼感尺度はMAST評価と高い相関性を示した。我々は、MASTは、視覚スクリーニングやテキスト要約タスクをサポートするAI-DSSを含む、高い信頼感を育むシステムの設計と評価に有用なツールであると結論付けている。しかし、より高いMASTレーティングは、より高いジョイントパフォーマンスには変換されない。

関連論文リスト

TAI Scan Tool: A RAG-Based Tool With Minimalistic Input for Trustworthy AI Self-Assessment [0.0]
本稿では、最小限の入力を持つRAGベースのTAI自己評価ツールであるTAI Scan Toolを紹介する。現在のバージョンは法的TAIアセスメントをサポートしており、特にAI法への準拠の促進に重点を置いている。システムの評価出力は、AI法に従ってAIシステムのリスクレベルに関する洞察を含むと同時に、コンプライアンスの支援と義務の通知のために関連する記事を取得する。
論文参考訳（メタデータ） (2025-07-23T13:51:23Z)
Establishing Best Practices for Building Rigorous Agentic Benchmarks [94.69724201080155]
多くのエージェントベンチマークがタスク設定や報酬設計に問題があることを示す。このような問題は、エージェントのパフォーマンスを最大100%相対的に過小評価することにつながる可能性がある。我々はベンチマーク構築経験から要約したガイドラインの集合であるAgentic Benchmark Checklist (ABC)を紹介した。
論文参考訳（メタデータ） (2025-07-03T17:35:31Z)
The AI Imperative: Scaling High-Quality Peer Review in Machine Learning [49.87236114682497]
AIによるピアレビューは、緊急の研究とインフラの優先事項になるべきだ、と私たちは主張する。我々は、事実検証の強化、レビュアーのパフォーマンスの指導、品質改善における著者の支援、意思決定におけるAC支援におけるAIの具体的な役割を提案する。
論文参考訳（メタデータ） (2025-06-09T18:37:14Z)
Evaluating explainable AI for deep learning-based network intrusion detection system alert classification [0.7864304771129751]
ネットワーク侵入検知システム(NIDS)は、サイバー攻撃やその他の不要な活動のネットワークを監視する。 NIDSソリューションは、しばしば毎日圧倒的な数のアラートを発生させるため、アナリストが優先度の高い脅威を優先順位付けすることは困難である。本研究は、信頼と解釈性を改善するために、NIDS警告分類における説明可能な人工知能(XAI)の重要性を強調した。
論文参考訳（メタデータ） (2025-06-09T15:53:30Z)
Attention Knows Whom to Trust: Attention-based Trust Management for LLM Multi-Agent Systems [52.57826440085856]
LLM-MAS(Large Language Model-based Multi-Agent Systems)は、複雑なタスクを解く上で強力な能力を示すが、エージェントが信頼性の低いメッセージを受け取ると弱いままである。 LLMエージェントは、信頼性を評価することなく、すべての受信メッセージを平等に扱う。本稿では,メッセージの信頼度を評価するための軽量な注意ベース手法であるAttention Trust Score (A-Trust)を提案する。
論文参考訳（メタデータ） (2025-06-03T07:32:57Z)
Why Do Multi-Agent LLM Systems Fail? [91.39266556855513]
MAST(Multi-Agent System Failure taxonomy, MAST)は,MASの故障を理解するために考案された分類法である。我々は、200以上のタスクにまたがる7つの人気のあるMASフレームワークを分析し、6つの専門家のアノテータを含む。 14のユニークな障害モードを特定し、(i)仕様問題、(ii)エージェント間ミスアライメント、(iii)タスク検証の3つに分類した。
論文参考訳（メタデータ） (2025-03-17T19:04:38Z)
AILuminate: Introducing v1.0 of the AI Risk and Reliability Benchmark from MLCommons [62.374792825813394]
本稿ではAI製品リスクと信頼性を評価するための業界標準ベンチマークとして,AIluminate v1.0を紹介する。このベンチマークは、危険、違法、または望ましくない行動を12の危険カテゴリーで引き起こすように設計されたプロンプトに対するAIシステムの抵抗を評価する。
論文参考訳（メタデータ） (2025-02-19T05:58:52Z)
Can We Trust AI Benchmarks? An Interdisciplinary Review of Current Issues in AI Evaluation [2.2241228857601727]
本稿では,定量的なベンチマーク手法の欠点を論じる,約100の学術研究の学際的メタレビューを示す。これは、より広範な社会技術的問題を伴うベンチマークの設計と適用において、多くのきめ細かい問題をもたらす。レビューではまた、不正なインセンティブ、妥当性の問題の構築、未知の未知、ベンチマーク結果のゲームに関する問題など、現在のプラクティスにおける一連のシステム的欠陥についても取り上げている。
論文参考訳（メタデータ） (2025-02-10T15:25:06Z)
AI-Compass: A Comprehensive and Effective Multi-module Testing Tool for AI Systems [26.605694684145313]
本研究では,AIシステムを包括的かつ効果的に評価するテストツール,ツールを設計,実装する。このツールは、敵の堅牢性、モデル解釈可能性、およびニューロン分析を広範囲に評価する。私たちの研究は、ランドスケープをテストするAIシステムの一般的なソリューションに光を当てています。
論文参考訳（メタデータ） (2024-11-09T11:15:17Z)
MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。 MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文参考訳（メタデータ） (2024-10-14T04:15:00Z)
MFE-ETP: A Comprehensive Evaluation Benchmark for Multi-modal Foundation Models on Embodied Task Planning [50.45558735526665]
具体的タスクプランニングにおけるMFMの性能について,より深く,包括的に評価する。我々は,その複雑で可変なタスクシナリオを特徴付けるMFE-ETPという新しいベンチマークを提案する。ベンチマークと評価プラットフォームを用いて、いくつかの最先端のMFMを評価し、それらが人間レベルの性能に著しく遅れていることを発見した。
論文参考訳（メタデータ） (2024-07-06T11:07:18Z)
Testing autonomous vehicles and AI: perspectives and challenges from cybersecurity, transparency, robustness and fairness [53.91018508439669]
この研究は、人工知能を自律走行車(AV)に統合する複雑さを探求する AIコンポーネントがもたらした課題と、テスト手順への影響を調べます。本稿は、重要な課題を特定し、AV技術におけるAIの研究・開発に向けた今後の方向性を提案する。
論文参考訳（メタデータ） (2024-02-21T08:29:42Z)
PADTHAI-MM: A Principled Approach for Designing Trustable, Human-centered AI systems using the MAST Methodology [5.38932801848643]
チェックリスト評価システムであるMultisource AI Scorecard Table (MAST)は、AI対応意思決定支援システムの設計と評価におけるこのギャップに対処する。我々は,MAST手法を用いた信頼性の高い人間中心型AIシステムを設計するための原則的アプローチを提案する。我々は,MAST誘導設計により信頼感が向上し,MAST基準が性能,プロセス,目的情報と結びつくことを示す。
論文参考訳（メタデータ） (2024-01-24T23:15:44Z)
Towards Reliable AI: Adequacy Metrics for Ensuring the Quality of System-level Testing of Autonomous Vehicles [5.634825161148484]
我々は、"Test suite Instance Space Adequacy"(TISA)メトリクスと呼ばれる一連のブラックボックステストの精度指標を紹介します。 TISAメトリクスは、テストスイートの多様性とカバレッジと、テスト中に検出されたバグの範囲の両方を評価する手段を提供する。 AVのシステムレベルのシミュレーションテストにおいて検出されたバグ数との相関を検証し,TISA測定の有効性を評価する。
論文参考訳（メタデータ） (2023-11-14T10:16:05Z)
From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文参考訳（メタデータ） (2023-06-18T09:54:33Z)
Benchmarking Quality-Dependent and Cost-Sensitive Score-Level Multimodal Biometric Fusion Algorithms [58.156733807470395]
本稿では,BioSecure DS2 (Access Control) 評価キャンペーンの枠組み内で実施したベンチマーク研究について報告する。キャンペーンは、約500人の中規模施設における物理的アクセス制御の適用を目標とした。我々の知る限りでは、これは品質ベースのマルチモーダル融合アルゴリズムをベンチマークする最初の試みである。
論文参考訳（メタデータ） (2021-11-17T13:39:48Z)
Statistical Perspectives on Reliability of Artificial Intelligence Systems [6.284088451820049]
AIシステムの信頼性に関する統計的視点を提供する。本稿では,AI信頼性研究のためのSMART統計フレームワークを提案する。我々は、AI信頼性のモデリングと分析における最近の発展について論じる。
論文参考訳（メタデータ） (2021-11-09T20:00:14Z)
Multisource AI Scorecard Table for System Evaluation [3.74397577716445]
本稿では、AI/機械学習(ML)システムの開発者およびユーザに対して標準チェックリストを提供するマルチソースAIスコアカードテーブル(MAST)について述べる。本稿では,インテリジェンス・コミュニティ・ディレクティブ(ICD)203で概説されている分析的トレードクラフト標準が,AIシステムの性能を評価するためのフレームワークを提供する方法について考察する。
論文参考訳（メタデータ） (2021-02-08T03:37:40Z)
SMT-based Safety Verification of Parameterised Multi-Agent Systems [78.04236259129524]
パラメータ化マルチエージェントシステム(MAS)の検証について検討する。特に、与えられた状態公式として特徴づけられる不要な状態が、所定のMASで到達可能かどうかについて検討する。
論文参考訳（メタデータ） (2020-08-11T15:24:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。