論文の概要: Proxy Tasks and Subjective Measures Can Be Misleading in Evaluating
Explainable AI Systems
- arxiv url: http://arxiv.org/abs/2001.08298v1
- Date: Wed, 22 Jan 2020 22:14:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-07 18:47:56.939027
- Title: Proxy Tasks and Subjective Measures Can Be Misleading in Evaluating
Explainable AI Systems
- Title(参考訳): 説明可能なAIシステムを評価する上で、プロキシタスクと主観的措置は誤解を招く可能性がある
- Authors: Zana Bu\c{c}inca, Phoebe Lin, Krzysztof Z. Gajos, Elena L. Glassman
- Abstract要約: 我々は、XAIシステムを評価するための2つの現在一般的な手法を評価した。
その結果,プロキシタスクによる評価は,実際の意思決定タスクによる評価結果の予測には至らなかった。
我々の研究は、誤解を招く評価手法を採用することで、人間やAI単独よりも確実にパフォーマンスを発揮できる人間とAIチームの開発に向けた進歩が、必然的に鈍化している可能性があることを示唆している。
- 参考スコア(独自算出の注目度): 14.940404609343432
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Explainable artificially intelligent (XAI) systems form part of
sociotechnical systems, e.g., human+AI teams tasked with making decisions. Yet,
current XAI systems are rarely evaluated by measuring the performance of
human+AI teams on actual decision-making tasks. We conducted two online
experiments and one in-person think-aloud study to evaluate two currently
common techniques for evaluating XAI systems: (1) using proxy, artificial tasks
such as how well humans predict the AI's decision from the given explanations,
and (2) using subjective measures of trust and preference as predictors of
actual performance. The results of our experiments demonstrate that evaluations
with proxy tasks did not predict the results of the evaluations with the actual
decision-making tasks. Further, the subjective measures on evaluations with
actual decision-making tasks did not predict the objective performance on those
same tasks. Our results suggest that by employing misleading evaluation
methods, our field may be inadvertently slowing its progress toward developing
human+AI teams that can reliably perform better than humans or AIs alone.
- Abstract(参考訳): 説明可能な人工知能(XAI)システムは、社会技術システムの一部を構成する。
しかし,現在のXAIシステムは,実際の意思決定タスクにおいて,人間+AIチームのパフォーマンスを測定することで評価されることは稀である。
2つのオンライン実験と1人の対人思考実験を行い、現在xaiシステムを評価するための一般的な2つの手法について評価した。(1)人間によるaiの判断を与えられた説明からどのように正確に予測するかのような人工的なタスク、(2)実際のパフォーマンスの予測要因として主観的な信頼と選好の尺度を用いて。
提案実験の結果,プロキシタスクによる評価は,実際の意思決定タスクによる評価結果の予測には至らなかった。
また、実際の意思決定タスクによる評価の主観的尺度は、これらのタスクの客観的性能を予測しなかった。
我々の研究は、誤解を招く評価手法を採用することで、人間やAI単独よりも確実にパフォーマンスを発揮できる人間とAIチームの開発に向けた進歩を、必然的に遅らせている可能性があることを示唆している。
関連論文リスト
- Raising the Stakes: Performance Pressure Improves AI-Assisted Decision Making [57.53469908423318]
日常の人が共通のAI支援タスクを完了すると、パフォーマンスプレッシャーがAIアドバイスへの依存に与える影響を示す。
利害関係が高い場合には、AIの説明の有無にかかわらず、利害関係が低い場合よりもAIアドバイスを適切に使用することが分かりました。
論文 参考訳(メタデータ) (2024-10-21T22:39:52Z) - Study on the Helpfulness of Explainable Artificial Intelligence [0.0]
法律、ビジネス、倫理的要件は、効果的なXAIの使用を動機付けている。
本稿では,ユーザがプロキシタスクをうまく実行する能力を通じて,XAI手法を評価することを提案する。
言い換えれば、人間の意思決定におけるXAIの有用性について論じる。
論文 参考訳(メタデータ) (2024-10-14T14:03:52Z) - To Err Is AI! Debugging as an Intervention to Facilitate Appropriate Reliance on AI Systems [11.690126756498223]
最適な人間とAIのコラボレーションのためのビジョンは、人間のAIシステムへの「適切な依存」を必要とする。
実際には、アウト・オブ・ディストリビューションデータにおける機械学習モデルの性能格差は、データセット固有のパフォーマンスフィードバックを信頼できないものにしている。
論文 参考訳(メタデータ) (2024-09-22T09:43:27Z) - How much informative is your XAI? A decision-making assessment task to
objectively measure the goodness of explanations [53.01494092422942]
XAIに対する個人化アプローチとユーザ中心アプローチの数は、近年急速に増加している。
ユーザ中心のXAIアプローチがユーザとシステム間のインタラクションに肯定的な影響を与えることが明らかとなった。
我々は,XAIシステムの良否を客観的かつ定量的に評価するための評価課題を提案する。
論文 参考訳(メタデータ) (2023-12-07T15:49:39Z) - Training Towards Critical Use: Learning to Situate AI Predictions
Relative to Human Knowledge [22.21959942886099]
我々は、人間がAIモデルでは利用できない知識に対してAI予測をシチュレートする能力を集中させる「クリティカルユース」と呼ばれるプロセス指向の適切な依存の概念を紹介します。
我々は、児童虐待スクリーニングという複雑な社会的意思決定環境でランダム化オンライン実験を行う。
参加者にAIによる意思決定を実践する、迅速で低い機会を提供することによって、初心者は、経験豊富な労働者に類似したAIとの不一致のパターンを示すようになった。
論文 参考訳(メタデータ) (2023-08-30T01:54:31Z) - The Impact of Imperfect XAI on Human-AI Decision-Making [8.305869611846775]
鳥種識別作業において,誤った説明が人間の意思決定行動にどのように影響するかを評価する。
この結果から,AIと人間-AIチームパフォーマンスへの不完全なXAIと,人間の専門知識レベルの影響が明らかになった。
論文 参考訳(メタデータ) (2023-07-25T15:19:36Z) - An Experimental Investigation into the Evaluation of Explainability
Methods [60.54170260771932]
この研究は、9つの最先端XAI法と3つのダミー法(例えば、ランダム・サリエンシ・マップ)に適用された14の異なるメトリクスを比較した。
実験の結果、これらの指標のどれが高い相関関係を示し、潜在的な冗長性を示している。
論文 参考訳(メタデータ) (2023-05-25T08:07:07Z) - Advancing Human-AI Complementarity: The Impact of User Expertise and
Algorithmic Tuning on Joint Decision Making [10.890854857970488]
ユーザのドメイン知識、AIシステムのメンタルモデル、レコメンデーションへの信頼など、多くの要因がヒューマンAIチームの成功に影響を与える可能性がある。
本研究は,非自明な血管ラベル作成作業において,血管が流れているか停止しているかを被験者に示すことを目的とした。
以上の結果から,AI-Assistantからの推薦はユーザの意思決定に役立つが,AIに対するユーザベースラインのパフォーマンスや,AIエラー型の相補的チューニングといった要因は,チーム全体のパフォーマンスに大きな影響を及ぼすことが示された。
論文 参考訳(メタデータ) (2022-08-16T21:39:58Z) - Cybertrust: From Explainable to Actionable and Interpretable AI (AI2) [58.981120701284816]
Actionable and Interpretable AI (AI2)は、AIレコメンデーションにユーザの信頼度を明確に定量化し視覚化する。
これにより、AIシステムの予測を調べてテストすることで、システムの意思決定に対する信頼の基盤を確立することができる。
論文 参考訳(メタデータ) (2022-01-26T18:53:09Z) - Is the Most Accurate AI the Best Teammate? Optimizing AI for Teamwork [54.309495231017344]
AIシステムは人間中心の方法でトレーニングされ、チームのパフォーマンスに直接最適化されるべきである、と私たちは主張する。
我々は,AIレコメンデーションを受け入れるか,あるいはタスク自体を解決するかを選択する,特定のタイプのAIチームを提案する。
実世界の高精度データセット上での線形モデルと非線形モデルによる実験は、AIが最も正確であることは、最高のチームパフォーマンスに繋がらないことを示している。
論文 参考訳(メタデータ) (2020-04-27T19:06:28Z) - Effect of Confidence and Explanation on Accuracy and Trust Calibration
in AI-Assisted Decision Making [53.62514158534574]
ケース固有のモデル情報を明らかにする特徴が、信頼度を調整し、人間とAIのジョイントパフォーマンスを向上させることができるかどうかを検討する。
信頼スコアは、AIモデルに対する人々の信頼を校正するのに役立ちますが、信頼の校正だけでは、AI支援による意思決定を改善するには不十分です。
論文 参考訳(メタデータ) (2020-01-07T15:33:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。