論文の概要: The effectiveness of feature attribution methods and its correlation
with automatic evaluation scores
- arxiv url: http://arxiv.org/abs/2105.14944v1
- Date: Mon, 31 May 2021 13:23:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-01 23:25:50.961279
- Title: The effectiveness of feature attribution methods and its correlation
with automatic evaluation scores
- Title(参考訳): 特徴帰属法の有効性と自動評価スコアとの相関
- Authors: Giang Nguyen, Daeyoung Kim, Anh Nguyen
- Abstract要約: 320名のレイユーザと11名のエキスパートユーザを対象とした大規模ユーザスタディを初めて実施し、最先端の属性手法の有効性を明らかにする。
全体として、機能の属性は、人間が最も近いトレーニングセットの例を示すよりも、驚くほど効果的ではないことがわかりました。
- 参考スコア(独自算出の注目度): 19.71360639210631
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Explaining the decisions of an Artificial Intelligence (AI) model is
increasingly critical in many real-world, high-stake applications. Hundreds of
papers have either proposed new feature attribution methods, discussed or
harnessed these tools in their work. However, despite humans being the target
end-users, most attribution methods were only evaluated on proxy
automatic-evaluation metrics. In this paper, we conduct the first, large-scale
user study on 320 lay and 11 expert users to shed light on the effectiveness of
state-of-the-art attribution methods in assisting humans in ImageNet
classification, Stanford Dogs fine-grained classification, and these two tasks
but when the input image contains adversarial perturbations. We found that, in
overall, feature attribution is surprisingly not more effective than showing
humans nearest training-set examples. On a hard task of fine-grained dog
categorization, presenting attribution maps to humans does not help, but
instead hurts the performance of human-AI teams compared to AI alone.
Importantly, we found automatic attribution-map evaluation measures to
correlate poorly with the actual human-AI team performance. Our findings
encourage the community to rigorously test their methods on the downstream
human-in-the-loop applications and to rethink the existing evaluation metrics.
- Abstract(参考訳): 人工知能(AI)モデルの決定を説明することは、多くの実世界の高精細なアプリケーションにおいてますます重要になっている。
何百もの論文が、これらのツールを彼らの作業で議論または活用する、新しい特徴帰属手法を提案している。
しかし, 対象のエンドユーザーであるにもかかわらず, ほとんどの属性法は, プロキシ自動評価指標でのみ評価された。
本稿では,320名のレイユーザと11名のエキスパートユーザを対象とした大規模ユーザスタディを行い,画像ネット分類,スタンフォードドッグス細粒度分類,これら2つの課題について,現状の属性手法の有効性を明らかにした。
その結果、全体的な特徴属性は、人間が最も近いトレーニングセットの例を示すよりも驚くほど効果的ではないことがわかった。
きめ細かい犬分類の難しいタスクでは、人間に属性マップを提示することは役に立たないが、AI単独と比較して人間とAIチームのパフォーマンスを損なう。
重要なことは、人間とAIチームの実際のパフォーマンスと相関がよくない自動属性マップ評価方法が見つかった。
本研究の成果は,既存の評価基準を再考するため,下流の人間-イン-ザ-ループアプリケーション上での手法の厳密な検証をコミュニティに奨励するものである。
関連論文リスト
- Beyond Static Evaluation: A Dynamic Approach to Assessing AI Assistants' API Invocation Capabilities [48.922660354417204]
人間の関与なしにアシスタントのAPIコール能力を評価するために,自動動的評価(Automated Dynamic Evaluation, AutoDE)を提案する。
この枠組みでは,人間と機械の相互作用において,真の人間の会話パターンを忠実に反映するように努力する。
論文 参考訳(メタデータ) (2024-03-17T07:34:12Z) - Automating the Correctness Assessment of AI-generated Code for Security Contexts [8.009107843106108]
本稿では,セキュリティのためにAI生成コードの正当性を評価するために,ACCAという完全自動化手法を提案する。
我々はACCAを用いて、セキュリティ指向のアセンブリコードを生成するために訓練された4つの最先端モデルを評価する。
実験の結果,本手法は基本解よりも優れ,AI生成コードの正確性は人間による評価と類似していることが判明した。
論文 参考訳(メタデータ) (2023-10-28T22:28:32Z) - Improving Human-AI Collaboration With Descriptions of AI Behavior [14.904401331154062]
人々はAIシステムを使って意思決定を改善するが、しばしばAIの予測を過度に、あるいは過度に予測し、手伝わなかったよりも悪いパフォーマンスをする。
人々がAIアシスタントを適切に頼りにするために、行動記述を示すことを提案する。
論文 参考訳(メタデータ) (2023-01-06T00:33:08Z) - Advancing Human-AI Complementarity: The Impact of User Expertise and
Algorithmic Tuning on Joint Decision Making [10.890854857970488]
ユーザのドメイン知識、AIシステムのメンタルモデル、レコメンデーションへの信頼など、多くの要因がヒューマンAIチームの成功に影響を与える可能性がある。
本研究は,非自明な血管ラベル作成作業において,血管が流れているか停止しているかを被験者に示すことを目的とした。
以上の結果から,AI-Assistantからの推薦はユーザの意思決定に役立つが,AIに対するユーザベースラインのパフォーマンスや,AIエラー型の相補的チューニングといった要因は,チーム全体のパフォーマンスに大きな影響を及ぼすことが示された。
論文 参考訳(メタデータ) (2022-08-16T21:39:58Z) - ACP++: Action Co-occurrence Priors for Human-Object Interaction
Detection [102.9428507180728]
ヒューマン・オブジェクト・インタラクション(HOI)検出のタスクにおける一般的な問題は、多数のHOIクラスが少数のラベル付き例しか持たないことである。
我々は、人間と物体の相互作用の間に自然の相関関係と反相関が存在することを観察した。
我々は、これらの先行知識を学習し、特に稀なクラスにおいて、より効果的な訓練に活用する手法を提案する。
論文 参考訳(メタデータ) (2021-09-09T06:02:50Z) - Crowdsourcing Evaluation of Saliency-based XAI Methods [18.18238526746074]
本稿では,クラウドソーシングによるXAI手法の評価手法を提案する。
我々の手法は人間の計算ゲーム「Peek-a-boom」にインスパイアされている。
自動評価と群集評価を併用した2つのデータセット上で,様々なXAI手法の精度マップを評価した。
論文 参考訳(メタデータ) (2021-06-27T17:37:53Z) - Scalable Personalised Item Ranking through Parametric Density Estimation [53.44830012414444]
暗黙のフィードバックから学ぶことは、一流問題の難しい性質のために困難です。
ほとんどの従来の方法は、一級問題に対処するためにペアワイズランキングアプローチとネガティブサンプラーを使用します。
本論文では,ポイントワイズと同等の収束速度を実現する学習対ランクアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-11T03:38:16Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z) - Detecting Human-Object Interactions with Action Co-occurrence Priors [108.31956827512376]
人-物間相互作用(HOI)検出タスクにおける一般的な問題は、多数のHOIクラスが少数のラベル付き例しか持たないことである。
我々は、人間と物体の相互作用の間に自然の相関と反相関が存在することを観察した。
我々はこれらの先行知識を学習し、特に稀なクラスにおいてより効果的な訓練に活用する手法を提案する。
論文 参考訳(メタデータ) (2020-07-17T02:47:45Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z) - Proxy Tasks and Subjective Measures Can Be Misleading in Evaluating
Explainable AI Systems [14.940404609343432]
我々は、XAIシステムを評価するための2つの現在一般的な手法を評価した。
その結果,プロキシタスクによる評価は,実際の意思決定タスクによる評価結果の予測には至らなかった。
我々の研究は、誤解を招く評価手法を採用することで、人間やAI単独よりも確実にパフォーマンスを発揮できる人間とAIチームの開発に向けた進歩が、必然的に鈍化している可能性があることを示唆している。
論文 参考訳(メタデータ) (2020-01-22T22:14:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。