論文の概要: On Evaluating Explanation Utility for Human-AI Decision Making in NLP
- arxiv url: http://arxiv.org/abs/2407.03545v2
- Date: Tue, 05 Nov 2024 01:38:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-06 14:57:20.386402
- Title: On Evaluating Explanation Utility for Human-AI Decision Making in NLP
- Title(参考訳): NLPにおけるヒューマンAI意思決定のための説明ユーティリティの評価について
- Authors: Fateme Hashemi Chaleshtori, Atreya Ghosal, Alexander Gill, Purbid Bambroo, Ana Marasović,
- Abstract要約: アプリケーショングラウンド評価に適した既存の指標について検討する。
我々は,人間-AIチームの形成と研究のために,芸術の状態を再評価することの重要性を実証する。
- 参考スコア(独自算出の注目度): 39.58317527488534
- License:
- Abstract: Is explainability a false promise? This debate has emerged from the insufficient evidence that explanations help people in situations they are introduced for. More human-centered, application-grounded evaluations of explanations are needed to settle this. Yet, with no established guidelines for such studies in NLP, researchers accustomed to standardized proxy evaluations must discover appropriate measurements, tasks, datasets, and sensible models for human-AI teams in their studies. To aid with this, we first review existing metrics suitable for application-grounded evaluation. We then establish criteria to select appropriate datasets, and using them, we find that only 4 out of over 50 datasets available for explainability research in NLP meet them. We then demonstrate the importance of reassessing the state of the art to form and study human-AI teams: teaming people with models for certain tasks might only now start to make sense, and for others, it remains unsound. Finally, we present the exemplar studies of human-AI decision-making for one of the identified tasks -- verifying the correctness of a legal claim given a contract. Our results show that providing AI predictions, with or without explanations, does not cause decision makers to speed up their work without compromising performance. We argue for revisiting the setup of human-AI teams and improving automatic deferral of instances to AI, where explanations could play a useful role.
- Abstract(参考訳): 説明責任は偽りの約束か?
この議論は、説明が導入される状況において人々を助けるという不十分な証拠から生まれた。
これを解決するには、より人間中心のアプリケーション基底による説明の評価が必要である。
しかし、NLPにおけるそのような研究のガイドラインが確立されていないため、標準化されたプロキシ評価に慣れた研究者は、研究において人間とAIチームのための適切な測定、タスク、データセット、および賢明なモデルを見つける必要がある。
これを支援するために、アプリケーショングラウンド評価に適した既存のメトリクスをまずレビューする。
そして、適切なデータセットを選択するための基準を確立し、それらを使用すれば、NLPで説明可能性の研究に利用できるデータセットは、50以上のデータセットのうち4つに過ぎません。
そして、私たちは、人間-AIチームの形成と研究のために、最先端のチームを再評価することの重要性を実証します。
最後に,契約条件による法的主張の正当性を検証した,特定された課題の1つについて,人間とAIによる意思決定の模範的な研究を提示する。
我々の結果は、AI予測を提供することは、説明の有無にかかわらず、意思決定者がパフォーマンスを損なうことなく作業をスピードアップさせるものではないことを示している。
我々は、人間-AIチームのセットアップを再考し、AIへのインスタンスの自動遅延を改善することで、説明が有用な役割を果たす可能性があると論じている。
関連論文リスト
- CAUS: A Dataset for Question Generation based on Human Cognition Leveraging Large Language Models [4.962252439662465]
本稿では,Curious About Uncertain Sceneデータセットを導入し,大規模言語モデルを用いて人間の認知過程をエミュレートし,不確実性を解決する。
我々のアプローチは、推論とクエリの生成を刺激するために、不確実性に埋め込まれたシーン記述を提供することである。
以上の結果から, GPT-4は, 適切な文脈や指示が与えられた場合に, 適切な質問を効果的に生成し, そのニュアンスを把握できることが示唆された。
論文 参考訳(メタデータ) (2024-04-18T01:31:19Z) - Evaluating the Utility of Model Explanations for Model Development [54.23538543168767]
機械学習モデル構築の実践シナリオにおいて、説明が人間の意思決定を改善するかどうかを評価する。
驚いたことに、サリエンシマップが提供されたとき、タスクが大幅に改善されたという証拠は見つからなかった。
以上の結果から,サリエンシに基づく説明における誤解の可能性と有用性について注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2023-12-10T23:13:23Z) - Notion of Explainable Artificial Intelligence -- An Empirical
Investigation from A Users Perspective [0.3069335774032178]
本研究は、ユーザ中心の説明可能なAIを調査し、研究コンテキストとしてレコメンデーションシステムを検討することを目的とする。
我々は,推薦システムに関する質的データを収集するために,フォーカスグループインタビューを行った。
以上の結果から,エンドユーザーはオンデマンドの補足情報による非技術的かつ適切な説明を望んでいることが明らかとなった。
論文 参考訳(メタデータ) (2023-11-01T22:20:14Z) - Training Towards Critical Use: Learning to Situate AI Predictions
Relative to Human Knowledge [22.21959942886099]
我々は、人間がAIモデルでは利用できない知識に対してAI予測をシチュレートする能力を集中させる「クリティカルユース」と呼ばれるプロセス指向の適切な依存の概念を紹介します。
我々は、児童虐待スクリーニングという複雑な社会的意思決定環境でランダム化オンライン実験を行う。
参加者にAIによる意思決定を実践する、迅速で低い機会を提供することによって、初心者は、経験豊富な労働者に類似したAIとの不一致のパターンを示すようになった。
論文 参考訳(メタデータ) (2023-08-30T01:54:31Z) - In Search of Verifiability: Explanations Rarely Enable Complementary
Performance in AI-Advised Decision Making [25.18203172421461]
説明は、人間の意思決定者がAIの予測の正しさを検証できる範囲でのみ有用である、と我々は主張する。
また、補完性能の目的と適切な依存度を比較し、後者を結果段階と戦略段階の信頼度の概念に分解する。
論文 参考訳(メタデータ) (2023-05-12T18:28:04Z) - Assisting Human Decisions in Document Matching [52.79491990823573]
我々は,意思決定者のパフォーマンスを向上する支援情報の種類を評価するためのプロキシマッチングタスクを考案した。
ブラックボックスモデルによる説明を提供することで,マッチング作業におけるユーザの精度が低下することが判明した。
一方,タスク固有のデシラタに密接に対応するように設計されたカスタムメソッドは,ユーザのパフォーマンス向上に有効であることが判明した。
論文 参考訳(メタデータ) (2023-02-16T17:45:20Z) - Human-Centric Multimodal Machine Learning: Recent Advances and Testbed
on AI-based Recruitment [66.91538273487379]
人間中心のアプローチでAIアプリケーションを開発する必要性には、ある程度のコンセンサスがある。
i)ユーティリティと社会的善、(ii)プライバシとデータ所有、(iii)透明性と説明責任、(iv)AIによる意思決定プロセスの公正性。
異種情報ソースに基づく現在のマルチモーダルアルゴリズムは、データ中の機密要素や内部バイアスによってどのように影響を受けるかを検討する。
論文 参考訳(メタデータ) (2023-02-13T16:44:44Z) - ROSCOE: A Suite of Metrics for Scoring Step-by-Step Reasoning [63.77667876176978]
大規模言語モデルでは、最終回答を正当化するためにステップバイステップの推論を生成するように促された場合、ダウンストリームタスクの解釈可能性が改善されている。
これらの推論ステップは、モデルの解釈可能性と検証を大幅に改善するが、客観的にそれらの正確性を研究することは困難である。
本稿では、従来のテキスト生成評価指標を改善し拡張する、解釈可能な教師なし自動スコアのスイートであるROSを提案する。
論文 参考訳(メタデータ) (2022-12-15T15:52:39Z) - The Role of AI in Drug Discovery: Challenges, Opportunities, and
Strategies [97.5153823429076]
この分野でのAIのメリット、課題、欠点についてレビューする。
データ拡張、説明可能なAIの使用、従来の実験手法とAIの統合についても論じている。
論文 参考訳(メタデータ) (2022-12-08T23:23:39Z) - Proxy Tasks and Subjective Measures Can Be Misleading in Evaluating
Explainable AI Systems [14.940404609343432]
我々は、XAIシステムを評価するための2つの現在一般的な手法を評価した。
その結果,プロキシタスクによる評価は,実際の意思決定タスクによる評価結果の予測には至らなかった。
我々の研究は、誤解を招く評価手法を採用することで、人間やAI単独よりも確実にパフォーマンスを発揮できる人間とAIチームの開発に向けた進歩が、必然的に鈍化している可能性があることを示唆している。
論文 参考訳(メタデータ) (2020-01-22T22:14:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。