論文の概要: Use-Case-Grounded Simulations for Explanation Evaluation
- arxiv url: http://arxiv.org/abs/2206.02256v1
- Date: Sun, 5 Jun 2022 20:12:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-08 08:57:17.312449
- Title: Use-Case-Grounded Simulations for Explanation Evaluation
- Title(参考訳): 説明評価のための利用事例別シミュレーション
- Authors: Valerie Chen, Nari Johnson, Nicholay Topin, Gregory Plumb, Ameet
Talwalkar
- Abstract要約: シミュレーション評価(SimEvals)について紹介する。
SimEvalsは、人間の被験者の被験者に提示される情報の内容を入力するアルゴリズムエージェントを訓練する。
実世界の3つのユースケースについて総合的な評価を行い、Simevalsが各ユースケースにおいてどの説明方法が人間に役立つかを効果的に特定できることを実証した。
- 参考スコア(独自算出の注目度): 23.584251632331046
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A growing body of research runs human subject evaluations to study whether
providing users with explanations of machine learning models can help them with
practical real-world use cases. However, running user studies is challenging
and costly, and consequently each study typically only evaluates a limited
number of different settings, e.g., studies often only evaluate a few
arbitrarily selected explanation methods. To address these challenges and aid
user study design, we introduce Use-Case-Grounded Simulated Evaluations
(SimEvals). SimEvals involve training algorithmic agents that take as input the
information content (such as model explanations) that would be presented to
each participant in a human subject study, to predict answers to the use case
of interest. The algorithmic agent's test set accuracy provides a measure of
the predictiveness of the information content for the downstream use case. We
run a comprehensive evaluation on three real-world use cases (forward
simulation, model debugging, and counterfactual reasoning) to demonstrate that
Simevals can effectively identify which explanation methods will help humans
for each use case. These results provide evidence that SimEvals can be used to
efficiently screen an important set of user study design decisions, e.g.
selecting which explanations should be presented to the user, before running a
potentially costly user study.
- Abstract(参考訳): 機械学習モデルの説明をユーザーに提供することが、実際のユースケースに役立てることができるかどうかを調べるために、人間の主題評価を行う研究が増えている。
しかし、ユーザ研究の実行は困難でコストがかかるため、各研究は通常、限られた数の異なる設定のみを評価する。
これらの課題に対処し、ユーザスタディデザインを支援するために、SimEvals(Use-Case-Grounded Simulated Evaluations)を導入する。
SimEvalsは、人事研究の参加者に提示される情報コンテンツ(モデル説明など)を入力として、興味のあるユースケースに対する回答を予測するアルゴリズムエージェントを訓練する。
アルゴリズムエージェントのテストセット精度は、下流ユースケースの情報内容の予測性の測定値を提供する。
実世界の3つのユースケース(フォワードシミュレーション、モデルデバッギング、および反ファクト推論)を総合的に評価し、Simevalsが各ユースケースにおいてどの説明方法が人間に役立つかを効果的に特定できることを示す。
これらの結果は、SimEvalsが、潜在的にコストがかかるユーザスタディを実行する前に、ユーザに提示すべき説明の選択など、重要なユーザスタディ設計決定のセットを効率的にスクリーニングするために使用できることを示す。
関連論文リスト
- A Sim2Real Approach for Identifying Task-Relevant Properties in Interpretable Machine Learning [18.965568482077344]
本稿では,シリコのタスク関連説明特性を一般化し,コスト効率を向上する手法を提案する。
提案手法は,3つの実例に対して関連するプロキシを同定し,実ユーザによるシミュレーションの有効性を検証する。
論文 参考訳(メタデータ) (2024-05-31T18:08:35Z) - BASES: Large-scale Web Search User Simulation with Large Language Model
based Agents [108.97507653131917]
BASESは、大きな言語モデル(LLM)を持つ新しいユーザーシミュレーションフレームワークである。
シミュレーションフレームワークは,大規模に独自のユーザプロファイルを生成することができ,その結果,多様な検索行動が生まれる。
WARRIORSは、中国語と英語の両方のバージョンを含む、Web検索ユーザ行動を含む、新しい大規模なデータセットである。
論文 参考訳(メタデータ) (2024-02-27T13:44:09Z) - Evaluating the Utility of Model Explanations for Model Development [54.23538543168767]
機械学習モデル構築の実践シナリオにおいて、説明が人間の意思決定を改善するかどうかを評価する。
驚いたことに、サリエンシマップが提供されたとき、タスクが大幅に改善されたという証拠は見つからなかった。
以上の結果から,サリエンシに基づく説明における誤解の可能性と有用性について注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2023-12-10T23:13:23Z) - UMSE: Unified Multi-scenario Summarization Evaluation [52.60867881867428]
要約品質評価は、テキスト要約における非自明なタスクである。
統一多シナリオ要約評価モデル(UMSE)を提案する。
UMSEは3つの評価シナリオで使用できる能力に係わる最初の統合要約評価フレームワークである。
論文 参考訳(メタデータ) (2023-05-26T12:54:44Z) - Designing Optimal Behavioral Experiments Using Machine Learning [8.759299724881219]
BOEDと機械学習の最近の進歩を活用して、あらゆる種類のモデルに対して最適な実験を見つけるためのチュートリアルを提供する。
マルチアームバンディット意思決定タスクにおける探索と搾取のバランスに関する理論を考察する。
文献でよく用いられる実験的な設計と比較すると、最適な設計は個人の行動に最適なモデルのどれが最適かをより効率的に決定する。
論文 参考訳(メタデータ) (2023-05-12T18:24:30Z) - A Case Study on Designing Evaluations of ML Explanations with Simulated
User Studies [6.2511886555343805]
我々は、実世界のユースケースでSimEvalsを初めて実施し、eコマース不正検出においてMLによる意思決定を支援することができるかどうかを評価する。
SimEvalsは、すべての考慮された説明者は同等にパフォーマンスがあり、説明なしではベースラインに勝てないことを示唆している。
論文 参考訳(メタデータ) (2023-02-15T03:27:55Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Challenging common interpretability assumptions in feature attribution
explanations [0.0]
大規模な人・物体実験により,3つの共通解釈可能性仮定の妥当性を実証的に評価した。
特徴帰属の説明は、人間の意思決定者にとって、我々のタスクに限界効用をもたらす。
論文 参考訳(メタデータ) (2020-12-04T17:57:26Z) - A User's Guide to Calibrating Robotics Simulators [54.85241102329546]
本稿では,シミュレーションで学習したモデルやポリシーを現実世界に伝達することを目的とした,様々なアルゴリズムの研究のためのベンチマークとフレームワークを提案する。
我々は、様々なアルゴリズムの性能に関する洞察を特徴付け、提供するために、広く知られたシミュレーション環境の実験を行う。
我々の分析は、この分野の実践者にとって有用であり、sim-to-realアルゴリズムの動作と主特性について、より深い選択をすることができる。
論文 参考訳(メタデータ) (2020-11-17T22:24:26Z) - Evaluating Explainable AI: Which Algorithmic Explanations Help Users
Predict Model Behavior? [97.77183117452235]
我々は、モデル解釈性に対するアルゴリズム的説明の影響を分離するために、人体テストを実施している。
方法の有効性の明確な証拠はごく少数にみえる。
以上の結果から,説明がシミュラビリティにどのように影響するかの信頼性と包括的評価が得られた。
論文 参考訳(メタデータ) (2020-05-04T20:35:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。