論文の概要: A Case Study on Designing Evaluations of ML Explanations with Simulated
User Studies
- arxiv url: http://arxiv.org/abs/2302.07444v1
- Date: Wed, 15 Feb 2023 03:27:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-16 15:50:53.030171
- Title: A Case Study on Designing Evaluations of ML Explanations with Simulated
User Studies
- Title(参考訳): シミュレーションユーザ研究によるML説明書の設計評価に関する事例研究
- Authors: Ada Martin, Valerie Chen, S\'ergio Jesus, Pedro Saleiro
- Abstract要約: 我々は、実世界のユースケースでSimEvalsを初めて実施し、eコマース不正検出においてMLによる意思決定を支援することができるかどうかを評価する。
SimEvalsは、すべての考慮された説明者は同等にパフォーマンスがあり、説明なしではベースラインに勝てないことを示唆している。
- 参考スコア(独自算出の注目度): 6.2511886555343805
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When conducting user studies to ascertain the usefulness of model
explanations in aiding human decision-making, it is important to use real-world
use cases, data, and users. However, this process can be resource-intensive,
allowing only a limited number of explanation methods to be evaluated.
Simulated user evaluations (SimEvals), which use machine learning models as a
proxy for human users, have been proposed as an intermediate step to select
promising explanation methods. In this work, we conduct the first SimEvals on a
real-world use case to evaluate whether explanations can better support
ML-assisted decision-making in e-commerce fraud detection. We study whether
SimEvals can corroborate findings from a user study conducted in this fraud
detection context. In particular, we find that SimEvals suggest that all
considered explainers are equally performant, and none beat a baseline without
explanations -- this matches the conclusions of the original user study. Such
correspondences between our results and the original user study provide initial
evidence in favor of using SimEvals before running user studies. We also
explore the use of SimEvals as a cheap proxy to explore an alternative user
study set-up. We hope that this work motivates further study of when and how
SimEvals should be used to aid in the design of real-world evaluations.
- Abstract(参考訳): 意思決定支援におけるモデル説明の有用性を確認するためにユーザ調査を行う場合には,実世界のユースケースやデータ,ユーザの利用が重要である。
しかし、このプロセスはリソース集約的であり、限られた数の説明方法しか評価できない。
機械学習モデルを用いたシミュレーションユーザ評価(SimEvals)は,有望な説明方法を選択する中間段階として提案されている。
本研究は,eコマース不正検出におけるML支援意思決定を支援するために,実世界のユースケースでSimEvalsを初めて実施する。
我々は,SimEvalsが,この不正検出コンテキストで実施したユーザ調査から得られた知見を裏付けることができるかどうかを検討する。
特に、SimEvals氏は、すべての考慮された説明者は同等にパフォーマンスがあり、説明なしではベースラインを破らないことを示唆している。
このような結果と元のユーザスタディとの対応は、ユーザスタディを実行する前にSimEvalsを使うことを優先する最初の証拠となる。
また、SimEvalsを安価なプロキシとして使用して、代替ユーザスタディのセットアップについても検討する。
この研究は、SimEvalsが現実世界の評価設計にいつ、どのように使われるべきかについて、さらなる研究の動機となることを願っている。
関連論文リスト
- Minimizing Live Experiments in Recommender Systems: User Simulation to Evaluate Preference Elicitation Policies [14.258382779305483]
本稿では,ライブ実験の利用を拡大(および削減)するために用いられるシミュレーション手法について述べる。
そこで本研究では,YouTube Musicプラットフォームの新規ユーザを対象とした選好評価アルゴリズムの展開について述べる。
論文 参考訳(メタデータ) (2024-09-26T00:08:46Z) - A Sim2Real Approach for Identifying Task-Relevant Properties in Interpretable Machine Learning [18.965568482077344]
本稿では,シリコのタスク関連説明特性を一般化し,コスト効率を向上する手法を提案する。
提案手法は,3つの実例に対して関連するプロキシを同定し,実ユーザによるシミュレーションの有効性を検証する。
論文 参考訳(メタデータ) (2024-05-31T18:08:35Z) - BASES: Large-scale Web Search User Simulation with Large Language Model
based Agents [108.97507653131917]
BASESは、大きな言語モデル(LLM)を持つ新しいユーザーシミュレーションフレームワークである。
シミュレーションフレームワークは,大規模に独自のユーザプロファイルを生成することができ,その結果,多様な検索行動が生まれる。
WARRIORSは、中国語と英語の両方のバージョンを含む、Web検索ユーザ行動を含む、新しい大規模なデータセットである。
論文 参考訳(メタデータ) (2024-02-27T13:44:09Z) - Evaluating the Utility of Model Explanations for Model Development [54.23538543168767]
機械学習モデル構築の実践シナリオにおいて、説明が人間の意思決定を改善するかどうかを評価する。
驚いたことに、サリエンシマップが提供されたとき、タスクが大幅に改善されたという証拠は見つからなかった。
以上の結果から,サリエンシに基づく説明における誤解の可能性と有用性について注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2023-12-10T23:13:23Z) - User Behavior Simulation with Large Language Model based Agents [116.74368915420065]
LLMベースのエージェントフレームワークを提案し,実際のユーザ動作をシミュレートするサンドボックス環境を設計する。
実験結果から,本手法のシミュレーション行動は実人の行動に非常に近いことが判明した。
論文 参考訳(メタデータ) (2023-06-05T02:58:35Z) - On the Importance of Application-Grounded Experimental Design for
Evaluating Explainable ML Methods [20.2027063607352]
本稿では,事前説明可能なML評価実験を拡張し,設定を配置設定に近づける実験を行った。
私たちの経験的研究は、以前の研究と劇的に異なる結論を導き、一見自明な実験的な設計選択が、いかに誤解を招く結果をもたらすかを浮き彫りにしています。
この研究は、任意のMLメソッドの評価をシチュレートし、意図されたデプロイメントコンテキストに合わせて適切なタスク、データ、ユーザ、メトリクスを選択する必要性についての教訓を持っていると信じています。
論文 参考訳(メタデータ) (2022-06-24T14:46:19Z) - Synthetic Data-Based Simulators for Recommender Systems: A Survey [55.60116686945561]
本調査は,モデリングとシミュレーションの分野における最近のトレンドを包括的に概観することを目的としている。
まずは、シミュレーターを実装するフレームワークの開発の背後にあるモチベーションから始めます。
我々は,既存のシミュレータの機能,近似,産業的有効性に基づいて,新しい一貫した一貫した分類を行う。
論文 参考訳(メタデータ) (2022-06-22T19:33:21Z) - Use-Case-Grounded Simulations for Explanation Evaluation [23.584251632331046]
シミュレーション評価(SimEvals)について紹介する。
SimEvalsは、人間の被験者の被験者に提示される情報の内容を入力するアルゴリズムエージェントを訓練する。
実世界の3つのユースケースについて総合的な評価を行い、Simevalsが各ユースケースにおいてどの説明方法が人間に役立つかを効果的に特定できることを実証した。
論文 参考訳(メタデータ) (2022-06-05T20:12:19Z) - Let's Go to the Alien Zoo: Introducing an Experimental Framework to
Study Usability of Counterfactual Explanations for Machine Learning [6.883906273999368]
反事実的説明(CFEs)は、心理的に根拠づけられたアプローチとして、ポストホックな説明を生み出している。
私たちは、エンゲージメントがあり、Webベースでゲームに触発された実験的なフレームワークであるAlien Zooを紹介します。
概念実証として,本手法の有効性と実用性を示す。
論文 参考訳(メタデータ) (2022-05-06T17:57:05Z) - Active Surrogate Estimators: An Active Learning Approach to
Label-Efficient Model Evaluation [59.7305309038676]
モデル評価のためのアクティブサロゲート推定器(ASE)を提案する。
ASEは現在の最先端技術よりもラベル効率が高いことが分かりました。
論文 参考訳(メタデータ) (2022-02-14T17:15:18Z) - A User's Guide to Calibrating Robotics Simulators [54.85241102329546]
本稿では,シミュレーションで学習したモデルやポリシーを現実世界に伝達することを目的とした,様々なアルゴリズムの研究のためのベンチマークとフレームワークを提案する。
我々は、様々なアルゴリズムの性能に関する洞察を特徴付け、提供するために、広く知られたシミュレーション環境の実験を行う。
我々の分析は、この分野の実践者にとって有用であり、sim-to-realアルゴリズムの動作と主特性について、より深い選択をすることができる。
論文 参考訳(メタデータ) (2020-11-17T22:24:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。