論文の概要: On the Importance of Application-Grounded Experimental Design for
Evaluating Explainable ML Methods
- arxiv url: http://arxiv.org/abs/2206.13503v2
- Date: Tue, 28 Jun 2022 13:40:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-29 12:10:16.202692
- Title: On the Importance of Application-Grounded Experimental Design for
Evaluating Explainable ML Methods
- Title(参考訳): 説明可能なML手法評価のためのアプリケーショングラウンド実験設計の重要性について
- Authors: Kasun Amarasinghe, Kit T. Rodolfa, S\'ergio Jesus, Valerie Chen,
Vladimir Balayan, Pedro Saleiro, Pedro Bizarro, Ameet Talwalkar, Rayid Ghani
- Abstract要約: 本稿では,事前説明可能なML評価実験を拡張し,設定を配置設定に近づける実験を行った。
私たちの経験的研究は、以前の研究と劇的に異なる結論を導き、一見自明な実験的な設計選択が、いかに誤解を招く結果をもたらすかを浮き彫りにしています。
この研究は、任意のMLメソッドの評価をシチュレートし、意図されたデプロイメントコンテキストに合わせて適切なタスク、データ、ユーザ、メトリクスを選択する必要性についての教訓を持っていると信じています。
- 参考スコア(独自算出の注目度): 20.2027063607352
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine Learning (ML) models now inform a wide range of human decisions, but
using ``black box'' models carries risks such as relying on spurious
correlations or errant data. To address this, researchers have proposed methods
for supplementing models with explanations of their predictions. However,
robust evaluations of these methods' usefulness in real-world contexts have
remained elusive, with experiments tending to rely on simplified settings or
proxy tasks. We present an experimental study extending a prior explainable ML
evaluation experiment and bringing the setup closer to the deployment setting
by relaxing its simplifying assumptions. Our empirical study draws dramatically
different conclusions than the prior work, highlighting how seemingly trivial
experimental design choices can yield misleading results. Beyond the present
experiment, we believe this work holds lessons about the necessity of situating
the evaluation of any ML method and choosing appropriate tasks, data, users,
and metrics to match the intended deployment contexts.
- Abstract(参考訳): 機械学習(ML)モデルは現在、幅広い人間の決定を通知しているが、'black box'モデルを使用すると、素早い相関や不確実なデータに依存するリスクが生じる。
これに対処するために、研究者はモデルに予測を説明する方法を提案している。
しかし、これらの手法の現実の文脈における有用性に対する堅牢な評価は、単純化された設定やプロキシタスクに依存する傾向にある。
本稿では,事前の説明可能なML評価実験を拡張し,単純化された仮定を緩和することにより,設定を配置設定に近づける実験を行った。
私たちの経験的研究は、以前の研究と劇的に異なる結論を導き、一見自明な実験的な設計選択が、いかに誤解を招く結果をもたらすかを強調します。
今回の実験以外にも,本研究は,任意のmlメソッドの評価と,対象とするデプロイコンテキストに適合する適切なタスク,データ,ユーザ,メトリクスの選択の必要性に関する教訓を持っている。
関連論文リスト
- Querying Easily Flip-flopped Samples for Deep Active Learning [63.62397322172216]
アクティブラーニング(英: Active Learning)は、ラベルのないデータを戦略的に選択してクエリすることで、モデルの性能を向上させることを目的とした機械学習パラダイムである。
効果的な選択戦略の1つはモデルの予測の不確実性に基づくもので、サンプルがどの程度情報的であるかの尺度として解釈できる。
本稿では,予測されたラベルの不一致の最小確率として,最小不一致距離(LDM)を提案する。
論文 参考訳(メタデータ) (2024-01-18T08:12:23Z) - An Experimental Design Framework for Label-Efficient Supervised
Finetuning of Large Language Models [56.494109292472835]
命令データセットの監視された微調整は、目覚ましいゼロショットの一般化能力を達成する上で重要な役割を担っている。
アクティブラーニングは、未ラベルのプールからアノテートするサンプルの有用なサブセットを特定するのに効果的である。
本研究では,能動学習の計算ボトルネックを回避するための実験設計を提案する。
論文 参考訳(メタデータ) (2024-01-12T16:56:54Z) - Adaptive Instrument Design for Indirect Experiments [48.815194906471405]
RCTとは異なり、間接的な実験は条件付き機器変数を利用して治療効果を推定する。
本稿では,データ収集ポリシーを適応的に設計することで,間接実験におけるサンプル効率の向上に向けた最初のステップについて述べる。
我々の主な貢献は、影響関数を利用して最適なデータ収集ポリシーを探索する実用的な計算手順である。
論文 参考訳(メタデータ) (2023-12-05T02:38:04Z) - Intervention Generalization: A View from Factor Graph Models [7.117681268784223]
操作されたシステムの分布の因子化に関する最小限の仮定に基づいて、過去の実験から新しい条件への飛躍をいかに保証するかを詳しく検討する。
仮定された$textitinterventional Factor Model$ (IFM) は必ずしも情報であるとは限らないが、不測のコンバウンディングとフィードバックのメカニズムを明示的にモデル化する必要性を便利に抽象化する。
論文 参考訳(メタデータ) (2023-06-06T21:44:23Z) - Leaving the Nest: Going Beyond Local Loss Functions for
Predict-Then-Optimize [57.22851616806617]
本手法は,文献から得られた4つの領域において,最先端の成果が得られることを示す。
提案手法は, 局所性仮定が破られた場合, 既存手法よりも200%近く性能が向上する。
論文 参考訳(メタデータ) (2023-05-26T11:17:45Z) - Online simulator-based experimental design for cognitive model selection [74.76661199843284]
本稿では,抽出可能な確率を伴わない計算モデルを選択する実験設計手法BOSMOSを提案する。
シミュレーション実験では,提案手法により,既存のLFI手法に比べて最大2桁の精度でモデルを選択することができることを示した。
論文 参考訳(メタデータ) (2023-03-03T21:41:01Z) - Efficient Real-world Testing of Causal Decision Making via Bayesian
Experimental Design for Contextual Optimisation [12.37745209793872]
文脈的意思決定の評価と改善のためのデータ収集のためのモデルに依存しないフレームワークを提案する。
過去の治療課題の後悔をデータ効率で評価するために,本手法を用いた。
論文 参考訳(メタデータ) (2022-07-12T01:20:11Z) - Bayesian Optimal Experimental Design for Simulator Models of Cognition [14.059933880568908]
BOEDの最近の進歩と、難解モデルに対する近似推論を組み合わせ、最適な実験設計を求める。
マルチアームバンディットタスクのシミュレーション実験により,モデル判別とパラメータ推定の改善が得られた。
論文 参考訳(メタデータ) (2021-10-29T09:04:01Z) - Robust multi-stage model-based design of optimal experiments for
nonlinear estimation [0.0]
本研究では,モデルに基づく実験の高次設計へのアプローチについて検討する。
マルチステージロバスト最適化に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2020-11-11T19:50:31Z) - Predicting Performance for Natural Language Processing Tasks [128.34208911925424]
実験条件を入力として,NLP実験の評価スコアを予測する回帰モデルを構築した。
9つの異なるNLPタスクを実験した結果、予測器は目に見えない言語や異なるモデリングアーキテクチャに対して有意義な予測を生成できることがわかった。
論文 参考訳(メタデータ) (2020-05-02T16:02:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。