論文の概要: On the Importance of Application-Grounded Experimental Design for
Evaluating Explainable ML Methods
- arxiv url: http://arxiv.org/abs/2206.13503v2
- Date: Tue, 28 Jun 2022 13:40:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-29 12:10:16.202692
- Title: On the Importance of Application-Grounded Experimental Design for
Evaluating Explainable ML Methods
- Title(参考訳): 説明可能なML手法評価のためのアプリケーショングラウンド実験設計の重要性について
- Authors: Kasun Amarasinghe, Kit T. Rodolfa, S\'ergio Jesus, Valerie Chen,
Vladimir Balayan, Pedro Saleiro, Pedro Bizarro, Ameet Talwalkar, Rayid Ghani
- Abstract要約: 本稿では,事前説明可能なML評価実験を拡張し,設定を配置設定に近づける実験を行った。
私たちの経験的研究は、以前の研究と劇的に異なる結論を導き、一見自明な実験的な設計選択が、いかに誤解を招く結果をもたらすかを浮き彫りにしています。
この研究は、任意のMLメソッドの評価をシチュレートし、意図されたデプロイメントコンテキストに合わせて適切なタスク、データ、ユーザ、メトリクスを選択する必要性についての教訓を持っていると信じています。
- 参考スコア(独自算出の注目度): 20.2027063607352
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine Learning (ML) models now inform a wide range of human decisions, but
using ``black box'' models carries risks such as relying on spurious
correlations or errant data. To address this, researchers have proposed methods
for supplementing models with explanations of their predictions. However,
robust evaluations of these methods' usefulness in real-world contexts have
remained elusive, with experiments tending to rely on simplified settings or
proxy tasks. We present an experimental study extending a prior explainable ML
evaluation experiment and bringing the setup closer to the deployment setting
by relaxing its simplifying assumptions. Our empirical study draws dramatically
different conclusions than the prior work, highlighting how seemingly trivial
experimental design choices can yield misleading results. Beyond the present
experiment, we believe this work holds lessons about the necessity of situating
the evaluation of any ML method and choosing appropriate tasks, data, users,
and metrics to match the intended deployment contexts.
- Abstract(参考訳): 機械学習(ML)モデルは現在、幅広い人間の決定を通知しているが、'black box'モデルを使用すると、素早い相関や不確実なデータに依存するリスクが生じる。
これに対処するために、研究者はモデルに予測を説明する方法を提案している。
しかし、これらの手法の現実の文脈における有用性に対する堅牢な評価は、単純化された設定やプロキシタスクに依存する傾向にある。
本稿では,事前の説明可能なML評価実験を拡張し,単純化された仮定を緩和することにより,設定を配置設定に近づける実験を行った。
私たちの経験的研究は、以前の研究と劇的に異なる結論を導き、一見自明な実験的な設計選択が、いかに誤解を招く結果をもたらすかを強調します。
今回の実験以外にも,本研究は,任意のmlメソッドの評価と,対象とするデプロイコンテキストに適合する適切なタスク,データ,ユーザ,メトリクスの選択の必要性に関する教訓を持っている。
関連論文リスト
- Using LLMs for Explaining Sets of Counterfactual Examples to Final Users [0.0]
自動意思決定シナリオでは、因果推論手法は基礎となるデータ生成プロセスを分析することができる。
カウンターファクトな例では、最小限の要素が変更される仮説的なシナリオを探求する。
本稿では,アクションの自然言語説明を生成するために,反事実を用いた新しい多段階パイプラインを提案する。
論文 参考訳(メタデータ) (2024-08-27T15:13:06Z) - Simulating Field Experiments with Large Language Models [0.6144680854063939]
本稿では,大規模言語モデル(LLM)のフィールド実験への応用を先導する。
観測者モードと参加者モードという2つの新しいプロンプト戦略を導入することで、複雑なフィールド設定において、結果の予測と参加者応答の再現の両方を行うLLMの能力を実証する。
以上の結果から,特定のシナリオにおいて実際の実験結果と良好な一致を示し,観察モードでは66%の刺激精度が得られた。
論文 参考訳(メタデータ) (2024-08-19T03:41:43Z) - C-ICL: Contrastive In-context Learning for Information Extraction [54.39470114243744]
c-ICLは、正しいサンプル構築と間違ったサンプル構築の両方を活用して、コンテキスト内学習のデモを作成する、新しい数ショット技術である。
各種データセットに対する実験により,c-ICLは従来の数発のインコンテキスト学習法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-02-17T11:28:08Z) - Querying Easily Flip-flopped Samples for Deep Active Learning [63.62397322172216]
アクティブラーニング(英: Active Learning)は、ラベルのないデータを戦略的に選択してクエリすることで、モデルの性能を向上させることを目的とした機械学習パラダイムである。
効果的な選択戦略の1つはモデルの予測の不確実性に基づくもので、サンプルがどの程度情報的であるかの尺度として解釈できる。
本稿では,予測されたラベルの不一致の最小確率として,最小不一致距離(LDM)を提案する。
論文 参考訳(メタデータ) (2024-01-18T08:12:23Z) - Adaptive Instrument Design for Indirect Experiments [48.815194906471405]
RCTとは異なり、間接的な実験は条件付き機器変数を利用して治療効果を推定する。
本稿では,データ収集ポリシーを適応的に設計することで,間接実験におけるサンプル効率の向上に向けた最初のステップについて述べる。
我々の主な貢献は、影響関数を利用して最適なデータ収集ポリシーを探索する実用的な計算手順である。
論文 参考訳(メタデータ) (2023-12-05T02:38:04Z) - A Double Machine Learning Approach to Combining Experimental and Observational Data [59.29868677652324]
実験と観測を組み合わせた二重機械学習手法を提案する。
我々の枠組みは、より軽度の仮定の下で、外部の妥当性と無知の違反を検査する。
論文 参考訳(メタデータ) (2023-07-04T02:53:11Z) - Intervention Generalization: A View from Factor Graph Models [7.117681268784223]
操作されたシステムの分布の因子化に関する最小限の仮定に基づいて、過去の実験から新しい条件への飛躍をいかに保証するかを詳しく検討する。
仮定された$textitinterventional Factor Model$ (IFM) は必ずしも情報であるとは限らないが、不測のコンバウンディングとフィードバックのメカニズムを明示的にモデル化する必要性を便利に抽象化する。
論文 参考訳(メタデータ) (2023-06-06T21:44:23Z) - Leaving the Nest: Going Beyond Local Loss Functions for
Predict-Then-Optimize [57.22851616806617]
本手法は,文献から得られた4つの領域において,最先端の成果が得られることを示す。
提案手法は, 局所性仮定が破られた場合, 既存手法よりも200%近く性能が向上する。
論文 参考訳(メタデータ) (2023-05-26T11:17:45Z) - Bayesian Optimal Experimental Design for Simulator Models of Cognition [14.059933880568908]
BOEDの最近の進歩と、難解モデルに対する近似推論を組み合わせ、最適な実験設計を求める。
マルチアームバンディットタスクのシミュレーション実験により,モデル判別とパラメータ推定の改善が得られた。
論文 参考訳(メタデータ) (2021-10-29T09:04:01Z) - Predicting Performance for Natural Language Processing Tasks [128.34208911925424]
実験条件を入力として,NLP実験の評価スコアを予測する回帰モデルを構築した。
9つの異なるNLPタスクを実験した結果、予測器は目に見えない言語や異なるモデリングアーキテクチャに対して有意義な予測を生成できることがわかった。
論文 参考訳(メタデータ) (2020-05-02T16:02:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。