論文の概要: Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations
- arxiv url: http://arxiv.org/abs/2112.09669v1
- Date: Fri, 17 Dec 2021 18:29:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-20 16:09:39.600642
- Title: Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations
- Title(参考訳): 説明, 編集, 理解: モデル説明評価のためのユーザ学習設計の再考
- Authors: Siddhant Arora, Danish Pruthi, Norman Sadeh, William W. Cohen, Zachary
C. Lipton, Graham Neubig
- Abstract要約: 我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
- 参考スコア(独自算出の注目度): 97.91630330328815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In attempts to "explain" predictions of machine learning models, researchers
have proposed hundreds of techniques for attributing predictions to features
that are deemed important. While these attributions are often claimed to hold
the potential to improve human "understanding" of the models, surprisingly
little work explicitly evaluates progress towards this aspiration. In this
paper, we conduct a crowdsourcing study, where participants interact with
deception detection models that have been trained to distinguish between
genuine and fake hotel reviews. They are challenged both to simulate the model
on fresh reviews, and to edit reviews with the goal of lowering the probability
of the originally predicted class. Successful manipulations would lead to an
adversarial example. During the training (but not the test) phase, input spans
are highlighted to communicate salience. Through our evaluation, we observe
that for a linear bag-of-words model, participants with access to the feature
coefficients during training are able to cause a larger reduction in model
confidence in the testing phase when compared to the no-explanation control.
For the BERT-based classifier, popular local explanations do not improve their
ability to reduce the model confidence over the no-explanation case.
Remarkably, when the explanation for the BERT model is given by the (global)
attributions of a linear model trained to imitate the BERT model, people can
effectively manipulate the model.
- Abstract(参考訳): 機械学習モデルの予測を「説明」するために、研究者は重要と思われる特徴に予測を帰属させる数百のテクニックを提案している。
これらの属性は、しばしば人間のモデルの「理解」を改善する可能性を秘めていると主張されるが、驚くべきことにこの願望に対する進歩をはっきりと評価する研究はほとんどない。
本稿では,実際のホテルレビューと偽のホテルレビューを区別するために訓練された偽装検出モデルと,参加者が相互作用するクラウドソーシング研究を行う。
彼らは、新しいレビューでモデルをシミュレートし、最初に予測されたクラスの確率を下げる目的でレビューを編集することの両方に挑戦する。
操作が成功すると、逆の例になる。
トレーニング(テストではなく)フェーズでは、サリエンスを伝えるために入力スパンが強調表示される。
評価の結果, 単語の線形化モデルでは, 学習中の特徴係数にアクセスした参加者は, 非説明制御と比較して, テストフェーズにおけるモデルの信頼性を低下させることができることがわかった。
BERTベースの分類器では、一般的な局所的な説明は、非説明の場合よりもモデルの信頼性を低下させる能力を向上しない。
興味深いことに、BERTモデルの説明が、BERTモデルを模倣するために訓練された線形モデルの(グローバルな)属性によって与えられる場合、モデルは効果的に操作できる。
関連論文リスト
- Counterfactuals As a Means for Evaluating Faithfulness of Attribution Methods in Autoregressive Language Models [6.394084132117747]
本稿では,自己回帰型言語モデルに対する帰属手法の忠実度を評価するために,反事実生成を利用する手法を提案する。
提案手法は, 流動性, 分散性, 分散性, 分散性, 評価プロトコルの信頼性を向上する。
論文 参考訳(メタデータ) (2024-08-21T00:17:59Z) - Fantastic Gains and Where to Find Them: On the Existence and Prospect of
General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。
このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-10-26T17:59:46Z) - Guide the Learner: Controlling Product of Experts Debiasing Method Based
on Token Attribution Similarities [17.082695183953486]
一般的な回避策は、二次バイアスモデルに基づいてトレーニング例を再重み付けすることで、堅牢なモデルをトレーニングすることである。
ここでは、バイアスドモデルが機能をショートカットする、という前提がある。
本稿では,主要モデルと偏りのあるモデル属性スコアの類似性を,プロダクト・オブ・エキスパートズ・ロス関数に組み込んだ微調整戦略を提案する。
論文 参考訳(メタデータ) (2023-02-06T15:21:41Z) - VCNet: A self-explaining model for realistic counterfactual generation [52.77024349608834]
事実的説明は、機械学習の決定を局所的に説明するための手法のクラスである。
本稿では,予測器と対実生成器を組み合わせたモデルアーキテクチャであるVCNet-Variational Counter Netを提案する。
我々はVCNetが予測を生成でき、また、別の最小化問題を解くことなく、反現実的な説明を生成できることを示した。
論文 参考訳(メタデータ) (2022-12-21T08:45:32Z) - Beyond Trivial Counterfactual Explanations with Diverse Valuable
Explanations [64.85696493596821]
コンピュータビジョンの応用において、生成的対実法はモデルの入力を摂動させて予測を変更する方法を示す。
本稿では,多様性強化損失を用いて制約される不連続潜在空間における摂動を学習する反事実法を提案する。
このモデルは, 従来の最先端手法と比較して, 高品質な説明を生産する成功率を向上させる。
論文 参考訳(メタデータ) (2021-03-18T12:57:34Z) - Better sampling in explanation methods can prevent dieselgate-like
deception [0.0]
予測モデルの解釈性は、それらのバイアスとエラーの原因を決定するために必要である。
IME、LIME、SHAPなどの一般的なテクニックでは、インスタンス機能の摂動を使用して個々の予測を説明します。
改良されたサンプリングによりLIMEとSHAPのロバスト性が向上し,以前に未試験のメソッドIMEがすでに最もロバストであることが示されている。
論文 参考訳(メタデータ) (2021-01-26T13:41:37Z) - Explaining and Improving Model Behavior with k Nearest Neighbor
Representations [107.24850861390196]
モデルの予測に責任のあるトレーニング例を特定するために, k 近傍表現を提案する。
我々は,kNN表現が学習した素因関係を明らかにするのに有効であることを示す。
以上の結果から,kNN手法により,直交モデルが逆入力に対してより堅牢であることが示唆された。
論文 参考訳(メタデータ) (2020-10-18T16:55:25Z) - Pair the Dots: Jointly Examining Training History and Test Stimuli for
Model Interpretability [44.60486560836836]
モデルからの予測は、学習履歴とテスト刺激の組み合わせによって行われる。
モデルの予測を解釈する既存の方法は、テスト刺激または学習履歴の1つの側面しかキャプチャできない。
本研究では,学習履歴とテスト刺激を共同で調べることで,モデルの予測を解釈しやすくするための,効率的かつ異なるアプローチを提案する。
論文 参考訳(メタデータ) (2020-10-14T10:45:01Z) - Understanding Classifier Mistakes with Generative Models [88.20470690631372]
ディープニューラルネットワークは教師付き学習タスクに有効であるが、脆弱であることが示されている。
本稿では、生成モデルを利用して、分類器が一般化に失敗するインスタンスを特定し、特徴付ける。
我々のアプローチは、トレーニングセットのクラスラベルに依存しないため、半教師付きでトレーニングされたモデルに適用できる。
論文 参考訳(メタデータ) (2020-10-05T22:13:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。