論文の概要: On the Lack of Robust Interpretability of Neural Text Classifiers
- arxiv url: http://arxiv.org/abs/2106.04631v1
- Date: Tue, 8 Jun 2021 18:31:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-10 15:28:27.717094
- Title: On the Lack of Robust Interpretability of Neural Text Classifiers
- Title(参考訳): ニューラルテキスト分類器のロバスト解釈性の欠如について
- Authors: Muhammad Bilal Zafar, Michele Donini, Dylan Slack, C\'edric
Archambeau, Sanjiv Das, Krishnaram Kenthapadi
- Abstract要約: 本研究では,事前学習したトランスフォーマーエンコーダをベースとしたニューラルテキスト分類器の解釈の堅牢性を評価する。
どちらのテストも、期待された行動から驚くほど逸脱しており、実践者が解釈から引き出す可能性のある洞察の程度について疑問を呈している。
- 参考スコア(独自算出の注目度): 14.685352584216757
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the ever-increasing complexity of neural language models, practitioners
have turned to methods for understanding the predictions of these models. One
of the most well-adopted approaches for model interpretability is feature-based
interpretability, i.e., ranking the features in terms of their impact on model
predictions. Several prior studies have focused on assessing the fidelity of
feature-based interpretability methods, i.e., measuring the impact of dropping
the top-ranked features on the model output. However, relatively little work
has been conducted on quantifying the robustness of interpretations. In this
work, we assess the robustness of interpretations of neural text classifiers,
specifically, those based on pretrained Transformer encoders, using two
randomization tests. The first compares the interpretations of two models that
are identical except for their initializations. The second measures whether the
interpretations differ between a model with trained parameters and a model with
random parameters. Both tests show surprising deviations from expected
behavior, raising questions about the extent of insights that practitioners may
draw from interpretations.
- Abstract(参考訳): ニューラルネットワークモデルの複雑さがますます高まる中、実践者はこれらのモデルの予測を理解する方法に目を向けている。
モデル解釈可能性に対する最もよく採用されているアプローチの1つは、機能ベースの解釈可能性である。
いくつかの先行研究は、特徴に基づく解釈可能性手法の忠実さ、すなわちモデル出力に対する上位特徴のドロップの影響を評価することに焦点を当てている。
しかし、解釈の頑健さを定量化するための研究は、比較的少ない。
本研究では,2つのランダム化テストを用いて,ニューラルネットワーク分類器,特に前訓練トランスエンコーダに基づく解釈のロバスト性を評価する。
第一は、初期化を除いて同一である2つのモデルの解釈を比較することである。
後者は、訓練されたパラメータを持つモデルとランダムなパラメータを持つモデルとで解釈が異なるかどうかを測定する。
どちらのテストも、期待される行動から驚くほど逸脱し、実践者が解釈から引き出す可能性のある洞察の程度について疑問を投げかける。
関連論文リスト
- Pathologies of Pre-trained Language Models in Few-shot Fine-tuning [50.3686606679048]
実例が少ない事前学習言語モデルはラベル間に強い予測バイアスを示すことを示す。
わずかな微調整で予測バイアスを軽減できるが,本分析では,非タスク関連の特徴を捉えることで,モデルの性能向上を図っている。
これらの観察は、より少ない例でモデルのパフォーマンスを追求することは、病理学的予測行動を引き起こす可能性があることを警告する。
論文 参考訳(メタデータ) (2022-04-17T15:55:18Z) - Hierarchical Interpretation of Neural Text Classification [31.95426448656938]
本稿では,Hintと呼ばれる階層型インタプリタ型ニューラルテキスト分類器を提案する。
レビューデータセットとニュースデータセットの両方の実験結果から,提案手法は既存の最先端テキスト分類器と同等のテキスト分類結果が得られることが示された。
論文 参考訳(メタデータ) (2022-02-20T11:15:03Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - Influence Tuning: Demoting Spurious Correlations via Instance
Attribution and Instance-Driven Updates [26.527311287924995]
インフルエンスチューニングは、データの急激なパターンからモデルを分解するのに役立ちます。
制御された設定では、インフルエンスチューニングは、データの急激なパターンからモデルを分解するのに役立ちます。
論文 参考訳(メタデータ) (2021-10-07T06:59:46Z) - Instance-Based Neural Dependency Parsing [56.63500180843504]
依存関係解析のための解釈可能な推論プロセスを持つニューラルモデルを開発する。
私たちのモデルはインスタンスベースの推論を採用しており、トレーニングセットのエッジと比較することで、依存関係のエッジを抽出し、ラベル付けします。
論文 参考訳(メタデータ) (2021-09-28T05:30:52Z) - The Definitions of Interpretability and Learning of Interpretable Models [42.22982369082474]
人間の解釈可能なモデルに対する数学的定義を提案する。
予測モデルが人間の認識システムによって解釈される場合、予測モデルは完全な人間解釈モデルとして定義される。
論文 参考訳(メタデータ) (2021-05-29T01:44:12Z) - A comprehensive comparative evaluation and analysis of Distributional
Semantic Models [61.41800660636555]
我々は、静的DSMによって生成されたり、BERTによって生成された文脈化されたベクトルを平均化して得られるような、型分布ベクトルの包括的評価を行う。
その結果、予測ベースモデルの優越性は現実よりも明らかであり、ユビキタスではないことが明らかとなった。
我々は認知神経科学からRepresentational similarity Analysis(RSA)の方法論を借りて、分布モデルによって生成された意味空間を検査する。
論文 参考訳(メタデータ) (2021-05-20T15:18:06Z) - Evaluating Saliency Methods for Neural Language Models [9.309351023703018]
サリエンシ法はニューラルネットワーク予測の解釈に広く用いられている。
同じモデルによって行われた同じ予測の解釈でさえ、異なるサリエンシー方法のバリエーションは一致しません。
我々は,NLPモデルの基本カテゴリであるニューラル言語モデルに基づいて,サリエンシ手法の包括的,定量的評価を行う。
論文 参考訳(メタデータ) (2021-04-12T21:19:48Z) - Understanding Neural Abstractive Summarization Models via Uncertainty [54.37665950633147]
seq2seq抽象要約モデルは、自由形式の方法でテキストを生成する。
モデルのトークンレベルの予測のエントロピー、すなわち不確実性について検討する。
要約とテキスト生成モデルをより広範囲に解析する上で,不確実性は有用であることを示す。
論文 参考訳(メタデータ) (2020-10-15T16:57:27Z) - Deducing neighborhoods of classes from a fitted model [68.8204255655161]
本稿では,新しいタイプの解釈可能な機械学習手法を提案する。
量子シフトを用いた分類モデルでは、特徴空間の予測クラスへの分割を理解するのに役立ちます。
基本的に、実際のデータポイント(または特定の関心点)を使用し、特定の特徴をわずかに引き上げたり減少させたりした後の予測の変化を観察する。
論文 参考訳(メタデータ) (2020-09-11T16:35:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。