論文の概要: Are Interpretations Fairly Evaluated? A Definition Driven Pipeline for
Post-Hoc Interpretability
- arxiv url: http://arxiv.org/abs/2009.07494v1
- Date: Wed, 16 Sep 2020 06:38:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 23:01:19.902668
- Title: Are Interpretations Fairly Evaluated? A Definition Driven Pipeline for
Post-Hoc Interpretability
- Title(参考訳): 解釈は公平に評価されているか?
ポストホック解釈のための定義駆動パイプライン
- Authors: Ninghao Liu, Yunsong Meng, Xia Hu, Tie Wang, Bo Long
- Abstract要約: 我々は,解釈の忠実性を評価する前に,解釈を明確に定義することを提案する。
解釈手法は,ある評価基準の下で異なる性能を示すが,その差は解釈の品質や忠実さから生じるものではない。
- 参考スコア(独自算出の注目度): 54.85658598523915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent years have witnessed an increasing number of interpretation methods
being developed for improving transparency of NLP models. Meanwhile,
researchers also try to answer the question that whether the obtained
interpretation is faithful in explaining mechanisms behind model prediction?
Specifically, (Jain and Wallace, 2019) proposes that "attention is not
explanation" by comparing attention interpretation with gradient alternatives.
However, it raises a new question that can we safely pick one interpretation
method as the ground-truth? If not, on what basis can we compare different
interpretation methods? In this work, we propose that it is crucial to have a
concrete definition of interpretation before we could evaluate faithfulness of
an interpretation. The definition will affect both the algorithm to obtain
interpretation and, more importantly, the metric used in evaluation. Through
both theoretical and experimental analysis, we find that although
interpretation methods perform differently under a certain evaluation metric,
such a difference may not result from interpretation quality or faithfulness,
but rather the inherent bias of the evaluation metric.
- Abstract(参考訳): 近年,NLPモデルの透明性向上のために,解釈手法の開発が進んでいる。
一方、研究者たちは、得られた解釈がモデル予測の背後にあるメカニズムの説明に忠実かどうかという疑問にも答えようとしている。
特に (Jain and Wallace, 2019) では、注意の解釈と勾配の代替品を比較して「注意は説明できない」と提案している。
しかし、新たな疑問が浮かび上がっており、1つの解釈法を土台として安全に選択できるだろうか?
もしそうでなければ、異なる解釈法を比較することができるだろうか?
本研究では,解釈の忠実性を評価するためには,解釈の具体的定義が不可欠であることを示す。
この定義は、解釈を得るためにアルゴリズムと、さらに重要なことに、評価に使用されるメトリクスの両方に影響する。
理論的および実験的な分析により、解釈法は特定の評価基準の下で異なる性能を示すが、そのような差は解釈の質や忠実さによって生じるものではなく、むしろ評価基準の固有のバイアスによって生じる。
関連論文リスト
- Counterfactuals of Counterfactuals: a back-translation-inspired approach
to analyse counterfactual editors [3.4253416336476246]
我々は、反事実的、対照的な説明の分析に焦点をあてる。
本稿では,新しい逆翻訳に基づく評価手法を提案する。
本研究では, 予測モデルと説明モデルの両方の振る舞いについて, 反事実を反復的に説明者に与えることで, 価値ある洞察を得ることができることを示す。
論文 参考訳(メタデータ) (2023-05-26T16:04:28Z) - Human Interpretation of Saliency-based Explanation Over Text [65.29015910991261]
テキストデータ上でのサリエンシに基づく説明について検討する。
人はしばしば説明を誤って解釈する。
本稿では,過度知覚と過小認識のモデル推定に基づいて,サリエンシを調整する手法を提案する。
論文 参考訳(メタデータ) (2022-01-27T15:20:32Z) - Counterfactual Evaluation for Explainable AI [21.055319253405603]
そこで本稿では, 文献的推論の観点から, 説明の忠実さを評価する新しい手法を提案する。
離散シナリオと連続シナリオの両方において適切な反事実を見つけるために2つのアルゴリズムを導入し、取得した反事実を用いて忠実度を測定する。
論文 参考訳(メタデータ) (2021-09-05T01:38:49Z) - On the Faithfulness Measurements for Model Interpretations [100.2730234575114]
ポストホックな解釈は、自然言語処理(NLP)モデルがどのように予測を行うかを明らかにすることを目的とする。
これらの問題に取り組むために,我々は,削除基準,解釈の感度,解釈の安定性という3つの基準から始める。
これらの忠実性概念のデシデラタムに動機づけられ、敵対的領域からのテクニックを採用する新しい解釈方法のクラスを導入する。
論文 参考訳(メタデータ) (2021-04-18T09:19:44Z) - Where and What? Examining Interpretable Disentangled Representations [96.32813624341833]
解釈可能なバリエーションの獲得は、長い間、絡み合い学習の目標の1つだった。
独立性の仮定と異なり、解釈性は教師なしの設定での絡み合いを促進するために使われることは滅多にない。
本論文では, 解釈対象と解釈対象の2つの質問について検討し, 離散表現の解釈可能性を検討する。
論文 参考訳(メタデータ) (2021-04-07T11:22:02Z) - Interpretable Deep Learning: Interpretations, Interpretability,
Trustworthiness, and Beyond [49.93153180169685]
一般に混同される2つの基本的な概念(解釈と解釈可能性)を紹介・明らかにする。
我々は,新しい分類法を提案することにより,異なる視点から,最近のいくつかの解釈アルゴリズムの設計を詳細に述べる。
信頼される」解釈アルゴリズムを用いてモデルの解釈可能性を評価する上での既存の作業をまとめる。
論文 参考訳(メタデータ) (2021-03-19T08:40:30Z) - Enforcing Interpretability and its Statistical Impacts: Trade-offs
between Accuracy and Interpretability [30.501012698482423]
機械学習における解釈可能性の統計的コストに関する公式な研究は行われていない。
我々は、解釈可能な仮説の集合に対して経験的リスク最小化を行う行為として、解釈可能性を促進する行為をモデル化する。
我々は,解釈可能な分類器に対する制限が,過度な統計リスクの犠牲になる場合,正確性と解釈可能性の間のトレードオフを観察できるかどうかを事例分析により説明する。
論文 参考訳(メタデータ) (2020-10-26T17:52:34Z) - Towards Faithfully Interpretable NLP Systems: How should we define and
evaluate faithfulness? [58.13152510843004]
ディープラーニングベースのNLPモデルの普及に伴い、解釈可能なシステムの必要性が高まっている。
解釈可能性とは何か、そして高品質な解釈を構成するものは何か?
我々は、解釈が満たすべき異なる望ましい基準をより明確に区別し、忠実度基準に焦点を合わせることを求めている。
論文 参考訳(メタデータ) (2020-04-07T20:15:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。