論文の概要: Explaining NLP Models via Minimal Contrastive Editing (MiCE)
- arxiv url: http://arxiv.org/abs/2012.13985v1
- Date: Sun, 27 Dec 2020 18:06:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-24 20:53:43.683130
- Title: Explaining NLP Models via Minimal Contrastive Editing (MiCE)
- Title(参考訳): 最小コントラスト編集(MiCE)によるNLPモデルの記述
- Authors: Alexis Ross, Ana Marasovi\'c, Matthew E. Peters
- Abstract要約: モデル予測の対照的な説明を生成する手法であるMinimmal Contrastive Editing (MiCE)を提案する。
MiCEは、コントラスト的なだけでなく、最小限で流動的で、人間のコントラスト的な編集と整合した編集を生成する。
- 参考スコア(独自算出の注目度): 9.466291927481342
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans give contrastive explanations that explain why an observed event
happened rather than some other counterfactual event (the contrast case).
Despite the important role that contrastivity plays in how people generate and
evaluate explanations, this property is largely missing from current methods
for explaining NLP models. We present Minimal Contrastive Editing (MiCE), a
method for generating contrastive explanations of model predictions in the form
of edits to inputs that change model outputs to the contrast case. Our
experiments across three tasks -- binary sentiment classification, topic
classification, and multiple-choice question answering -- show that MiCE is
able to produce edits that are not only contrastive, but also minimal and
fluent, consistent with human contrastive edits. We demonstrate how MiCE edits
can be used for two use cases in NLP system development -- uncovering dataset
artifacts and debugging incorrect model predictions -- and thereby illustrate
that generating contrastive explanations is a promising research direction for
model interpretability.
- Abstract(参考訳): 人間は、観察された出来事が、他のカウンターファクトイベント(コントラストケース)よりもむしろ起こった理由を説明する対照的な説明をする。
コントラシティーは人々が説明を生成・評価する上で重要な役割を担っているが、この性質はNLPモデルを説明するための現在の手法にはほとんど欠落している。
本研究では,モデルをコントラストケースに出力する入力に対して,モデル予測のコントラスト的説明を編集形式で生成する手法であるminimum contrastive editing (mice)を提案する。
バイナリ感情分類、トピック分類、複数選択質問応答という3つのタスクにわたる実験は、MiCEがコントラストのあるだけでなく、最小限の、人間のコントラストのある編集と整合した編集を生成することができることを示している。
NLPシステム開発における2つのユースケース -- データセットのアーティファクトの発見と誤ったモデル予測のデバッグ -- にMiCE編集をどのように使用できるかを示し、対照的な説明を生成することがモデル解釈可能性のための有望な研究方向であることを示す。
関連論文リスト
- AIDE: Antithetical, Intent-based, and Diverse Example-Based Explanations [3.748789746936121]
AIDEは意図に基づく、不透明で複雑なモデルに対する多様な説明を提供するためのアプローチである。
AIDEは、正しい解釈、間違った調査、曖昧な予測の3つのタイプを区別する。
論文 参考訳(メタデータ) (2024-07-22T19:33:12Z) - Explaining Text Similarity in Transformer Models [52.571158418102584]
説明可能なAIの最近の進歩により、トランスフォーマーの説明の改善を活用することで、制限を緩和できるようになった。
両線形類似性モデルにおける2次説明の計算のために開発された拡張であるBiLRPを用いて、NLPモデルにおいてどの特徴相互作用が類似性を促進するかを調べる。
我々の発見は、異なる意味的類似性タスクやモデルに対するより深い理解に寄与し、新しい説明可能なAIメソッドが、どのようにして深い分析とコーパスレベルの洞察を可能にするかを強調した。
論文 参考訳(メタデータ) (2024-05-10T17:11:31Z) - Faithfulness Tests for Natural Language Explanations [87.01093277918599]
ニューラルモデルの説明は、その予測のためのモデルの意思決定プロセスを明らかにすることを目的としている。
近年の研究では,サリエンシマップやファクトファクトファクトダクトなどの説明を行う手法が誤解を招く可能性があることが示されている。
本研究は,自然言語の説明の忠実さを評価する上での課題について考察する。
論文 参考訳(メタデータ) (2023-05-29T11:40:37Z) - Counterfactuals of Counterfactuals: a back-translation-inspired approach
to analyse counterfactual editors [3.4253416336476246]
我々は、反事実的、対照的な説明の分析に焦点をあてる。
本稿では,新しい逆翻訳に基づく評価手法を提案する。
本研究では, 予測モデルと説明モデルの両方の振る舞いについて, 反事実を反復的に説明者に与えることで, 価値ある洞察を得ることができることを示す。
論文 参考訳(メタデータ) (2023-05-26T16:04:28Z) - The Unreliability of Explanations in Few-Shot In-Context Learning [50.77996380021221]
我々は、テキスト上の推論、すなわち質問応答と自然言語推論を含む2つのNLPタスクに焦点を当てる。
入力と論理的に整合した説明は、通常より正確な予測を示す。
本稿では,説明の信頼性に基づいてモデル予測を校正する枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-06T17:57:58Z) - Influence Tuning: Demoting Spurious Correlations via Instance
Attribution and Instance-Driven Updates [26.527311287924995]
インフルエンスチューニングは、データの急激なパターンからモデルを分解するのに役立ちます。
制御された設定では、インフルエンスチューニングは、データの急激なパターンからモデルを分解するのに役立ちます。
論文 参考訳(メタデータ) (2021-10-07T06:59:46Z) - Beyond Trivial Counterfactual Explanations with Diverse Valuable
Explanations [64.85696493596821]
コンピュータビジョンの応用において、生成的対実法はモデルの入力を摂動させて予測を変更する方法を示す。
本稿では,多様性強化損失を用いて制約される不連続潜在空間における摂動を学習する反事実法を提案する。
このモデルは, 従来の最先端手法と比較して, 高品質な説明を生産する成功率を向上させる。
論文 参考訳(メタデータ) (2021-03-18T12:57:34Z) - Contrastive Explanations for Model Interpretability [77.92370750072831]
分類モデルの対照的説明を生成する手法を提案する。
本手法は潜在空間へのモデル表現の投影に基づいている。
本研究は,モデル決定のより正確できめ細かな解釈性を提供するためのラベルコントラスト的説明の能力に光を当てた。
論文 参考訳(メタデータ) (2021-03-02T00:36:45Z) - Leakage-Adjusted Simulatability: Can Models Generate Non-Trivial
Explanations of Their Behavior in Natural Language? [86.60613602337246]
我々はNL説明を評価するためのリーク調整シミュラビリティ(LAS)指標を提案する。
LASは、どのように説明が直接アウトプットをリークするかを制御しながら、オブザーバがモデルのアウトプットを予測するのに役立つかを計測する。
マルチエージェントゲームとしての説明文生成を行い、ラベルリークをペナライズしながら、シミュラビリティの説明を最適化する。
論文 参考訳(メタデータ) (2020-10-08T16:59:07Z) - A Modified Perturbed Sampling Method for Local Interpretable
Model-agnostic Explanation [35.281127405430674]
LIME(Local Interpretable Model-Agnostic Explanation)は、任意の分類器の予測を忠実に説明する手法である。
本稿では,LIME (MPS-LIME) のための改良型摂動サンプリング操作を提案する。
画像分類において、MPS-LIMEはスーパーピクセル画像を非方向グラフに変換する。
論文 参考訳(メタデータ) (2020-02-18T09:03:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。