論文の概要: Faithful to Whom? Questioning Interpretability Measures in NLP
- arxiv url: http://arxiv.org/abs/2308.06795v1
- Date: Sun, 13 Aug 2023 15:44:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-15 15:15:30.564492
- Title: Faithful to Whom? Questioning Interpretability Measures in NLP
- Title(参考訳): 誰に忠実か?
NLPの解釈可能性に関する質問
- Authors: Evan Crothers, Herna Viktor, Nathalie Japkowicz
- Abstract要約: 入力トークンの繰り返しマスキングに基づくメトリクスは、異なるニューラルテキスト分類器の解釈可能性を比較するには適していないことを示す。
本研究は,敵対的攻撃と敵対的訓練が忠実度スコアに及ぼす影響について検討し,テキスト敵対的攻撃における特徴的サリエンスの分析における忠実度尺度の妥当性を実証する。
- 参考スコア(独自算出の注目度): 5.759254425843609
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A common approach to quantifying model interpretability is to calculate
faithfulness metrics based on iteratively masking input tokens and measuring
how much the predicted label changes as a result. However, we show that such
metrics are generally not suitable for comparing the interpretability of
different neural text classifiers as the response to masked inputs is highly
model-specific. We demonstrate that iterative masking can produce large
variation in faithfulness scores between comparable models, and show that
masked samples are frequently outside the distribution seen during training. We
further investigate the impact of adversarial attacks and adversarial training
on faithfulness scores, and demonstrate the relevance of faithfulness measures
for analyzing feature salience in text adversarial attacks. Our findings
provide new insights into the limitations of current faithfulness metrics and
key considerations to utilize them appropriately.
- Abstract(参考訳): モデル解釈可能性の定量化の一般的なアプローチは、入力トークンを反復的にマスキングし、結果として予測されたラベルがどの程度変化するかを測定することである。
しかし,これらの指標は,マスキング入力に対する応答が高度にモデル固有であるため,異なるニューラルネットワーク分類器の解釈可能性を比較するのにはあまり適さないことを示す。
繰り返しマスキングは,同等のモデル間での忠実度スコアに大きな変動を生じさせ,マスキングされたサンプルがトレーニング中に見られる分布の外側で頻繁に見られることを示す。
さらに, 対人攻撃と対人訓練が忠実度スコアに与える影響について検討し, テキスト対人攻撃における特徴評価のための忠実度尺度の妥当性を実証する。
その結果,現在の忠実度指標の限界に対する新たな洞察と,それらを適切に活用するための重要な考察が得られた。
関連論文リスト
- Learning Robust Classifiers with Self-Guided Spurious Correlation Mitigation [26.544938760265136]
ディープニューラル分類器は、入力のスプリアス属性とターゲットの間のスプリアス相関に頼り、予測を行う。
本稿では,自己誘導型スプリアス相関緩和フレームワークを提案する。
予測行動の違いを識別するために分類器の訓練を行うことで,事前知識を必要とせず,素因関係への依存を軽減できることを示す。
論文 参考訳(メタデータ) (2024-05-06T17:12:21Z) - Regressor-Segmenter Mutual Prompt Learning for Crowd Counting [70.49246560246736]
本稿では,アノテーションの差によるバイアスや不正確性を解決するために,相互学習(mPrompt)を提案する。
実験により、mPromptは平均誤差(MAE)を著しく減少させることが示された。
論文 参考訳(メタデータ) (2023-12-04T07:53:59Z) - How adversarial attacks can disrupt seemingly stable accurate classifiers [76.95145661711514]
敵攻撃は、入力データに不連続な修正を加えることで、非正確な学習システムの出力を劇的に変化させる。
ここでは,これは高次元入力データを扱う分類器の基本的特徴であると考えられる。
実用システムで観測される重要な振る舞いを高い確率で発生させる、単純で汎用的なフレームワークを導入する。
論文 参考訳(メタデータ) (2023-09-07T12:02:00Z) - Variational Classification [51.2541371924591]
我々は,変分オートエンコーダの訓練に用いるエビデンスローバウンド(ELBO)に類似した,モデルの訓練を目的とした変分目的を導出する。
軟質マックス層への入力を潜伏変数のサンプルとして扱うことで, 抽象化された視点から, 潜在的な矛盾が明らかとなった。
我々は、標準ソフトマックス層に見られる暗黙の仮定の代わりに、選択された潜在分布を誘導する。
論文 参考訳(メタデータ) (2023-05-17T17:47:19Z) - Explaining Image Classifiers Using Contrastive Counterfactuals in
Generative Latent Spaces [12.514483749037998]
本稿では,画像分類器の因果的かつ解釈可能な反事実的説明を生成する新しい手法を提案する。
我々は、ブラックボックス分類器のグローバルな説明として、コントラスト的かつ因果的満足度と必要性スコアを得るために、このフレームワークを使用します。
論文 参考訳(メタデータ) (2022-06-10T17:54:46Z) - On the rate of convergence of a classifier based on a Transformer
encoder [55.41148606254641]
最適誤分類確率に対する分類器の誤分類確率の収束率を分析する。
この分類器は,アポテリオリ確率が適切な階層的構成モデルを満たす場合,次元性の呪いを回避することができる。
論文 参考訳(メタデータ) (2021-11-29T14:58:29Z) - Disentangling Representations of Text by Masking Transformers [27.6903196190087]
トランスウェイトや隠れたユニット上のバイナリマスクを学習し、特定の変動要因と相関する特徴のサブセットを明らかにします。
本稿では,映画評論における感情表現をジャンルから切り離す能力,つぶやきにおける方言からの「毒性」,意味論からの構文について評価する。
論文 参考訳(メタデータ) (2021-04-14T22:45:34Z) - Disentangled Contrastive Learning for Learning Robust Textual
Representations [13.880693856907037]
運動量表現一貫性の概念を導入し,特徴を整合させ,一様性に適合しながらパワー正規化を活用する。
NLPベンチマークの実験結果から,本手法はベースラインよりも優れた結果が得られることが示された。
論文 参考訳(メタデータ) (2021-04-11T03:32:49Z) - Autoencoding Variational Autoencoder [56.05008520271406]
我々は,この行動が学習表現に与える影響と,自己整合性の概念を導入することでそれを修正する結果について検討する。
自己整合性アプローチで訓練されたエンコーダは、敵攻撃による入力の摂動に対して頑健な(無神経な)表現につながることを示す。
論文 参考訳(メタデータ) (2020-12-07T14:16:14Z) - Learning Variational Word Masks to Improve the Interpretability of
Neural Text Classifiers [21.594361495948316]
モデルの解釈可能性を改善するための新しい取り組みが始まったばかりで、既存の多くのメソッドでは、トレーニングの追加インプットとして事前情報または人的アノテーションが必要である。
本稿では,タスク固有の重要な単語を自動的に学習し,分類に関する無関係な情報を低減し,最終的にモデル予測の解釈可能性を向上させるための変分語マスク(VMASK)手法を提案する。
論文 参考訳(メタデータ) (2020-10-01T20:02:43Z) - Learning Disentangled Representations with Latent Variation
Predictability [102.4163768995288]
本稿では,潜在不整合表現の変動予測可能性について述べる。
逆生成プロセス内では、潜時変動と対応する画像対の相互情報を最大化することにより、変動予測可能性を高める。
本研究では,潜在表現の絡み合いを測るために,基礎的構造的生成因子に依存しない評価指標を開発する。
論文 参考訳(メタデータ) (2020-07-25T08:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。