論文の概要: Gradient-based Analysis of NLP Models is Manipulable
- arxiv url: http://arxiv.org/abs/2010.05419v1
- Date: Mon, 12 Oct 2020 02:54:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 05:46:34.622858
- Title: Gradient-based Analysis of NLP Models is Manipulable
- Title(参考訳): NLPモデルの勾配解析は操作可能である
- Authors: Junlin Wang, Jens Tuyls, Eric Wallace, Sameer Singh
- Abstract要約: モデルの勾配は容易に操作可能であることを実証し、勾配に基づく解析の信頼性に疑問を呈する。
特に、ターゲットモデルの層をファサードとマージし、予測に影響を与えることなく勾配を圧倒する。
- 参考スコア(独自算出の注目度): 44.215057692679494
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gradient-based analysis methods, such as saliency map visualizations and
adversarial input perturbations, have found widespread use in interpreting
neural NLP models due to their simplicity, flexibility, and most importantly,
their faithfulness. In this paper, however, we demonstrate that the gradients
of a model are easily manipulable, and thus bring into question the reliability
of gradient-based analyses. In particular, we merge the layers of a target
model with a Facade that overwhelms the gradients without affecting the
predictions. This Facade can be trained to have gradients that are misleading
and irrelevant to the task, such as focusing only on the stop words in the
input. On a variety of NLP tasks (text classification, NLI, and QA), we show
that our method can manipulate numerous gradient-based analysis techniques:
saliency maps, input reduction, and adversarial perturbations all identify
unimportant or targeted tokens as being highly important. The code and a
tutorial of this paper is available at http://ucinlp.github.io/facade.
- Abstract(参考訳): サリエンシマップの可視化や逆入力の摂動といったグラディエントに基づく分析手法は、その単純さ、柔軟性、そして最も重要なことに、ニューラルNLPモデルの解釈に広く用いられている。
しかし,本論文では,モデルの勾配が容易に操作可能であることを示し,勾配に基づく解析の信頼性に疑問を呈する。
特に、ターゲットモデルの層を予測に影響を与えることなく勾配を圧倒するファサードにマージします。
このファサードは、入力中の停止語のみに焦点を当てるなど、タスクに無関係で誤解を招く勾配を持つように訓練することができる。
各種のNLPタスク(テキスト分類,NLI,QA)において,本手法は多種多様な勾配解析手法を操作可能であることを示す。
この論文のコードとチュートリアルは、http://ucinlp.github.io/facade.com/で入手できる。
関連論文リスト
- Revisiting Gradient-based Uncertainty for Monocular Depth Estimation [10.502852645001882]
単分子深度推定モデルに対する勾配に基づく不確実性推定を導入する。
我々は,本手法が再トレーニングを伴わずに不確実性を決定するのに有効であることを実証した。
特に、単分子配列で訓練されたモデルにおいて、最も不確実性が高いため、本手法は関連するアプローチよりも優れる。
論文 参考訳(メタデータ) (2025-02-09T17:21:41Z) - Derivative-Free Diffusion Manifold-Constrained Gradient for Unified XAI [59.96044730204345]
微分自由拡散多様体制約勾配(FreeMCG)を導入する。
FreeMCGは、与えられたニューラルネットワークの説明可能性を改善する基盤として機能する。
提案手法は,XAIツールが期待する本質性を保ちながら,最先端の成果が得られることを示す。
論文 参考訳(メタデータ) (2024-11-22T11:15:14Z) - Unlearning-based Neural Interpretations [51.99182464831169]
静的関数を用いて定義される現在のベースラインは、バイアスがあり、脆弱であり、操作可能であることを示す。
UNIは、学習不可能で、偏りがなく、適応的なベースラインを計算し、入力を最も急な上昇の未学習方向に向けて摂動させることを提案する。
論文 参考訳(メタデータ) (2024-10-10T16:02:39Z) - Probing the Purview of Neural Networks via Gradient Analysis [13.800680101300756]
我々は、ニューラルネットワークのデータ依存能力を分析し、推論中のネットワークの観点から入力の異常を評価する。
ネットワークのパービューを探索するために、モデルに必要な変化量を測定するために勾配を利用して、与えられた入力をより正確に特徴付ける。
我々の勾配に基づくアプローチは、学習した特徴で正確に表現できない入力を効果的に区別できることを実証する。
論文 参考訳(メタデータ) (2023-04-06T03:02:05Z) - Tell Model Where to Attend: Improving Interpretability of Aspect-Based
Sentiment Classification via Small Explanation Annotations [23.05672636220897]
我々はtextbfInterpretation-textbfEnhanced textbfGradient-based framework for textbfABSC を提案する。
我々のモデルは、既存のABSCメソッドや他のタスクに統合できるように、モデル非依存およびタスク非依存である。
論文 参考訳(メタデータ) (2023-02-21T06:55:08Z) - Locally Aggregated Feature Attribution on Natural Language Model
Understanding [12.233103741197334]
Locally Aggregated Feature Attribution (LAFA) は、NLPモデルのための新しい勾配に基づく特徴属性法である。
あいまいな参照トークンに頼る代わりに、言語モデル埋め込みから派生した類似参照テキストを集約することで勾配を円滑にする。
評価のために、公開データセット上でのエンティティ認識やセンチメント分析を含む異なるNLPタスクの実験も設計する。
論文 参考訳(メタデータ) (2022-04-22T18:59:27Z) - Bayesian Graph Contrastive Learning [55.36652660268726]
本稿では,ランダムな拡張がエンコーダにつながることを示すグラフコントラスト学習手法の新たな視点を提案する。
提案手法は,各ノードを決定論的ベクトルに埋め込む既存の手法とは対照的に,各ノードを潜在空間の分布で表現する。
いくつかのベンチマークデータセットにおける既存の最先端手法と比較して,性能が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2021-12-15T01:45:32Z) - Revealing and Protecting Labels in Distributed Training [3.18475216176047]
本稿では,最終層の勾配とラベルマッピングへのIDのみから,トレーニングサンプルのラベル集合を発見する手法を提案する。
本稿では,画像分類と自動音声認識という2つの領域におけるモデル学習の有効性を示す。
論文 参考訳(メタデータ) (2021-10-31T17:57:49Z) - Deep learning: a statistical viewpoint [120.94133818355645]
ディープラーニングは、理論的観点からいくつかの大きな驚きを明らかにしました。
特に、簡単な勾配法は、最適でないトレーニング問題に対するほぼ完全な解決策を簡単に見つけます。
我々はこれらの現象を具体的原理で補うと推測する。
論文 参考訳(メタデータ) (2021-03-16T16:26:36Z) - Interpreting Graph Neural Networks for NLP With Differentiable Edge
Masking [63.49779304362376]
グラフニューラルネットワーク(GNN)は、構造的帰納バイアスをNLPモデルに統合する一般的なアプローチとなっている。
本稿では,不要なエッジを識別するGNNの予測を解釈するポストホック手法を提案する。
モデルの性能を劣化させることなく,多数のエッジを落とせることを示す。
論文 参考訳(メタデータ) (2020-10-01T17:51:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。