論文の概要: Fooling Explanations in Text Classifiers
- arxiv url: http://arxiv.org/abs/2206.03178v1
- Date: Tue, 7 Jun 2022 10:58:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-08 15:40:02.889671
- Title: Fooling Explanations in Text Classifiers
- Title(参考訳): テキスト分類器における騙し説明
- Authors: Adam Ivankay, Ivan Girardi, Chiara Marchiori, Pascal Frossard
- Abstract要約: テキスト入力サンプルを非知覚的に変更する新しい説明攻撃アルゴリズムであるTextExplanationer (TEF) を導入する。
TEFは変化しない入力属性と摂動入力属性の相関を著しく減少させる。
また,TAFの摂動は,対象モデルと説明法が不明なシナリオにおいても有効であることを示す。
- 参考スコア(独自算出の注目度): 42.49606659285249
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art text classification models are becoming increasingly reliant
on deep neural networks (DNNs). Due to their black-box nature, faithful and
robust explanation methods need to accompany classifiers for deployment in
real-life scenarios. However, it has been shown in vision applications that
explanation methods are susceptible to local, imperceptible perturbations that
can significantly alter the explanations without changing the predicted
classes. We show here that the existence of such perturbations extends to text
classifiers as well. Specifically, we introduceTextExplanationFooler (TEF), a
novel explanation attack algorithm that alters text input samples imperceptibly
so that the outcome of widely-used explanation methods changes considerably
while leaving classifier predictions unchanged. We evaluate the performance of
the attribution robustness estimation performance in TEF on five sequence
classification datasets, utilizing three DNN architectures and three
transformer architectures for each dataset. TEF can significantly decrease the
correlation between unchanged and perturbed input attributions, which shows
that all models and explanation methods are susceptible to TEF perturbations.
Moreover, we evaluate how the perturbations transfer to other model
architectures and attribution methods, and show that TEF perturbations are also
effective in scenarios where the target model and explanation method are
unknown. Finally, we introduce a semi-universal attack that is able to compute
fast, computationally light perturbations with no knowledge of the attacked
classifier nor explanation method. Overall, our work shows that explanations in
text classifiers are very fragile and users need to carefully address their
robustness before relying on them in critical applications.
- Abstract(参考訳): 最先端のテキスト分類モデルは、ディープニューラルネットワーク(DNN)にますます依存している。
ブラックボックスの性質のため、忠実で堅牢な説明法は実生活シナリオに展開するために分類器を伴わなければならない。
しかし、視覚的応用において、説明法は、予測されたクラスを変更することなく説明を著しく変更できる局所的、知覚不能な摂動に影響を受けやすいことが示されている。
ここでは,このような摂動の存在がテキスト分類にも及んでいることを示す。
具体的には、テキスト入力サンプルを非知覚的に変更し、広く使われている説明手法の結果が変化し、分類器の予測が変化しないような新しい説明攻撃アルゴリズムであるTextExplanationFooler(TEF)を紹介する。
3つのDNNアーキテクチャと3つのトランスフォーマーアーキテクチャを用いて,TEFにおける属性頑健性評価性能を5つのシーケンス分類データセットで評価した。
TEFは、変化しない入力属性と摂動した入力属性の相関を著しく減少させ、全てのモデルと説明法がTEF摂動の影響を受けやすいことを示す。
さらに,摂動が他のモデルアーキテクチャや帰属方法にどのように転移するかを評価し,対象モデルや説明方法が不明なシナリオにおいてもtef摂動が有効であることを示す。
最後に,攻撃された分類器の知識や説明法を使わずに高速で計算的な光摂動を計算できる半ユニバーサル攻撃を導入する。
全体として、テキスト分類器における説明は非常に脆弱であり、ユーザーは重要なアプリケーションでそれらに依存する前に、彼らの堅牢性に慎重に対処する必要がある。
関連論文リスト
- A Comparative Analysis of Counterfactual Explanation Methods for Text Classifiers [0.0]
BERTテキスト分類器の逆実説明を生成する5つの方法を評価する。
確立されたホワイトボックス置換ベースのメソッドは、分類器の出力を変更する有効な偽物を生成するのに効果的である。
大規模言語モデル(LLM)に基づく新しい手法は、自然言語および言語学的に妥当なテキスト偽造物を生成するのに優れている。
論文 参考訳(メタデータ) (2024-11-04T22:01:52Z) - Explaining Text Similarity in Transformer Models [52.571158418102584]
説明可能なAIの最近の進歩により、トランスフォーマーの説明の改善を活用することで、制限を緩和できるようになった。
両線形類似性モデルにおける2次説明の計算のために開発された拡張であるBiLRPを用いて、NLPモデルにおいてどの特徴相互作用が類似性を促進するかを調べる。
我々の発見は、異なる意味的類似性タスクやモデルに対するより深い理解に寄与し、新しい説明可能なAIメソッドが、どのようにして深い分析とコーパスレベルの洞察を可能にするかを強調した。
論文 参考訳(メタデータ) (2024-05-10T17:11:31Z) - Introducing User Feedback-based Counterfactual Explanations (UFCE) [49.1574468325115]
対実的説明(CE)は、XAIで理解可能な説明を生成するための有効な解決策として浮上している。
UFCEは、アクション可能な機能のサブセットで最小限の変更を決定するために、ユーザー制約を含めることができる。
UFCEは、textitproximity(英語版)、textitsparsity(英語版)、textitfeasibility(英語版)の2つのよく知られたCEメソッドより優れている。
論文 参考訳(メタデータ) (2024-02-26T20:09:44Z) - Counterfactuals of Counterfactuals: a back-translation-inspired approach
to analyse counterfactual editors [3.4253416336476246]
我々は、反事実的、対照的な説明の分析に焦点をあてる。
本稿では,新しい逆翻訳に基づく評価手法を提案する。
本研究では, 予測モデルと説明モデルの両方の振る舞いについて, 反事実を反復的に説明者に与えることで, 価値ある洞察を得ることができることを示す。
論文 参考訳(メタデータ) (2023-05-26T16:04:28Z) - Adversarial Counterfactual Visual Explanations [0.7366405857677227]
本稿では,敵攻撃を意味論的に意味のある摂動に変換するエレガントな手法を提案する。
提案手法は,拡散確率モデルが高周波および分布外摂動を回避するための優れた正則化器であることを仮定する。
論文 参考訳(メタデータ) (2023-03-17T13:34:38Z) - Feature Perturbation Augmentation for Reliable Evaluation of Importance
Estimators in Neural Networks [5.439020425819001]
ポストホック解釈可能性法は、ディープニューラルネットワークの内部動作をより解釈可能にしようとする。
最も一般的な評価フレームワークの1つは、解釈可能性メソッドによって重要とみなされる機能を摂動させることである。
モデルトレーニング中に摂動画像を生成し,付加する特徴摂動増強(FPA)を提案する。
論文 参考訳(メタデータ) (2023-03-02T19:05:46Z) - Estimating the Adversarial Robustness of Attributions in Text with
Transformers [44.745873282080346]
リプシッツ連続性に基づくテキスト分類における帰属ロバスト性(AR)の新たな定義を確立する。
そこで我々は,テキスト分類における属性の厳密な推定を行う強力な敵であるTransformerExplanationAttack (TEA)を提案する。
論文 参考訳(メタデータ) (2022-12-18T20:18:59Z) - Avoiding Inference Heuristics in Few-shot Prompt-based Finetuning [57.4036085386653]
文ペア分類タスクのプロンプトベースモデルでは,語彙重なりに基づく推論の一般的な落とし穴が依然として残っていることを示す。
そこで,プレトレーニングウェイトを保存する正規化を加えることは,この破壊的な微調整の傾向を緩和するのに有効であることを示す。
論文 参考訳(メタデータ) (2021-09-09T10:10:29Z) - Understanding and Diagnosing Vulnerability under Adversarial Attacks [62.661498155101654]
ディープニューラルネットワーク(DNN)は敵の攻撃に弱いことが知られている。
本稿では,潜在変数の分類に使用される特徴を説明するために,新しい解釈可能性手法であるInterpretGANを提案する。
また、各層がもたらす脆弱性を定量化する最初の診断方法も設計する。
論文 参考訳(メタデータ) (2020-07-17T01:56:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。