論文の概要: Perturbing Inputs for Fragile Interpretations in Deep Natural Language
Processing
- arxiv url: http://arxiv.org/abs/2108.04990v1
- Date: Wed, 11 Aug 2021 02:07:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-12 18:50:15.568440
- Title: Perturbing Inputs for Fragile Interpretations in Deep Natural Language
Processing
- Title(参考訳): 深層自然言語処理における脆弱な解釈のための摂動入力
- Authors: Sanchit Sinha, Hanjie Chen, Arshdeep Sekhon, Yangfeng Ji, Yanjun Qi
- Abstract要約: 解釈可能性の手法は、医療や金融などの高い分野における信頼できるNLPアプリケーションにとって堅牢である必要がある。
本稿では,入力テキスト上で単純な単語摂動を行うことで,解釈がどのように操作できるかを示す。
- 参考スコア(独自算出の注目度): 18.91129968022831
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interpretability methods like Integrated Gradient and LIME are popular
choices for explaining natural language model predictions with relative word
importance scores. These interpretations need to be robust for trustworthy NLP
applications in high-stake areas like medicine or finance. Our paper
demonstrates how interpretations can be manipulated by making simple word
perturbations on an input text. Via a small portion of word-level swaps, these
adversarial perturbations aim to make the resulting text semantically and
spatially similar to its seed input (therefore sharing similar
interpretations). Simultaneously, the generated examples achieve the same
prediction label as the seed yet are given a substantially different
explanation by the interpretation methods. Our experiments generate fragile
interpretations to attack two SOTA interpretation methods, across three popular
Transformer models and on two different NLP datasets. We observe that the rank
order correlation drops by over 20% when less than 10% of words are perturbed
on average. Further, rank-order correlation keeps decreasing as more words get
perturbed. Furthermore, we demonstrate that candidates generated from our
method have good quality metrics.
- Abstract(参考訳): Integrated Gradient や LIME のような解釈可能性の手法は、自然言語モデル予測を相対的な単語重要度スコアで説明するのに一般的な方法である。
これらの解釈は、医療や金融などの高い分野における信頼できるNLP応用のために堅牢である必要がある。
本稿では,入力テキスト上で単純な単語摂動を行うことで,解釈がどのように操作できるかを示す。
単語レベルのスワップのごく一部であるこれらの逆転摂動は、結果のテキストを意味的に、空間的にそのシード入力と類似させることを目的としている。
同時に、生成したサンプルは種子と同じ予測ラベルを達成するが、解釈方法によって実質的に異なる説明が与えられる。
実験では,2つのSOTA解釈手法を,3つの人気のあるTransformerモデルと2つの異なるNLPデータセット上で攻撃する脆弱な解釈を生成する。
10%未満の単語が平均的に摂動すると,順位の相関関係は20%以上低下する。
さらに、ランク順相関は、より多くの単語が摂動するにつれて減少し続ける。
さらに,本手法から生成した候補は品質指標が良好であることを実証する。
関連論文リスト
- Evaluating Semantic Variation in Text-to-Image Synthesis: A Causal Perspective [50.261681681643076]
本稿では,SemVarEffectとSemVarBenchというベンチマークを用いて,テキスト・画像合成における入力のセマンティックな変化と出力の因果性を評価する。
本研究は,T2I合成コミュニティによるヒューマンインストラクション理解の探索を促進する効果的な評価枠組みを確立する。
論文 参考訳(メタデータ) (2024-10-14T08:45:35Z) - Naturalistic Causal Probing for Morpho-Syntax [76.83735391276547]
スペインにおける実世界のデータに対する入力レベルの介入に対する自然主義的戦略を提案する。
提案手法を用いて,共同設立者から文章中の形態・症状の特徴を抽出する。
本研究では,事前学習したモデルから抽出した文脈化表現に対する性別と数字の因果効果を解析するために,本手法を適用した。
論文 参考訳(メタデータ) (2022-05-14T11:47:58Z) - Block-Sparse Adversarial Attack to Fool Transformer-Based Text
Classifiers [49.50163349643615]
本稿では,変圧器を用いたテキスト分類器に対して,勾配に基づく逆攻撃を提案する。
実験結果から, 文の意味を抑えながら, GPT-2の精度を5%以下に抑えることができた。
論文 参考訳(メタデータ) (2022-03-11T14:37:41Z) - Data-Driven Mitigation of Adversarial Text Perturbation [1.3649494534428743]
本研究では,NLPモデルを逆テキスト摂動に対して堅牢にするための難読化パイプラインを提案する。
CW2Vの埋め込みは、文字nグラムに基づく埋め込みよりも、テキストの摂動に対してより堅牢であることを示す。
我々のパイプラインはエンゲージメントベイト分類を0.70から0.67AUCに分類し、敵対的なテキストの摂動を発生させる。
論文 参考訳(メタデータ) (2022-02-19T00:49:12Z) - More Than Words: Towards Better Quality Interpretations of Text
Classifiers [16.66535643383862]
MLモデルの入力インタフェースを考えると、トークンベースの解釈性は便利な第1選択であるが、あらゆる状況において最も効果的ではないことを示す。
1)ランダム化テストにより測定されるほど頑健であり,2)SHAPのような近似に基づく手法を用いた場合の変動性が低く,3)言語的コヒーレンスがより高い水準にある場合の人間には理解できない。
論文 参考訳(メタデータ) (2021-12-23T10:18:50Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Statistically significant detection of semantic shifts using contextual
word embeddings [7.439525715543974]
文脈的単語埋め込みと順列に基づく統計的テストを組み合わせて意味的変化を推定する手法を提案する。
本手法の性能をシミュレーションで実証し,偽陽性を抑圧することにより,一貫して高精度に達成する。
また,SemEval-2020 Task 1 と Liverpool FC subreddit corpus の実際のデータも分析した。
論文 参考訳(メタデータ) (2021-04-08T13:58:54Z) - Are Interpretations Fairly Evaluated? A Definition Driven Pipeline for
Post-Hoc Interpretability [54.85658598523915]
我々は,解釈の忠実性を評価する前に,解釈を明確に定義することを提案する。
解釈手法は,ある評価基準の下で異なる性能を示すが,その差は解釈の品質や忠実さから生じるものではない。
論文 参考訳(メタデータ) (2020-09-16T06:38:03Z) - SLAM-Inspired Simultaneous Contextualization and Interpreting for
Incremental Conversation Sentences [0.0]
逐次文中の多文単語の文脈と解釈を動的に推定する手法を提案する。
SCAINアルゴリズムを用いることで、文脈と単語の解釈の相互依存性を逐次最適化し、新しい解釈をオンラインで得ることができる。
論文 参考訳(メタデータ) (2020-05-29T16:40:27Z) - Syntactic Structure Distillation Pretraining For Bidirectional Encoders [49.483357228441434]
本稿では,BERTプレトレーニングに構文バイアスを注入するための知識蒸留手法を提案する。
我々は,構文的 LM から単語の周辺分布を抽出する。
本研究は,大量のデータを利用する表現学習者においても,構文バイアスの利点を示すものである。
論文 参考訳(メタデータ) (2020-05-27T16:44:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。