論文の概要: Estimating the Adversarial Robustness of Attributions in Text with
Transformers
- arxiv url: http://arxiv.org/abs/2212.09155v1
- Date: Sun, 18 Dec 2022 20:18:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 15:19:23.613731
- Title: Estimating the Adversarial Robustness of Attributions in Text with
Transformers
- Title(参考訳): 変圧器を用いたテキスト中の属性の逆ロバスト性の推定
- Authors: Adam Ivankay, Mattia Rigotti, Ivan Girardi, Chiara Marchiori, Pascal
Frossard
- Abstract要約: リプシッツ連続性に基づくテキスト分類における帰属ロバスト性(AR)の新たな定義を確立する。
そこで我々は,テキスト分類における属性の厳密な推定を行う強力な敵であるTransformerExplanationAttack (TEA)を提案する。
- 参考スコア(独自算出の注目度): 44.745873282080346
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Explanations are crucial parts of deep neural network (DNN) classifiers. In
high stakes applications, faithful and robust explanations are important to
understand and gain trust in DNN classifiers. However, recent work has shown
that state-of-the-art attribution methods in text classifiers are susceptible
to imperceptible adversarial perturbations that alter explanations
significantly while maintaining the correct prediction outcome. If undetected,
this can critically mislead the users of DNNs. Thus, it is crucial to
understand the influence of such adversarial perturbations on the networks'
explanations and their perceptibility. In this work, we establish a novel
definition of attribution robustness (AR) in text classification, based on
Lipschitz continuity. Crucially, it reflects both attribution change induced by
adversarial input alterations and perceptibility of such alterations. Moreover,
we introduce a wide set of text similarity measures to effectively capture
locality between two text samples and imperceptibility of adversarial
perturbations in text. We then propose our novel TransformerExplanationAttack
(TEA), a strong adversary that provides a tight estimation for attribution
robustness in text classification. TEA uses state-of-the-art language models to
extract word substitutions that result in fluent, contextual adversarial
samples. Finally, with experiments on several text classification
architectures, we show that TEA consistently outperforms current
state-of-the-art AR estimators, yielding perturbations that alter explanations
to a greater extent while being more fluent and less perceptible.
- Abstract(参考訳): 説明はディープニューラルネットワーク(DNN)分類器の重要な部分である。
高い利害関係のアプリケーションでは、忠実で堅牢な説明はDNN分類器の理解と信頼を得るために重要である。
しかし、近年の研究では、テキスト分類器における最先端の帰属法は、正しい予測結果を維持しながら説明を著しく変える不可避な逆摂動の影響を受けやすいことが示されている。
検出されていない場合、これはDNNのユーザーを批判的に誤解させる可能性がある。
したがって、このような敵対的摂動がネットワークの説明と知覚に与える影響を理解することが重要である。
本研究では,リプシッツ連続性に基づくテキスト分類における帰属ロバスト性(AR)の新たな定義を確立する。
重要なことは、敵の入力変化によって引き起こされる帰属変化とそのような変化の知覚可能性の両方を反映している。
さらに,2つのテキストサンプル間の局所性を効果的に捉えるためのテキスト類似度尺度と,テキスト中の逆摂動の不可避性について紹介する。
そこで本論文では,テキスト分類における帰属ロバスト性を強く推定する強力な敵であるTransformerExplanationAttack(TEA)を提案する。
TEAは最先端の言語モデルを用いて単語置換を抽出し、流動的で文脈的な逆転のサンプルを生成する。
最後に,いくつかのテキスト分類アーキテクチャを用いた実験により,茶は最先端のar推定器を一貫して上回っており,より流動的で知覚力の低い説明に変化をもたらす摂動を生じさせることを示した。
関連論文リスト
- Lost In Translation: Generating Adversarial Examples Robust to
Round-Trip Translation [66.33340583035374]
本研究は, ラウンドトリップ翻訳における現在のテキスト対逆攻撃の堅牢性に関する包括的研究である。
筆者らは,現在最先端のテキストベースの6つの敵攻撃が,ラウンドトリップ翻訳後の有効性を維持していないことを実証した。
本稿では,機械翻訳を逆例生成のプロセスに組み込むことにより,この問題に対する介入に基づく解決策を提案する。
論文 参考訳(メタデータ) (2023-07-24T04:29:43Z) - Interpretability and Transparency-Driven Detection and Transformation of
Textual Adversarial Examples (IT-DT) [0.5729426778193399]
本稿では,IT-DT(Interpretability and Transparency-Driven Detection and Transformation)フレームワークを提案する。
テキストの敵対的な例を検出し、変換する際の解釈可能性と透明性に焦点を当てている。
IT-DTは、逆攻撃に対する変換器ベースのテキスト分類器のレジリエンスと信頼性を大幅に向上させる。
論文 参考訳(メタデータ) (2023-07-03T03:17:20Z) - In and Out-of-Domain Text Adversarial Robustness via Label Smoothing [64.66809713499576]
多様なNLPタスクの基本モデルにおいて,ラベルの平滑化戦略によって提供される対角的ロバスト性について検討する。
実験の結果,ラベルのスムース化は,BERTなどの事前学習モデルにおいて,様々な攻撃に対して,逆方向の堅牢性を大幅に向上させることがわかった。
また,予測信頼度とロバスト性の関係を解析し,ラベルの平滑化が敵の例に対する過度な信頼誤差を減少させることを示した。
論文 参考訳(メタデータ) (2022-12-20T14:06:50Z) - Disentangled Text Representation Learning with Information-Theoretic
Perspective for Adversarial Robustness [17.5771010094384]
敵の脆弱性は信頼性の高いNLPシステムを構築する上で大きな障害である。
最近の研究は、モデルの敵意的な脆弱性は教師あり訓練における非破壊的な特徴によって引き起こされると主張している。
本稿では,不整合表現学習の観点から,敵対的課題に取り組む。
論文 参考訳(メタデータ) (2022-10-26T18:14:39Z) - Beyond Model Interpretability: On the Faithfulness and Adversarial
Robustness of Contrastive Textual Explanations [2.543865489517869]
本研究は、説明の忠実さに触発された新たな評価手法の基盤を築き、テキストの反事実を動機づけるものである。
感情分析データを用いた実験では, 両モデルとも, 対物関係の関連性は明らかでないことがわかった。
論文 参考訳(メタデータ) (2022-10-17T09:50:02Z) - Fooling Explanations in Text Classifiers [42.49606659285249]
テキスト入力サンプルを非知覚的に変更する新しい説明攻撃アルゴリズムであるTextExplanationer (TEF) を導入する。
TEFは変化しない入力属性と摂動入力属性の相関を著しく減少させる。
また,TAFの摂動は,対象モデルと説明法が不明なシナリオにおいても有効であることを示す。
論文 参考訳(メタデータ) (2022-06-07T10:58:08Z) - Block-Sparse Adversarial Attack to Fool Transformer-Based Text
Classifiers [49.50163349643615]
本稿では,変圧器を用いたテキスト分類器に対して,勾配に基づく逆攻撃を提案する。
実験結果から, 文の意味を抑えながら, GPT-2の精度を5%以下に抑えることができた。
論文 参考訳(メタデータ) (2022-03-11T14:37:41Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Towards Accurate Scene Text Recognition with Semantic Reasoning Networks [52.86058031919856]
本稿では,シーンテキスト認識のための意味推論ネットワーク(SRN)という,エンドツーエンドのトレーニング可能な新しいフレームワークを提案する。
GSRMはマルチウェイ並列伝送によってグローバルセマンティックコンテキストをキャプチャするために導入された。
正規テキスト,不規則テキスト,非ラテン語長文を含む7つの公開ベンチマークの結果,提案手法の有効性とロバスト性を検証した。
論文 参考訳(メタデータ) (2020-03-27T09:19:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。