論文の概要: Robustness of Explanation Methods for NLP Models
- arxiv url: http://arxiv.org/abs/2206.12284v1
- Date: Fri, 24 Jun 2022 13:34:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-27 12:46:36.043951
- Title: Robustness of Explanation Methods for NLP Models
- Title(参考訳): NLPモデルにおける説明法のロバスト性
- Authors: Shriya Atmakuri, Tejas Chheda, Dinesh Kandula, Nishant Yadav, Taesung
Lee, Hessel Tuinhof
- Abstract要約: 説明手法は、ニューラルネットワークの予測に責任を負う特徴を強調する重要なツールとして登場した。
多くの説明手法は信頼性が低く、悪意のある操作に影響を受けやすいという証拠が増えている。
テキスト説明に対する敵攻撃を成功させるための最初の洞察と結果を提供する。
- 参考スコア(独自算出の注目度): 5.191443390565865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Explanation methods have emerged as an important tool to highlight the
features responsible for the predictions of neural networks. There is mounting
evidence that many explanation methods are rather unreliable and susceptible to
malicious manipulations. In this paper, we particularly aim to understand the
robustness of explanation methods in the context of text modality. We provide
initial insights and results towards devising a successful adversarial attack
against text explanations. To our knowledge, this is the first attempt to
evaluate the adversarial robustness of an explanation method. Our experiments
show the explanation method can be largely disturbed for up to 86% of the
tested samples with small changes in the input sentence and its semantics.
- Abstract(参考訳): 説明手法は、ニューラルネットワークの予測にかかわる特徴を強調する重要なツールとして登場した。
多くの説明方法がかなり信頼できず、悪意のある操作の影響を受けやすいという証拠が増えている。
本稿では,テキストモダリティの文脈における説明手法の堅牢性を理解することを目的とする。
テキスト説明に対する敵意攻撃を成功させるための最初の洞察と結果を提供する。
我々の知る限り、これは説明手法の対角的堅牢性を評価する最初の試みである。
実験では, 実験対象の86%までのサンプルに対して, 入力文と意味論のわずかな変化を伴って, 説明手法をほとんど乱すことができることを示した。
関連論文リスト
- An AI Architecture with the Capability to Explain Recognition Results [0.0]
本研究は、説明可能性に対するメトリクスの重要性に焦点をあて、性能向上をもたらす2つの方法に貢献する。
第1の方法は説明不能なフローと説明不能なフローの組み合わせを導入し、意思決定の説明容易性を特徴づける指標を提案する。
第2の方法は、システム内のニューラルネットワークの有効性を推定するための古典的なメトリクスを比較し、新しいメトリックをリードパフォーマーとして振る舞う。
論文 参考訳(メタデータ) (2024-06-13T02:00:13Z) - Counterfactuals of Counterfactuals: a back-translation-inspired approach
to analyse counterfactual editors [3.4253416336476246]
我々は、反事実的、対照的な説明の分析に焦点をあてる。
本稿では,新しい逆翻訳に基づく評価手法を提案する。
本研究では, 予測モデルと説明モデルの両方の振る舞いについて, 反事実を反復的に説明者に与えることで, 価値ある洞察を得ることができることを示す。
論文 参考訳(メタデータ) (2023-05-26T16:04:28Z) - Abductive Commonsense Reasoning Exploiting Mutually Exclusive
Explanations [118.0818807474809]
帰納的推論は、イベントのもっともらしい説明を見つけることを目的としている。
自然言語処理における帰納的推論のための既存のアプローチは、しばしば監督のために手動で生成されたアノテーションに依存している。
この研究は、ある文脈に対して、説明のサブセットのみが正しいという事実を活用する、帰納的コモンセンス推論のアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-24T01:35:10Z) - Explanation Selection Using Unlabeled Data for Chain-of-Thought
Prompting [80.9896041501715]
非専門家によって書かれたオフ・ザ・シェルフの説明のように、タスクのために"チューニング"されていない説明は、中途半端なパフォーマンスをもたらす可能性がある。
本稿では,ブラックボックス方式で説明拡散プロンプトを最適化する方法の課題に対処する。
論文 参考訳(メタデータ) (2023-02-09T18:02:34Z) - Robust Explanation Constraints for Neural Networks [33.14373978947437]
ニューラルネットワークの意図で使われるポストホックな説明法は、しばしば彼らの出力を信頼するのに役立つと言われている。
我々のトレーニング方法は、ニューラルネットワークを学習できる唯一の方法であり、6つのテストネットワークでテストされた堅牢性に関する洞察を持つ。
論文 参考訳(メタデータ) (2022-12-16T14:40:25Z) - Testing the effectiveness of saliency-based explainability in NLP using
randomized survey-based experiments [0.6091702876917281]
Explainable AIにおける多くの研究は、NLPモデルの動作と予測に関する人間の洞察を与える説明方法を考案することを目的としている。
自然に人間の傾向やバイアスは、人間の説明を理解するのに役立ちます。
自然言語処理におけるサリエンシに基づくポストホック説明可能性手法の有効性を理解するために,ランダム化されたサーベイベース実験を設計した。
論文 参考訳(メタデータ) (2022-11-25T08:49:01Z) - Don't Explain Noise: Robust Counterfactuals for Randomized Ensembles [50.81061839052459]
我々は確率論的問題として、堅牢な対実的説明の生成を定式化する。
アンサンブルモデルのロバスト性とベース学習者のロバスト性との関係を示す。
本手法は, 反実的説明から初期観測までの距離をわずかに増加させるだけで, 高いロバスト性を実現する。
論文 参考訳(メタデータ) (2022-05-27T17:28:54Z) - Logical Satisfiability of Counterfactuals for Faithful Explanations in
NLI [60.142926537264714]
本稿では, 忠実度スルー・カウンタファクトの方法論について紹介する。
これは、説明に表される論理述語に基づいて、反実仮説を生成する。
そして、そのモデルが表現された論理と反ファクトの予測が一致しているかどうかを評価する。
論文 参考訳(メタデータ) (2022-05-25T03:40:59Z) - Human Interpretation of Saliency-based Explanation Over Text [65.29015910991261]
テキストデータ上でのサリエンシに基づく説明について検討する。
人はしばしば説明を誤って解釈する。
本稿では,過度知覚と過小認識のモデル推定に基づいて,サリエンシを調整する手法を提案する。
論文 参考訳(メタデータ) (2022-01-27T15:20:32Z) - Unsupervised Detection of Adversarial Examples with Model Explanations [0.6091702876917279]
本稿では,モデル動作を説明するために開発された手法を用いて,逆例を検出するための簡易かつ効果的な手法を提案する。
MNIST手書きデータセットを用いて評価したところ,本手法は高い信頼度で敵のサンプルを検出することができることがわかった。
論文 参考訳(メタデータ) (2021-07-22T06:54:18Z) - Evaluations and Methods for Explanation through Robustness Analysis [117.7235152610957]
分析による特徴に基づく説明の新たな評価基準を確立する。
我々は、緩やかに必要であり、予測に十分である新しい説明を得る。
我々は、現在の予測をターゲットクラスに移動させる一連の特徴を抽出するために、説明を拡張します。
論文 参考訳(メタデータ) (2020-05-31T05:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。