論文の概要: Faithfulness and the Notion of Adversarial Sensitivity in NLP Explanations
- arxiv url: http://arxiv.org/abs/2409.17774v1
- Date: Thu, 26 Sep 2024 12:11:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-28 19:53:49.691118
- Title: Faithfulness and the Notion of Adversarial Sensitivity in NLP Explanations
- Title(参考訳): NLP説明における反感の忠実さと通知
- Authors: Supriya Manna, Niladri Sett,
- Abstract要約: 本稿では, 信頼度評価の新しいアプローチとして, 適応感について紹介する。
本手法は, 逆入力変化に対する感度を捉えることによって, 説明者の忠実さを考慮に入れている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Faithfulness is arguably the most critical metric to assess the reliability of explainable AI. In NLP, current methods for faithfulness evaluation are fraught with discrepancies and biases, often failing to capture the true reasoning of models. We introduce Adversarial Sensitivity as a novel approach to faithfulness evaluation, focusing on the explainer's response when the model is under adversarial attack. Our method accounts for the faithfulness of explainers by capturing sensitivity to adversarial input changes. This work addresses significant limitations in existing evaluation techniques, and furthermore, quantifies faithfulness from a crucial yet underexplored paradigm.
- Abstract(参考訳): 忠実さは、説明可能なAIの信頼性を評価する上で、間違いなく最も重要な指標である。
NLPでは、現在の忠実度評価の手法は相違点と偏見を伴い、しばしばモデルの真の推論を捉えない。
本稿では, モデルが敵攻撃を受ける際の説明者の反応に着目し, 忠実度評価への新たなアプローチとして, 対人感について紹介する。
本手法は, 逆入力変化に対する感度を捉えることによって, 説明者の忠実さを考慮に入れている。
この研究は、既存の評価手法における重大な制限に対処し、さらに、重要で未調査のパラダイムから忠実さを定量化する。
関連論文リスト
- Can you trust your explanations? A robustness test for feature attribution methods [42.36530107262305]
説明可能なAI(XAI)の分野は急速に成長しているが、その技術の使用は時々予期せぬ結果をもたらした。
多様体仮説とアンサンブルアプローチの活用が、ロバスト性の詳細な解析にどのように役立つかを示す。
論文 参考訳(メタデータ) (2024-06-20T14:17:57Z) - Goodhart's Law Applies to NLP's Explanation Benchmarks [57.26445915212884]
ERASER(Comprehensiveness and sufficiency)メトリクスとEVAL-X(EVAL-X)メトリクスの2つのセットを批判的に検討する。
実験結果の予測や説明を変えることなく,モデル全体の包括性と充足率を劇的に向上させることができることを示す。
我々の結果は、現在のメトリクスが説明可能性の研究をガイドする能力に疑問を呈し、これらのメトリクスが正確に捉えるものを再評価する必要性を強調します。
論文 参考訳(メタデータ) (2023-08-28T03:03:03Z) - Demystifying Causal Features on Adversarial Examples and Causal
Inoculation for Robust Network by Adversarial Instrumental Variable
Regression [32.727673706238086]
本稿では、因果的な観点から、敵の訓練を受けたネットワークにおける予期せぬ脆弱性を掘り下げる手法を提案する。
展開することで,不偏環境下での敵予測の因果関係を推定する。
その結果, 推定因果関係は, 正解率の正解率と高い相関関係があることが示唆された。
論文 参考訳(メタデータ) (2023-03-02T08:18:22Z) - FRSUM: Towards Faithful Abstractive Summarization via Enhancing Factual
Robustness [56.263482420177915]
我々は,既存のシステムの忠実さを,事実的堅牢性という新たな視点から研究する。
本研究では,新たなトレーニング戦略,すなわちFRSUMを提案し,そのモデルに対して,暗黙の対角的サンプルと暗黙の対向的摂動の両方を防御するように指導する。
論文 参考訳(メタデータ) (2022-11-01T06:09:00Z) - Disentangled Text Representation Learning with Information-Theoretic
Perspective for Adversarial Robustness [17.5771010094384]
敵の脆弱性は信頼性の高いNLPシステムを構築する上で大きな障害である。
最近の研究は、モデルの敵意的な脆弱性は教師あり訓練における非破壊的な特徴によって引き起こされると主張している。
本稿では,不整合表現学習の観点から,敵対的課題に取り組む。
論文 参考訳(メタデータ) (2022-10-26T18:14:39Z) - Logical Satisfiability of Counterfactuals for Faithful Explanations in
NLI [60.142926537264714]
本稿では, 忠実度スルー・カウンタファクトの方法論について紹介する。
これは、説明に表される論理述語に基づいて、反実仮説を生成する。
そして、そのモデルが表現された論理と反ファクトの予測が一致しているかどうかを評価する。
論文 参考訳(メタデータ) (2022-05-25T03:40:59Z) - Residual Error: a New Performance Measure for Adversarial Robustness [85.0371352689919]
ディープラーニングの広く普及を制限する大きな課題は、敵の攻撃に対する脆弱さである。
本研究は,ディープニューラルネットワークの対角強靭性を評価するための新しい性能尺度である残留誤差の概念を提示する。
画像分類を用いた実験結果から,提案手法の有効性と有効性を示した。
論文 参考訳(メタデータ) (2021-06-18T16:34:23Z) - Exploring Robustness of Unsupervised Domain Adaptation in Semantic
Segmentation [74.05906222376608]
クリーンな画像とそれらの逆の例との一致を、出力空間における対照的な損失によって最大化する、逆向きの自己スーパービジョンUDA(ASSUDA)を提案する。
i) セマンティックセグメンテーションにおけるUDA手法のロバスト性は未解明のままであり, (ii) 一般的に自己スーパービジョン(回転やジグソーなど) は分類や認識などのイメージタスクに有効であるが, セグメンテーションタスクの識別的表現を学習する重要な監視信号の提供には失敗している。
論文 参考訳(メタデータ) (2021-05-23T01:50:44Z) - Balancing Robustness and Sensitivity using Feature Contrastive Learning [95.86909855412601]
堅牢性を促進する方法は、希少なパターンや表現不足パターンに対するモデルの感受性を損なう可能性がある。
本稿では,より高次文脈的有用性を持つ機能に対して,モデルにより敏感な特徴を与える機能コントラスト学習(FCL)を提案する。
論文 参考訳(メタデータ) (2021-05-19T20:53:02Z) - Recent Advances in Understanding Adversarial Robustness of Deep Neural
Networks [15.217367754000913]
敵の例に抵抗する高い堅牢性を持つモデルを得ることがますます重要である。
我々は、敵の攻撃と堅牢性について、予備的な定義を与える。
我々は、頻繁に使用されるベンチマークについて研究し、理論的に証明された敵の堅牢性の境界について言及する。
論文 参考訳(メタデータ) (2020-11-03T07:42:53Z) - Identifying Causal-Effect Inference Failure with Uncertainty-Aware
Models [41.53326337725239]
本稿では,不確実性推定を最先端のニューラルネットワーク手法のクラスに統合する実践的アプローチを提案する。
提案手法は,高次元データに共通する「非オーバーラップ」の状況に優雅に対処できることを示す。
正確なモデリングの不確実性は、過度に自信を持ち、潜在的に有害なレコメンデーションを与えるのを防ぐことができる。
論文 参考訳(メタデータ) (2020-07-01T00:37:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。