論文の概要: Faithful to Whom? Questioning Interpretability Measures in NLP
- arxiv url: http://arxiv.org/abs/2308.06795v1
- Date: Sun, 13 Aug 2023 15:44:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-15 15:15:30.564492
- Title: Faithful to Whom? Questioning Interpretability Measures in NLP
- Title(参考訳): 誰に忠実か?
NLPの解釈可能性に関する質問
- Authors: Evan Crothers, Herna Viktor, Nathalie Japkowicz
- Abstract要約: 入力トークンの繰り返しマスキングに基づくメトリクスは、異なるニューラルテキスト分類器の解釈可能性を比較するには適していないことを示す。
本研究は,敵対的攻撃と敵対的訓練が忠実度スコアに及ぼす影響について検討し,テキスト敵対的攻撃における特徴的サリエンスの分析における忠実度尺度の妥当性を実証する。
- 参考スコア(独自算出の注目度): 5.759254425843609
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A common approach to quantifying model interpretability is to calculate
faithfulness metrics based on iteratively masking input tokens and measuring
how much the predicted label changes as a result. However, we show that such
metrics are generally not suitable for comparing the interpretability of
different neural text classifiers as the response to masked inputs is highly
model-specific. We demonstrate that iterative masking can produce large
variation in faithfulness scores between comparable models, and show that
masked samples are frequently outside the distribution seen during training. We
further investigate the impact of adversarial attacks and adversarial training
on faithfulness scores, and demonstrate the relevance of faithfulness measures
for analyzing feature salience in text adversarial attacks. Our findings
provide new insights into the limitations of current faithfulness metrics and
key considerations to utilize them appropriately.
- Abstract(参考訳): モデル解釈可能性の定量化の一般的なアプローチは、入力トークンを反復的にマスキングし、結果として予測されたラベルがどの程度変化するかを測定することである。
しかし,これらの指標は,マスキング入力に対する応答が高度にモデル固有であるため,異なるニューラルネットワーク分類器の解釈可能性を比較するのにはあまり適さないことを示す。
繰り返しマスキングは,同等のモデル間での忠実度スコアに大きな変動を生じさせ,マスキングされたサンプルがトレーニング中に見られる分布の外側で頻繁に見られることを示す。
さらに, 対人攻撃と対人訓練が忠実度スコアに与える影響について検討し, テキスト対人攻撃における特徴評価のための忠実度尺度の妥当性を実証する。
その結果,現在の忠実度指標の限界に対する新たな洞察と,それらを適切に活用するための重要な考察が得られた。
関連論文リスト
- How adversarial attacks can disrupt seemingly stable accurate
classifiers [80.2657717174889]
敵攻撃は、入力データに不連続な修正を加えることで、非正確な学習システムの出力を劇的に変化させる。
ここでは,これは高次元入力データを扱う分類器の基本的特徴であると考えられる。
実用システムで観測される重要な振る舞いを高い確率で発生させる、単純で汎用的なフレームワークを導入する。
論文 参考訳(メタデータ) (2023-09-07T12:02:00Z) - On the Universal Adversarial Perturbations for Efficient Data-free
Adversarial Detection [55.73320979733527]
本稿では,UAPに対して正常サンプルと逆サンプルの異なる応答を誘導する,データに依存しない逆検出フレームワークを提案する。
実験結果から,本手法は様々なテキスト分類タスクにおいて,競合検出性能を実現することが示された。
論文 参考訳(メタデータ) (2023-06-27T02:54:07Z) - Measuring Fairness of Text Classifiers via Prediction Sensitivity [63.56554964580627]
加速度予測感度は、入力特徴の摂動に対するモデルの予測感度に基づいて、機械学習モデルの公正度を測定する。
この計量は、群フェアネス(統計パリティ)と個人フェアネスという特定の概念と理論的に関連付けられることを示す。
論文 参考訳(メタデータ) (2022-03-16T15:00:33Z) - Identifying and Mitigating Spurious Correlations for Improving
Robustness in NLP Models [19.21465581259624]
多くの問題は、刺激的な相関を利用したモデルや、トレーニングデータとタスクラベルの間のショートカットに起因する可能性がある。
本論文では,NLPモデルにおけるこのような素因的相関を大規模に同定することを目的とする。
提案手法は,スケーラブルな「ショートカット」の集合を効果的かつ効率的に同定し,複数のアプリケーションにおいてより堅牢なモデルに導かれることを示す。
論文 参考訳(メタデータ) (2021-10-14T21:40:03Z) - Closeness and Uncertainty Aware Adversarial Examples Detection in
Adversarial Machine Learning [0.7734726150561088]
敵のサンプルを検出するための2つの異なるメトリクス群の使用法を探索し、評価します。
敵検出のための新機能を導入し、これらの指標のパフォーマンスが使用される攻撃の強さに大きく依存していることを示します。
論文 参考訳(メタデータ) (2020-12-11T14:44:59Z) - Trust but Verify: Assigning Prediction Credibility by Counterfactual
Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。
これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。
この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文 参考訳(メタデータ) (2020-11-24T19:52:38Z) - Adversarial Robustness of Supervised Sparse Coding [34.94566482399662]
表現を学習すると同時に、正確な一般化境界と堅牢性証明を与えるモデルを考える。
線形エンコーダと組み合わされたスパーシティプロモーティングエンコーダを組み合わせた仮説クラスに着目した。
エンドツーエンドの分類のための堅牢性証明を提供する。
論文 参考訳(メタデータ) (2020-10-22T22:05:21Z) - Learning Disentangled Representations with Latent Variation
Predictability [102.4163768995288]
本稿では,潜在不整合表現の変動予測可能性について述べる。
逆生成プロセス内では、潜時変動と対応する画像対の相互情報を最大化することにより、変動予測可能性を高める。
本研究では,潜在表現の絡み合いを測るために,基礎的構造的生成因子に依存しない評価指標を開発する。
論文 参考訳(メタデータ) (2020-07-25T08:54:26Z) - Fundamental Tradeoffs between Invariance and Sensitivity to Adversarial
Perturbations [65.05561023880351]
敵の例は誤分類を引き起こすために作られた悪意のある入力である。
本稿では, 相補的障害モード, 不変性に基づく逆数例について検討する。
感度に基づく攻撃に対する防御は、不変性に基づく攻撃に対するモデルの精度を積極的に損なうことを示す。
論文 参考訳(メタデータ) (2020-02-11T18:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。