論文の概要: Easy to Decide, Hard to Agree: Reducing Disagreements Between Saliency
Methods
- arxiv url: http://arxiv.org/abs/2211.08369v3
- Date: Thu, 11 May 2023 11:37:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-12 18:28:35.895757
- Title: Easy to Decide, Hard to Agree: Reducing Disagreements Between Saliency
Methods
- Title(参考訳): 決断し易く、同意し難い: 相性メソッド間の相違を減らす
- Authors: Josip Juki\'c, Martin Tutek, Jan \v{S}najder
- Abstract要約: 本研究では,同じモデルインスタンスに適用した場合においても,サリエンシ法は低いランク相関を示すことを示す。
注意深い説明の忠実度を高める正規化技術は、給与法間の合意も高める。
- 参考スコア(独自算出の注目度): 0.15039745292757667
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A popular approach to unveiling the black box of neural NLP models is to
leverage saliency methods, which assign scalar importance scores to each input
component. A common practice for evaluating whether an interpretability method
is faithful has been to use evaluation-by-agreement -- if multiple methods
agree on an explanation, its credibility increases. However, recent work has
found that saliency methods exhibit weak rank correlations even when applied to
the same model instance and advocated for the use of alternative diagnostic
methods. In our work, we demonstrate that rank correlation is not a good fit
for evaluating agreement and argue that Pearson-$r$ is a better-suited
alternative. We further show that regularization techniques that increase
faithfulness of attention explanations also increase agreement between saliency
methods. By connecting our findings to instance categories based on training
dynamics, we show that the agreement of saliency method explanations is very
low for easy-to-learn instances. Finally, we connect the improvement in
agreement across instance categories to local representation space statistics
of instances, paving the way for work on analyzing which intrinsic model
properties improve their predisposition to interpretability methods.
- Abstract(参考訳): ニューラルNLPモデルのブラックボックスを公開するための一般的なアプローチは、各入力コンポーネントにスカラー重要度スコアを割り当てるサリエンシ手法を活用することである。
解釈可能性法が忠実であるかどうかを評価するための一般的な実践は、複数のメソッドが説明に一致する場合、その信頼性は増大する。
しかし、最近の研究では、同じモデルインスタンスに適用しても、サラレンシ法は低いランク相関を示し、代替診断法の使用を提唱している。
私たちの研究では、ランク相関が合意の評価に適さないことを実証し、pearson-$r$がより適した代替手段であると主張する。
さらに,注意力説明の忠実度を高める正規化手法が,衛生手法の一致を増大させることを示す。
本研究の結果をトレーニング力学に基づく事例分類に結びつけることにより,学習が容易な事例では,有能な方法の説明の一致が極めて低いことを示す。
最後に、インスタンスカテゴリ間の合意の改善とインスタンスの局所表現空間統計とを結びつけ、どの内在的モデルプロパティが解釈可能性メソッドの前置性を改善するかを分析する作業の道を開く。
関連論文リスト
- Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - Comparing Explanation Methods for Traditional Machine Learning Models
Part 2: Quantifying Model Explainability Faithfulness and Improvements with
Dimensionality Reduction [0.0]
忠実さ」または「忠実さ」とは、割り当てられた特徴の重要性と、その特徴のモデル性能への貢献の対応を指す。
本研究は,関係する特徴を限定することによる説明可能性の向上と,異なる説明可能性手法の相対的忠実性を知ることから,初めて説明可能性の向上を定量化した1つである。
論文 参考訳(メタデータ) (2022-11-18T17:15:59Z) - Differentiable Data Augmentation for Contrastive Sentence Representation
Learning [6.398022050054328]
提案手法は, 半教師付き設定と教師付き設定の両方において, 既存手法よりも大幅に改善されている。
また,低ラベルデータ設定による実験により,本手法は最先端のコントラスト学習法よりもラベル効率が高いことが示された。
論文 参考訳(メタデータ) (2022-10-29T08:57:45Z) - "Will You Find These Shortcuts?" A Protocol for Evaluating the
Faithfulness of Input Salience Methods for Text Classification [38.22453895596424]
本稿では,部分合成データを用いて特徴重要度ランキングの真理を得る忠実度評価プロトコルを提案する。
BERT と LSTM モデルのデータセットおよびショートカットの4つの標準サリエンス法クラスを詳細に解析する。
ショートカットを識別する最良の方法を見つけるために、新しいタスクとモデルの組み合わせごとにプロトコルに従うことを推奨する。
論文 参考訳(メタデータ) (2021-11-14T15:31:29Z) - Contrastive Learning for Fair Representations [50.95604482330149]
訓練された分類モデルは、意図せずバイアスのある表現や予測につながる可能性がある。
対戦訓練のような既存の分類モデルのデバイアス化手法は、訓練に高価であり、最適化が困難であることが多い。
比較学習を取り入れたバイアス軽減手法を提案し、同じクラスラベルを共有するインスタンスに類似した表現を推奨する。
論文 参考訳(メタデータ) (2021-09-22T10:47:51Z) - Direct Advantage Estimation [63.52264764099532]
予測されるリターンは、学習を遅くする可能性のある望ましくない方法でポリシーに依存する可能性があることを示します。
本稿では,優位関数をモデル化し,データから直接推定する手法として,DAE(Direct Advantage Estimation)を提案する。
望むなら、値関数をDAEにシームレスに統合して、時間差学習と同様の方法で更新することもできる。
論文 参考訳(メタデータ) (2021-09-13T16:09:31Z) - Scalable Personalised Item Ranking through Parametric Density Estimation [53.44830012414444]
暗黙のフィードバックから学ぶことは、一流問題の難しい性質のために困難です。
ほとんどの従来の方法は、一級問題に対処するためにペアワイズランキングアプローチとネガティブサンプラーを使用します。
本論文では,ポイントワイズと同等の収束速度を実現する学習対ランクアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-11T03:38:16Z) - An Empirical Comparison of Instance Attribution Methods for NLP [62.63504976810927]
本研究は,トレーニングサンプルの重要性に関して,異なるインスタンス属性が一致した度合いを評価する。
単純な検索メソッドは、グラデーションベースの方法によって識別されたものと異なるトレーニングインスタンスを生成する。
論文 参考訳(メタデータ) (2021-04-09T01:03:17Z) - There and Back Again: Revisiting Backpropagation Saliency Methods [87.40330595283969]
正当性法は,各入力サンプルの重要度マップを作成することによって,モデルの予測を説明する。
このような手法の一般的なクラスは、信号のバックプロパゲートと結果の勾配の分析に基づいている。
本稿では,そのような手法を統一可能な単一のフレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-06T17:58:08Z) - An end-to-end approach for the verification problem: learning the right
distance [15.553424028461885]
パラメトリックな擬似距離を導入し、エンコーダと共同で学習することで、メトリック学習の設定を強化する。
まず、仮説テストに使用できる確率比を近似して示す。
提案手法では,実際の距離を持つメートル法学習に比べて,学習の簡易化が図られている。
論文 参考訳(メタデータ) (2020-02-21T18:46:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。