論文の概要: Explanation Regularisation through the Lens of Attributions
- arxiv url: http://arxiv.org/abs/2407.16693v1
- Date: Tue, 23 Jul 2024 17:56:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 16:16:18.572199
- Title: Explanation Regularisation through the Lens of Attributions
- Title(参考訳): 属性レンズによる説明規則化
- Authors: Pedro Ferreira, Wilker Aziz, Ivan Titov,
- Abstract要約: 説明正則化(ER)は、モデルが予測を「称賛できる」ように導く方法として導入された。
この研究は、可算トークンの分類決定を通知するERの有効性の研究に貢献する。
- 参考スコア(独自算出の注目度): 30.68740512996253
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Explanation regularisation (ER) has been introduced as a way to guide models to make their predictions in a manner more akin to humans, i.e., making their attributions "plausible". This is achieved by introducing an auxiliary explanation loss, that measures how well the output of an input attribution technique for the model agrees with relevant human-annotated rationales. One positive outcome of using ER appears to be improved performance in out-of-domain (OOD) settings, presumably due to an increased reliance on "plausible" tokens. However, previous work has under-explored the impact of the ER objective on model attributions, in particular when obtained with techniques other than the one used to train ER. In this work, we contribute a study of ER's effectiveness at informing classification decisions on plausible tokens, and the relationship between increased plausibility and robustness to OOD conditions. Through a series of analyses, we find that the connection between ER and the ability of a classifier to rely on plausible features has been overstated and that a stronger reliance on plausible tokens does not seem to be the cause for any perceived OOD improvements.
- Abstract(参考訳): 説明正則化(英: Explanation regularisation, ER)は、モデルが人間に似通った方法で予測を導く方法、すなわち、その属性を「称賛できる」ものにする手段として導入された。
これは、モデルに対する入力帰属手法の出力が、関連する人間の注釈付き有理数とどの程度うまく一致しているかを測定する補助的な説明損失を導入することで達成される。
ERの使用による肯定的な結果の1つは、ドメイン外(OOD)設定のパフォーマンスの改善である。
しかし、従来の研究はERの目的がモデル属性に与える影響を過小評価しており、特にERの訓練に使用される技術以外の技術で得られる場合は、その影響を未然に調査している。
本研究は,ERが可視トークンの分類決定を通知する上での有効性と,OOD条件に対する可視性の増加と堅牢性の関係について考察する。
一連の分析の結果、ERと分類器の関連性は、可視的特徴に依存する能力は過大評価されており、可視的トークンへの依存がOOD改善の原因とはなっていないことが判明した。
関連論文リスト
- Identifiable Latent Neural Causal Models [82.14087963690561]
因果表現学習は、低レベルの観測データから潜伏した高レベルの因果表現を明らかにすることを目指している。
因果表現の識別可能性に寄与する分布シフトのタイプを決定する。
本稿では,本研究の成果を実用的なアルゴリズムに翻訳し,信頼性の高い潜在因果表現の取得を可能にする。
論文 参考訳(メタデータ) (2024-03-23T04:13:55Z) - REFER: An End-to-end Rationale Extraction Framework for Explanation
Regularization [12.409398096527829]
本稿では,理性抽出プロセスを通じてバックプロパゲーションを可能にする,微分可能な理性抽出器を用いたフレームワークであるREFERを提案する。
課題モデルと有理抽出器を共同で訓練することにより,トレーニング中にヒトのハイライトを用いることによる影響を分析した。
論文 参考訳(メタデータ) (2023-10-22T21:20:52Z) - Ladder-of-Thought: Using Knowledge as Steps to Elevate Stance Detection [73.31406286956535]
姿勢検出タスクにLadder-of-Thought(LoT)を導入する。
LoTは、小さなLMに高品質な外部知識を同化させ、生成した中間的論理を精査するように指示する。
実験では, 姿勢検出タスクにおけるCoTのGPT-3.5よりも16%改善し, 10%向上した。
論文 参考訳(メタデータ) (2023-08-31T14:31:48Z) - Why Does Little Robustness Help? Understanding and Improving Adversarial
Transferability from Surrogate Training [24.376314203167016]
DNNの逆例(AE)は転送可能であることが示されている。
本稿では,敵対的伝達可能性の理解に向けてさらなる一歩を踏み出す。
論文 参考訳(メタデータ) (2023-07-15T19:20:49Z) - Be Your Own Neighborhood: Detecting Adversarial Example by the
Neighborhood Relations Built on Self-Supervised Learning [64.78972193105443]
本稿では,予測に有効な新しいAE検出フレームワークを提案する。
AEの異常な関係と拡張バージョンを区別して検出を行う。
表現を抽出し、ラベルを予測するために、既製の自己監視学習(SSL)モデルが使用される。
論文 参考訳(メタデータ) (2022-08-31T08:18:44Z) - Exploiting the Relationship Between Kendall's Rank Correlation and
Cosine Similarity for Attribution Protection [21.341303776931532]
まず、期待されるケンドールのランク相関がコサイン類似性と正に相関していることを示し、帰属方向が帰属ロバスト性の鍵であることを示す。
解析の結果,IGRは自然試料とそれに対応する摂動標本に対して,同じ活性化状態のニューロンを刺激することが明らかとなった。
論文 参考訳(メタデータ) (2022-05-15T13:08:50Z) - Effective Explanations for Entity Resolution Models [21.518135952436975]
本研究では,ERの深層学習における説明可能性に関する基礎的問題について検討する。
本稿では,ER問題のセマンティクスを意識したCERTA手法を提案する。
我々は,公開データセットを用いたDLモデルに基づいて,CERTAによる最先端ERソリューションの説明を実験的に評価した。
論文 参考訳(メタデータ) (2022-03-24T10:50:05Z) - Deconfounding Scores: Feature Representations for Causal Effect
Estimation with Weak Overlap [140.98628848491146]
推定対象の偏りを伴わずに高い重なりを生じさせる,デコンファウンディングスコアを導入する。
分離スコアは観測データで識別可能なゼロ共分散条件を満たすことを示す。
特に,この手法が標準正規化の魅力的な代替となることを示す。
論文 参考訳(メタデータ) (2021-04-12T18:50:11Z) - Latent Causal Invariant Model [128.7508609492542]
現在の教師付き学習は、データ適合プロセス中に急激な相関を学習することができる。
因果予測を求める潜在因果不変モデル(LaCIM)を提案する。
論文 参考訳(メタデータ) (2020-11-04T10:00:27Z) - Self-Attention Attribution: Interpreting Information Interactions Inside
Transformer [89.21584915290319]
本稿では,トランスフォーマー内の情報相互作用を解釈する自己帰属属性法を提案する。
本研究は,BERT に対する非目標攻撃の実装において,その属性を敵対パターンとして用いることができることを示す。
論文 参考訳(メタデータ) (2020-04-23T14:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。