Fugu-MT 論文翻訳(概要): Explanation Regularisation through the Lens of Attributions

論文の概要: Explanation Regularisation through the Lens of Attributions

arxiv url: http://arxiv.org/abs/2407.16693v1
Date: Tue, 23 Jul 2024 17:56:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-24 16:16:18.572199
Title: Explanation Regularisation through the Lens of Attributions
Title（参考訳）: 属性レンズによる説明規則化
Authors: Pedro Ferreira, Wilker Aziz, Ivan Titov,
Abstract要約: 説明正則化(ER)は、モデルが予測を「称賛できる」ように導く方法として導入された。この研究は、可算トークンの分類決定を通知するERの有効性の研究に貢献する。
参考スコア（独自算出の注目度）: 30.68740512996253
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Explanation regularisation (ER) has been introduced as a way to guide models to make their predictions in a manner more akin to humans, i.e., making their attributions "plausible". This is achieved by introducing an auxiliary explanation loss, that measures how well the output of an input attribution technique for the model agrees with relevant human-annotated rationales. One positive outcome of using ER appears to be improved performance in out-of-domain (OOD) settings, presumably due to an increased reliance on "plausible" tokens. However, previous work has under-explored the impact of the ER objective on model attributions, in particular when obtained with techniques other than the one used to train ER. In this work, we contribute a study of ER's effectiveness at informing classification decisions on plausible tokens, and the relationship between increased plausibility and robustness to OOD conditions. Through a series of analyses, we find that the connection between ER and the ability of a classifier to rely on plausible features has been overstated and that a stronger reliance on plausible tokens does not seem to be the cause for any perceived OOD improvements.
Abstract（参考訳）: 説明正則化(英: Explanation regularisation, ER)は、モデルが人間に似通った方法で予測を導く方法、すなわち、その属性を「称賛できる」ものにする手段として導入された。これは、モデルに対する入力帰属手法の出力が、関連する人間の注釈付き有理数とどの程度うまく一致しているかを測定する補助的な説明損失を導入することで達成される。 ERの使用による肯定的な結果の1つは、ドメイン外(OOD)設定のパフォーマンスの改善である。しかし、従来の研究はERの目的がモデル属性に与える影響を過小評価しており、特にERの訓練に使用される技術以外の技術で得られる場合は、その影響を未然に調査している。本研究は,ERが可視トークンの分類決定を通知する上での有効性と,OOD条件に対する可視性の増加と堅牢性の関係について考察する。一連の分析の結果、ERと分類器の関連性は、可視的特徴に依存する能力は過大評価されており、可視的トークンへの依存がOOD改善の原因とはなっていないことが判明した。

関連論文リスト

I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data? [76.15163242945813]
大規模言語モデル (LLM) は、多くの人が知能の形式を示すと結論づけている。本稿では,潜在離散変数として表現される人間解釈可能な概念に基づいてトークンを生成する新しい生成モデルを提案する。
論文参考訳（メタデータ） (2025-03-12T01:21:17Z)
Identifiable Latent Neural Causal Models [82.14087963690561]
因果表現学習は、低レベルの観測データから潜伏した高レベルの因果表現を明らかにすることを目指している。因果表現の識別可能性に寄与する分布シフトのタイプを決定する。本稿では,本研究の成果を実用的なアルゴリズムに翻訳し,信頼性の高い潜在因果表現の取得を可能にする。
論文参考訳（メタデータ） (2024-03-23T04:13:55Z)
Ladder-of-Thought: Using Knowledge as Steps to Elevate Stance Detection [73.31406286956535]
姿勢検出タスクにLadder-of-Thought(LoT)を導入する。 LoTは、小さなLMに高品質な外部知識を同化させ、生成した中間的論理を精査するように指示する。実験では, 姿勢検出タスクにおけるCoTのGPT-3.5よりも16%改善し, 10%向上した。
論文参考訳（メタデータ） (2023-08-31T14:31:48Z)
Goodhart's Law Applies to NLP's Explanation Benchmarks [57.26445915212884]
ERASER(Comprehensiveness and sufficiency)メトリクスとEVAL-X(EVAL-X)メトリクスの2つのセットを批判的に検討する。実験結果の予測や説明を変えることなく,モデル全体の包括性と充足率を劇的に向上させることができることを示す。我々の結果は、現在のメトリクスが説明可能性の研究をガイドする能力に疑問を呈し、これらのメトリクスが正確に捉えるものを再評価する必要性を強調します。
論文参考訳（メタデータ） (2023-08-28T03:03:03Z)
Explanations, Fairness, and Appropriate Reliance in Human-AI Decision-Making [10.049226270783562]
特徴に基づく説明がAIによる意思決定の分配的公平性に及ぼす影響について検討する。以上の結果から,説明は公正感に影響を及ぼし,人間のAI推奨に固執する傾向に影響を及ぼすことが明らかとなった。
論文参考訳（メタデータ） (2022-09-23T19:10:59Z)
Be Your Own Neighborhood: Detecting Adversarial Example by the Neighborhood Relations Built on Self-Supervised Learning [64.78972193105443]
本稿では,予測に有効な新しいAE検出フレームワークを提案する。 AEの異常な関係と拡張バージョンを区別して検出を行う。表現を抽出し、ラベルを予測するために、既製の自己監視学習(SSL)モデルが使用される。
論文参考訳（メタデータ） (2022-08-31T08:18:44Z)
Exploiting the Relationship Between Kendall's Rank Correlation and Cosine Similarity for Attribution Protection [21.341303776931532]
まず、期待されるケンドールのランク相関がコサイン類似性と正に相関していることを示し、帰属方向が帰属ロバスト性の鍵であることを示す。解析の結果,IGRは自然試料とそれに対応する摂動標本に対して,同じ活性化状態のニューロンを刺激することが明らかとなった。
論文参考訳（メタデータ） (2022-05-15T13:08:50Z)
Direct Advantage Estimation [63.52264764099532]
予測されるリターンは、学習を遅くする可能性のある望ましくない方法でポリシーに依存する可能性があることを示します。本稿では,優位関数をモデル化し,データから直接推定する手法として,DAE(Direct Advantage Estimation)を提案する。望むなら、値関数をDAEにシームレスに統合して、時間差学習と同様の方法で更新することもできる。
論文参考訳（メタデータ） (2021-09-13T16:09:31Z)
Towards Unifying Feature Attribution and Counterfactual Explanations: Different Means to the Same End [17.226134854746267]
本稿では,一組の反実例から特徴帰属説明を生成する手法を提案する。本報告では, 帰属に基づく説明の妥当性を, その必要性と充足性の観点から評価するために, 対実例をいかに活用するかを示す。
論文参考訳（メタデータ） (2020-11-10T05:41:43Z)
Self-Attention Attribution: Interpreting Information Interactions Inside Transformer [89.21584915290319]
本稿では,トランスフォーマー内の情報相互作用を解釈する自己帰属属性法を提案する。本研究は,BERT に対する非目標攻撃の実装において,その属性を敵対パターンとして用いることができることを示す。
論文参考訳（メタデータ） (2020-04-23T14:58:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。