論文の概要: Influence Tuning: Demoting Spurious Correlations via Instance
Attribution and Instance-Driven Updates
- arxiv url: http://arxiv.org/abs/2110.03212v1
- Date: Thu, 7 Oct 2021 06:59:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-08 15:48:18.369659
- Title: Influence Tuning: Demoting Spurious Correlations via Instance
Attribution and Instance-Driven Updates
- Title(参考訳): インフルエンサーチューニング:インスタンス属性とインスタンス駆動更新によるスプリアス相関の復調
- Authors: Xiaochuang Han, Yulia Tsvetkov
- Abstract要約: インフルエンスチューニングは、データの急激なパターンからモデルを分解するのに役立ちます。
制御された設定では、インフルエンスチューニングは、データの急激なパターンからモデルを分解するのに役立ちます。
- 参考スコア(独自算出の注目度): 26.527311287924995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Among the most critical limitations of deep learning NLP models are their
lack of interpretability, and their reliance on spurious correlations. Prior
work proposed various approaches to interpreting the black-box models to unveil
the spurious correlations, but the research was primarily used in
human-computer interaction scenarios. It still remains underexplored whether or
how such model interpretations can be used to automatically "unlearn"
confounding features. In this work, we propose influence tuning--a procedure
that leverages model interpretations to update the model parameters towards a
plausible interpretation (rather than an interpretation that relies on spurious
patterns in the data) in addition to learning to predict the task labels. We
show that in a controlled setup, influence tuning can help deconfounding the
model from spurious patterns in data, significantly outperforming baseline
methods that use adversarial training.
- Abstract(参考訳): ディープラーニングNLPモデルの最も重要な制限は、解釈可能性の欠如と、素早い相関に依存することである。
以前の研究はブラックボックスモデルを解釈してスプリアス相関を明らかにする様々なアプローチを提案したが、研究は主に人間とコンピュータの相互作用シナリオで使用された。
このようなモデルの解釈が自動的に「未学習」な特徴にどのように使われるかはまだ未解明のままである。
本稿では,モデル解釈を利用してモデルパラメータを(データ内のスプリアスパターンに依存する解釈ではなく)妥当な解釈へと更新し,タスクラベルの予測を学習する手法であるインフルエンスチューニングを提案する。
制御された設定において、インフルエンサーチューニングは、データ内の散発的なパターンからモデルを分離するのに役立ち、逆のトレーニングを使用するベースラインメソッドを著しく上回ることを示します。
関連論文リスト
- Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - Causal Analysis for Robust Interpretability of Neural Networks [0.2519906683279152]
我々は、事前学習されたニューラルネットワークの因果効果を捉えるための頑健な介入に基づく手法を開発した。
分類タスクで訓練された視覚モデルに本手法を適用した。
論文 参考訳(メタデータ) (2023-05-15T18:37:24Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - A Detailed Study of Interpretability of Deep Neural Network based Top
Taggers [3.8541104292281805]
説明可能なAI(XAI)の最近の進歩により、研究者はディープニューラルネットワーク(DNN)の内部動作を探索できる。
大型ハドロン衝突型加速器(LHC)における高エネルギー陽子-陽子衝突におけるトップクォーク崩壊からのジェットの解釈可能性について検討する。
本研究は,既存のXAI手法の大きな落とし穴を明らかにし,これらのモデルの一貫性と意味のある解釈をいかに克服できるかを説明する。
論文 参考訳(メタデータ) (2022-10-09T23:02:42Z) - How robust are pre-trained models to distribution shift? [82.08946007821184]
自己教師付き学習(SSL)と自己エンコーダベースモデル(AE)の相互関係が相互関係に与える影響を示す。
本研究では, 線形ヘッドの潜在バイアスから事前学習したモデルの性能を分離するために, アウト・オブ・ディストリビューション(OOD)データに基づいて訓練された線形ヘッドを用いた新しい評価手法を開発した。
論文 参考訳(メタデータ) (2022-06-17T16:18:28Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - Correlation inference attacks against machine learning models [6.805105137455252]
モデルが入力変数間の相関関係に関する情報を漏らすかどうか, 相関推論攻撃について検討する。
私たちの結果は、モデルが何をし、トレーニングセットから覚えるべきかについて、根本的な疑問を投げかけます。
論文 参考訳(メタデータ) (2021-12-16T11:42:45Z) - Refining Neural Networks with Compositional Explanations [31.84868477264624]
本稿では,モデルの失敗事例に関する人為的な構成説明を収集し,学習モデルの改良を提案する。
提案手法が2つのテキスト分類タスクに有効であることを示す。
論文 参考訳(メタデータ) (2021-03-18T17:48:54Z) - Recoding latent sentence representations -- Dynamic gradient-based
activation modification in RNNs [0.0]
RNNでは、サブオプティマティックな方法で情報をエンコーディングすることは、シーケンスの後の要素に基づいて表現の質に影響を与える可能性がある。
勾配に基づく補正機構を用いて,標準RNNへの拡張を提案する。
言語モデリングの文脈で異なる実験を行い、そのようなメカニズムを使うことによる影響を詳細に調べる。
論文 参考訳(メタデータ) (2021-01-03T17:54:17Z) - Learning from others' mistakes: Avoiding dataset biases without modeling
them [111.17078939377313]
最先端自然言語処理(NLP)モデルは、意図したタスクをターゲットとする機能ではなく、データセットのバイアスや表面形状の相関をモデル化することを学ぶことが多い。
これまでの研究は、バイアスに関する知識が利用できる場合に、これらの問題を回避するための効果的な方法を示してきた。
本稿では,これらの問題点を無視する学習モデルについて述べる。
論文 参考訳(メタデータ) (2020-12-02T16:10:54Z) - Explaining and Improving Model Behavior with k Nearest Neighbor
Representations [107.24850861390196]
モデルの予測に責任のあるトレーニング例を特定するために, k 近傍表現を提案する。
我々は,kNN表現が学習した素因関係を明らかにするのに有効であることを示す。
以上の結果から,kNN手法により,直交モデルが逆入力に対してより堅牢であることが示唆された。
論文 参考訳(メタデータ) (2020-10-18T16:55:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。