論文の概要: Understanding and Mitigating Spurious Correlations in Text
Classification with Neighborhood Analysis
- arxiv url: http://arxiv.org/abs/2305.13654v3
- Date: Sat, 3 Feb 2024 16:44:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 06:28:56.427214
- Title: Understanding and Mitigating Spurious Correlations in Text
Classification with Neighborhood Analysis
- Title(参考訳): テキスト分類と周辺分析における純粋相関の理解と緩和
- Authors: Oscar Chew, Hsuan-Tien Lin, Kai-Wei Chang, Kuan-Hao Huang
- Abstract要約: 機械学習モデルは、トレーニングセットに存在するが一般的な状況では当てはまらない急激な相関を利用する傾向にある。
本稿では, 周辺分析と呼ばれる新しい視点から, 突発的相関がもたらす意味について考察する。
本稿では,テキスト分類における素早い相関を緩和する正規化手法であるNFL(doN't Forget your Language)を提案する。
- 参考スコア(独自算出の注目度): 69.07674653828565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent research has revealed that machine learning models have a tendency to
leverage spurious correlations that exist in the training set but may not hold
true in general circumstances. For instance, a sentiment classifier may
erroneously learn that the token "performances" is commonly associated with
positive movie reviews. Relying on these spurious correlations degrades the
classifiers performance when it deploys on out-of-distribution data. In this
paper, we examine the implications of spurious correlations through a novel
perspective called neighborhood analysis. The analysis uncovers how spurious
correlations lead unrelated words to erroneously cluster together in the
embedding space. Driven by the analysis, we design a metric to detect spurious
tokens and also propose a family of regularization methods, NFL (doN't Forget
your Language) to mitigate spurious correlations in text classification.
Experiments show that NFL can effectively prevent erroneous clusters and
significantly improve the robustness of classifiers without auxiliary data. The
code is publicly available at
https://github.com/oscarchew/doNt-Forget-your-Language.
- Abstract(参考訳): 近年の研究では、機械学習モデルはトレーニングセットに存在するが、一般的な状況では当てはまらない刺激的な相関を利用する傾向にあることが明らかになった。
例えば、感情分類器は誤ってトークン「パフォーマンス」が肯定的な映画レビューと一般的に関連していることを学習することができる。
これらのスプリアス相関に依存すると、分散外データにデプロイすると、分類器のパフォーマンスが低下する。
本稿では, 周辺分析と呼ばれる新たな視点から, 突発的相関の影響を考察する。
この分析は、スプリアス相関が非関係な単語を埋め込み空間に誤って集結させる方法を明らかにする。
この分析により,スプリアストークンを検出するためのメトリクスを設計し,テキスト分類におけるスプリアス相関を緩和する正規化手法であるNFL(DoN't Forget your Language)を提案する。
実験により、nflは誤クラスタを効果的に防止し、補助データなしで分類器のロバスト性を大幅に改善できることが示されている。
コードはhttps://github.com/oscarchew/doNt-Forget-your-Languageで公開されている。
関連論文リスト
- Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Identifying Spurious Correlations using Counterfactual Alignment [6.499459038865427]
急激な相関によって駆動されるモデルは、しばしば一般化性能が劣る。
ブラックボックス分類器の急激な相関を検知し,探索するための非現実的アライメント手法を提案する。
論文 参考訳(メタデータ) (2023-12-01T20:16:02Z) - Making Retrieval-Augmented Language Models Robust to Irrelevant Context [60.70054129188434]
ALMの重要なデシプラタムは、検索された情報が関連する場合のパフォーマンスをモデル化するのに役立つことである。
近年の研究では、検索の増大がパフォーマンスに悪影響を及ぼすことが示されている。
論文 参考訳(メタデータ) (2023-10-02T18:52:35Z) - Language Model Classifier Aligns Better with Physician Word Sensitivity
than XGBoost on Readmission Prediction [86.15787587540132]
語彙レベルでモデルの振る舞いを精査する尺度である感度スコアを導入する。
本実験は,感度スコアのランク相関に基づいて,臨床医と分類医の意思決定論理を比較した。
論文 参考訳(メタデータ) (2022-11-13T23:59:11Z) - Understanding Rare Spurious Correlations in Neural Networks [29.189409618561957]
ネットワークが素早い相関関係を拾うのにどれだけの例が必要かを考察する。
特定のクラスに相関したスプリアスパターンをいくつかの例に導入し,ネットワークがスプリアス相関を拾うのに,そのような例はごくわずかであることを確認した。
論文 参考訳(メタデータ) (2022-02-10T17:44:37Z) - Benign Overfitting in Adversarially Robust Linear Classification [91.42259226639837]
分類器がノイズの多いトレーニングデータを記憶しながらも、優れた一般化性能を達成している「双曲オーバーフィッティング」は、機械学習コミュニティにおいて大きな注目を集めている。
本研究は, 対人訓練において, 対人訓練において, 良心過剰が実際に発生することを示し, 対人訓練に対する防御の原則的アプローチを示す。
論文 参考訳(メタデータ) (2021-12-31T00:27:31Z) - Counterfactual Invariance to Spurious Correlations: Why and How to Pass
Stress Tests [87.60900567941428]
素早い相関」とは、アナリストが重要とすべきでないと考える入力データのある側面に対するモデルの依存である。
機械学習では、これらにはノウ・イ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ」という特徴がある。
因果推論ツールを用いたストレステストについて検討した。
論文 参考訳(メタデータ) (2021-05-31T14:39:38Z) - Robustness to Spurious Correlations in Text Classification via
Automatically Generated Counterfactuals [8.827892752465958]
自動生成された反実データを用いてトレーニングデータを増強し、堅牢なテキスト分類器のトレーニングを提案する。
因果的特徴を強調し,非因果的特徴を強調することで,ロバスト分類器は有意義で信頼性の高い予測を行うことを示す。
論文 参考訳(メタデータ) (2020-12-18T03:57:32Z) - Geometry matters: Exploring language examples at the decision boundary [2.7249290070320034]
BERT、CNN、fasttextは、高い難易度例において単語置換の影響を受けやすい。
YelpReviewPolarityでは、レジリエンスと摂動の相関係数-0.4と難易度との相関係数を観測する。
我々のアプローチは単純でアーキテクチャに依存しないものであり、テキスト分類モデルの華やかさの研究に利用できる。
論文 参考訳(メタデータ) (2020-10-14T16:26:13Z) - Identifying Spurious Correlations for Robust Text Classification [9.457737910527829]
そこで本研究では,テキスト分類におけるスプリアスと真の相関を区別する手法を提案する。
我々は、治療効果推定器から得られる特徴を用いて、突発的な相関を「遺伝子」と区別する。
4つのデータセットの実験は、このアプローチを使って特徴の選択を知らせることが、より堅牢な分類につながることを示唆している。
論文 参考訳(メタデータ) (2020-10-06T03:49:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。