論文の概要: Understanding and Mitigating Spurious Correlations in Text
Classification with Neighborhood Analysis
- arxiv url: http://arxiv.org/abs/2305.13654v3
- Date: Sat, 3 Feb 2024 16:44:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 06:28:56.427214
- Title: Understanding and Mitigating Spurious Correlations in Text
Classification with Neighborhood Analysis
- Title(参考訳): テキスト分類と周辺分析における純粋相関の理解と緩和
- Authors: Oscar Chew, Hsuan-Tien Lin, Kai-Wei Chang, Kuan-Hao Huang
- Abstract要約: 機械学習モデルは、トレーニングセットに存在するが一般的な状況では当てはまらない急激な相関を利用する傾向にある。
本稿では, 周辺分析と呼ばれる新しい視点から, 突発的相関がもたらす意味について考察する。
本稿では,テキスト分類における素早い相関を緩和する正規化手法であるNFL(doN't Forget your Language)を提案する。
- 参考スコア(独自算出の注目度): 69.07674653828565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent research has revealed that machine learning models have a tendency to
leverage spurious correlations that exist in the training set but may not hold
true in general circumstances. For instance, a sentiment classifier may
erroneously learn that the token "performances" is commonly associated with
positive movie reviews. Relying on these spurious correlations degrades the
classifiers performance when it deploys on out-of-distribution data. In this
paper, we examine the implications of spurious correlations through a novel
perspective called neighborhood analysis. The analysis uncovers how spurious
correlations lead unrelated words to erroneously cluster together in the
embedding space. Driven by the analysis, we design a metric to detect spurious
tokens and also propose a family of regularization methods, NFL (doN't Forget
your Language) to mitigate spurious correlations in text classification.
Experiments show that NFL can effectively prevent erroneous clusters and
significantly improve the robustness of classifiers without auxiliary data. The
code is publicly available at
https://github.com/oscarchew/doNt-Forget-your-Language.
- Abstract(参考訳): 近年の研究では、機械学習モデルはトレーニングセットに存在するが、一般的な状況では当てはまらない刺激的な相関を利用する傾向にあることが明らかになった。
例えば、感情分類器は誤ってトークン「パフォーマンス」が肯定的な映画レビューと一般的に関連していることを学習することができる。
これらのスプリアス相関に依存すると、分散外データにデプロイすると、分類器のパフォーマンスが低下する。
本稿では, 周辺分析と呼ばれる新たな視点から, 突発的相関の影響を考察する。
この分析は、スプリアス相関が非関係な単語を埋め込み空間に誤って集結させる方法を明らかにする。
この分析により,スプリアストークンを検出するためのメトリクスを設計し,テキスト分類におけるスプリアス相関を緩和する正規化手法であるNFL(DoN't Forget your Language)を提案する。
実験により、nflは誤クラスタを効果的に防止し、補助データなしで分類器のロバスト性を大幅に改善できることが示されている。
コードはhttps://github.com/oscarchew/doNt-Forget-your-Languageで公開されている。
関連論文リスト
- Spuriousness-Aware Meta-Learning for Learning Robust Classifiers [26.544938760265136]
Spurious correlations is brittle associations between certain attribute of inputs and target variables。
深部画像分類器はしばしばそれらを予測に利用し、相関が持たないデータの一般化が不十分になる。
スプリアス相関の影響を緩和することはロバストなモデル一般化に不可欠であるが、しばしばデータ内のスプリアス相関のアノテーションを必要とする。
論文 参考訳(メタデータ) (2024-06-15T21:41:25Z) - Learning Robust Classifiers with Self-Guided Spurious Correlation Mitigation [26.544938760265136]
ディープニューラル分類器は、入力のスプリアス属性とターゲットの間のスプリアス相関に頼り、予測を行う。
本稿では,自己誘導型スプリアス相関緩和フレームワークを提案する。
予測行動の違いを識別するために分類器の訓練を行うことで,事前知識を必要とせず,素因関係への依存を軽減できることを示す。
論文 参考訳(メタデータ) (2024-05-06T17:12:21Z) - Unsupervised Concept Discovery Mitigates Spurious Correlations [45.48778210340187]
トレーニングデータにおける急激な相関関係のモデルはしばしば脆い予測を発生させ、意図しないバイアスを導入する。
本稿では,教師なし対象中心学習と突発的相関の緩和の新たな関連性を確立する。
コバルト(CoBalT)は、サブグループの人間のラベル付けを必要とせず、効果的に素早い相関を緩和する概念バランス技術である。
論文 参考訳(メタデータ) (2024-02-20T20:48:00Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Identifying Spurious Correlations using Counterfactual Alignment [5.782952470371709]
急激な相関によって駆動されるモデルは、しばしば一般化性能が劣る。
本稿では,突発的相関を検出・定量化するためのCFアライメント手法を提案する。
論文 参考訳(メタデータ) (2023-12-01T20:16:02Z) - Making Retrieval-Augmented Language Models Robust to Irrelevant Context [55.564789967211844]
ALMの重要なデシプラタムは、検索された情報が関連する場合のパフォーマンスをモデル化するのに役立つことである。
近年の研究では、検索の増大がパフォーマンスに悪影響を及ぼすことが示されている。
論文 参考訳(メタデータ) (2023-10-02T18:52:35Z) - Language Model Classifier Aligns Better with Physician Word Sensitivity
than XGBoost on Readmission Prediction [86.15787587540132]
語彙レベルでモデルの振る舞いを精査する尺度である感度スコアを導入する。
本実験は,感度スコアのランク相関に基づいて,臨床医と分類医の意思決定論理を比較した。
論文 参考訳(メタデータ) (2022-11-13T23:59:11Z) - Benign Overfitting in Adversarially Robust Linear Classification [91.42259226639837]
分類器がノイズの多いトレーニングデータを記憶しながらも、優れた一般化性能を達成している「双曲オーバーフィッティング」は、機械学習コミュニティにおいて大きな注目を集めている。
本研究は, 対人訓練において, 対人訓練において, 良心過剰が実際に発生することを示し, 対人訓練に対する防御の原則的アプローチを示す。
論文 参考訳(メタデータ) (2021-12-31T00:27:31Z) - Counterfactual Invariance to Spurious Correlations: Why and How to Pass
Stress Tests [87.60900567941428]
素早い相関」とは、アナリストが重要とすべきでないと考える入力データのある側面に対するモデルの依存である。
機械学習では、これらにはノウ・イ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ」という特徴がある。
因果推論ツールを用いたストレステストについて検討した。
論文 参考訳(メタデータ) (2021-05-31T14:39:38Z) - Identifying Spurious Correlations for Robust Text Classification [9.457737910527829]
そこで本研究では,テキスト分類におけるスプリアスと真の相関を区別する手法を提案する。
我々は、治療効果推定器から得られる特徴を用いて、突発的な相関を「遺伝子」と区別する。
4つのデータセットの実験は、このアプローチを使って特徴の選択を知らせることが、より堅牢な分類につながることを示唆している。
論文 参考訳(メタデータ) (2020-10-06T03:49:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。