Fugu-MT 論文翻訳(概要): Understanding and Mitigating Spurious Correlations in Text Classification with Neighborhood Analysis

論文の概要: Understanding and Mitigating Spurious Correlations in Text Classification with Neighborhood Analysis

arxiv url: http://arxiv.org/abs/2305.13654v3
Date: Sat, 3 Feb 2024 16:44:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-07 06:28:56.427214
Title: Understanding and Mitigating Spurious Correlations in Text Classification with Neighborhood Analysis
Title（参考訳）: テキスト分類と周辺分析における純粋相関の理解と緩和
Authors: Oscar Chew, Hsuan-Tien Lin, Kai-Wei Chang, Kuan-Hao Huang
Abstract要約: 機械学習モデルは、トレーニングセットに存在するが一般的な状況では当てはまらない急激な相関を利用する傾向にある。本稿では, 周辺分析と呼ばれる新しい視点から, 突発的相関がもたらす意味について考察する。本稿では,テキスト分類における素早い相関を緩和する正規化手法であるNFL(doN't Forget your Language)を提案する。
参考スコア（独自算出の注目度）: 69.07674653828565
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent research has revealed that machine learning models have a tendency to leverage spurious correlations that exist in the training set but may not hold true in general circumstances. For instance, a sentiment classifier may erroneously learn that the token "performances" is commonly associated with positive movie reviews. Relying on these spurious correlations degrades the classifiers performance when it deploys on out-of-distribution data. In this paper, we examine the implications of spurious correlations through a novel perspective called neighborhood analysis. The analysis uncovers how spurious correlations lead unrelated words to erroneously cluster together in the embedding space. Driven by the analysis, we design a metric to detect spurious tokens and also propose a family of regularization methods, NFL (doN't Forget your Language) to mitigate spurious correlations in text classification. Experiments show that NFL can effectively prevent erroneous clusters and significantly improve the robustness of classifiers without auxiliary data. The code is publicly available at https://github.com/oscarchew/doNt-Forget-your-Language.
Abstract（参考訳）: 近年の研究では、機械学習モデルはトレーニングセットに存在するが、一般的な状況では当てはまらない刺激的な相関を利用する傾向にあることが明らかになった。例えば、感情分類器は誤ってトークン「パフォーマンス」が肯定的な映画レビューと一般的に関連していることを学習することができる。これらのスプリアス相関に依存すると、分散外データにデプロイすると、分類器のパフォーマンスが低下する。本稿では, 周辺分析と呼ばれる新たな視点から, 突発的相関の影響を考察する。この分析は、スプリアス相関が非関係な単語を埋め込み空間に誤って集結させる方法を明らかにする。この分析により,スプリアストークンを検出するためのメトリクスを設計し,テキスト分類におけるスプリアス相関を緩和する正規化手法であるNFL(DoN't Forget your Language)を提案する。実験により、nflは誤クラスタを効果的に防止し、補助データなしで分類器のロバスト性を大幅に改善できることが示されている。コードはhttps://github.com/oscarchew/doNt-Forget-your-Languageで公開されている。

関連論文リスト

ShortcutProbe: Probing Prediction Shortcuts for Learning Robust Models [26.544938760265136]
ディープラーニングモデルは、必然的にターゲットと非本質的な特徴の間の急激な相関を学習する。本稿では,グループラベルを必要とせず,新たなポストホックスプリアスバイアス緩和フレームワークを提案する。我々のフレームワークであるShortcutProbeは、与えられたモデルの潜在空間における予測の非破壊性を反映した予測ショートカットを識別する。
論文参考訳（メタデータ） (2025-05-20T04:21:17Z)
Spuriousness-Aware Meta-Learning for Learning Robust Classifiers [26.544938760265136]
Spurious correlations is brittle associations between certain attribute of inputs and target variables。深部画像分類器はしばしばそれらを予測に利用し、相関が持たないデータの一般化が不十分になる。スプリアス相関の影響を緩和することはロバストなモデル一般化に不可欠であるが、しばしばデータ内のスプリアス相関のアノテーションを必要とする。
論文参考訳（メタデータ） (2024-06-15T21:41:25Z)
Learning Robust Classifiers with Self-Guided Spurious Correlation Mitigation [26.544938760265136]
ディープニューラル分類器は、入力のスプリアス属性とターゲットの間のスプリアス相関に頼り、予測を行う。本稿では,自己誘導型スプリアス相関緩和フレームワークを提案する。予測行動の違いを識別するために分類器の訓練を行うことで,事前知識を必要とせず,素因関係への依存を軽減できることを示す。
論文参考訳（メタデータ） (2024-05-06T17:12:21Z)
Unsupervised Concept Discovery Mitigates Spurious Correlations [45.48778210340187]
トレーニングデータにおける急激な相関関係のモデルはしばしば脆い予測を発生させ、意図しないバイアスを導入する。本稿では,教師なし対象中心学習と突発的相関の緩和の新たな関連性を確立する。コバルト(CoBalT)は、サブグループの人間のラベル付けを必要とせず、効果的に素早い相関を緩和する概念バランス技術である。
論文参考訳（メタデータ） (2024-02-20T20:48:00Z)
Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文参考訳（メタデータ） (2023-12-27T09:03:43Z)
Identifying Spurious Correlations using Counterfactual Alignment [5.782952470371709]
急激な相関によって駆動されるモデルは、しばしば一般化性能が劣る。本稿では,突発的相関を検出・定量化するためのCFアライメント手法を提案する。
論文参考訳（メタデータ） (2023-12-01T20:16:02Z)
Making Retrieval-Augmented Language Models Robust to Irrelevant Context [55.564789967211844]
ALMの重要なデシプラタムは、検索された情報が関連する場合のパフォーマンスをモデル化するのに役立つことである。近年の研究では、検索の増大がパフォーマンスに悪影響を及ぼすことが示されている。
論文参考訳（メタデータ） (2023-10-02T18:52:35Z)
Language Model Classifier Aligns Better with Physician Word Sensitivity than XGBoost on Readmission Prediction [86.15787587540132]
語彙レベルでモデルの振る舞いを精査する尺度である感度スコアを導入する。本実験は,感度スコアのランク相関に基づいて,臨床医と分類医の意思決定論理を比較した。
論文参考訳（メタデータ） (2022-11-13T23:59:11Z)
Benign Overfitting in Adversarially Robust Linear Classification [91.42259226639837]
分類器がノイズの多いトレーニングデータを記憶しながらも、優れた一般化性能を達成している「双曲オーバーフィッティング」は、機械学習コミュニティにおいて大きな注目を集めている。本研究は, 対人訓練において, 対人訓練において, 良心過剰が実際に発生することを示し, 対人訓練に対する防御の原則的アプローチを示す。
論文参考訳（メタデータ） (2021-12-31T00:27:31Z)
Counterfactual Invariance to Spurious Correlations: Why and How to Pass Stress Tests [87.60900567941428]
素早い相関」とは、アナリストが重要とすべきでないと考える入力データのある側面に対するモデルの依存である。機械学習では、これらにはノウ・イ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ」という特徴がある。因果推論ツールを用いたストレステストについて検討した。
論文参考訳（メタデータ） (2021-05-31T14:39:38Z)
Learning to Model and Ignore Dataset Bias with Mixed Capacity Ensembles [66.15398165275926]
本稿では,データセット固有のパターンを自動的に検出・無視する手法を提案する。我々の方法は、より高い容量モデルでアンサンブルで低容量モデルを訓練する。視覚的質問応答データセットの10ポイントゲインを含む,すべての設定の改善を示す。
論文参考訳（メタデータ） (2020-11-07T22:20:03Z)
Identifying Spurious Correlations for Robust Text Classification [9.457737910527829]
そこで本研究では,テキスト分類におけるスプリアスと真の相関を区別する手法を提案する。我々は、治療効果推定器から得られる特徴を用いて、突発的な相関を「遺伝子」と区別する。 4つのデータセットの実験は、このアプローチを使って特徴の選択を知らせることが、より堅牢な分類につながることを示唆している。
論文参考訳（メタデータ） (2020-10-06T03:49:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。