論文の概要: Identifying Spurious Correlations for Robust Text Classification
- arxiv url: http://arxiv.org/abs/2010.02458v1
- Date: Tue, 6 Oct 2020 03:49:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 06:03:11.336044
- Title: Identifying Spurious Correlations for Robust Text Classification
- Title(参考訳): ロバストテキスト分類のためのスプリアス相関の同定
- Authors: Zhao Wang and Aron Culotta
- Abstract要約: そこで本研究では,テキスト分類におけるスプリアスと真の相関を区別する手法を提案する。
我々は、治療効果推定器から得られる特徴を用いて、突発的な相関を「遺伝子」と区別する。
4つのデータセットの実験は、このアプローチを使って特徴の選択を知らせることが、より堅牢な分類につながることを示唆している。
- 参考スコア(独自算出の注目度): 9.457737910527829
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The predictions of text classifiers are often driven by spurious correlations
-- e.g., the term `Spielberg' correlates with positively reviewed movies, even
though the term itself does not semantically convey a positive sentiment. In
this paper, we propose a method to distinguish spurious and genuine
correlations in text classification. We treat this as a supervised
classification problem, using features derived from treatment effect estimators
to distinguish spurious correlations from "genuine" ones. Due to the generic
nature of these features and their small dimensionality, we find that the
approach works well even with limited training examples, and that it is
possible to transport the word classifier to new domains. Experiments on four
datasets (sentiment classification and toxicity detection) suggest that using
this approach to inform feature selection also leads to more robust
classification, as measured by improved worst-case accuracy on the samples
affected by spurious correlations.
- Abstract(参考訳): テキスト分類器の予測は、しばしば散発的な相関(例えば「スピルバーグ」という用語は、意味的に肯定的な感情を伝達しないにもかかわらず、肯定的にレビューされた映画と相関する)によって駆動される。
本稿では,テキスト分類におけるスプリアスと真の相関を区別する手法を提案する。
我々はこれを,治療効果推定子から得られた特徴を用いて,教師付き分類問題として扱う。
これらの特徴の一般的な性質とその小さな次元性から、この手法は限られた訓練例でもうまく機能し、単語分類器を新しいドメインに転送することが可能である。
4つのデータセット(sentiment classification and toxicity detection)の実験は、このアプローチを使って特徴の選択を知らせることで、より堅牢な分類につながることを示唆している。
関連論文リスト
- Estimating the Influence of Sequentially Correlated Literary Properties in Textual Classification: A Data-Centric Hypothesis-Testing Approach [4.161155428666988]
スティロメトリーは、ジャンルやテーマといった要素とは異なる半意識的な選択を反映していると考えられる文学的特徴を分析して著者を区別することを目的としている。
主題的内容など一部の文学的特性は、隣接するテキスト単位間の相関関係として表される可能性が高いが、権威的なスタイルのように、その独立性を持つものもいる。
テキスト分類における逐次相関文学的特性の影響を評価するための仮説検証手法を提案する。
論文 参考訳(メタデータ) (2024-11-07T18:28:40Z) - Learning Robust Classifiers with Self-Guided Spurious Correlation Mitigation [26.544938760265136]
ディープニューラル分類器は、入力のスプリアス属性とターゲットの間のスプリアス相関に頼り、予測を行う。
本稿では,自己誘導型スプリアス相関緩和フレームワークを提案する。
予測行動の違いを識別するために分類器の訓練を行うことで,事前知識を必要とせず,素因関係への依存を軽減できることを示す。
論文 参考訳(メタデータ) (2024-05-06T17:12:21Z) - Identifying Spurious Correlations using Counterfactual Alignment [5.782952470371709]
急激な相関によって駆動されるモデルは、しばしば一般化性能が劣る。
本稿では,突発的相関を検出・定量化するためのCFアライメント手法を提案する。
論文 参考訳(メタデータ) (2023-12-01T20:16:02Z) - Causal Effect Regularization: Automated Detection and Removal of
Spurious Attributes [13.852987916253685]
多くの分類データセットでは、タスクラベルはいくつかの入力属性と突発的に相関している。
本稿では,ラベルに対する因果関係を推定することにより,スプリアス属性を自動的に識別する手法を提案する。
本手法は, 因果効果のノイズ評価においても, 突発性特性への依存を緩和する。
論文 参考訳(メタデータ) (2023-06-19T17:17:42Z) - Understanding and Mitigating Spurious Correlations in Text
Classification with Neighborhood Analysis [69.07674653828565]
機械学習モデルは、トレーニングセットに存在するが一般的な状況では当てはまらない急激な相関を利用する傾向にある。
本稿では, 周辺分析と呼ばれる新しい視点から, 突発的相関がもたらす意味について考察する。
本稿では,テキスト分類における素早い相関を緩和する正規化手法であるNFL(doN't Forget your Language)を提案する。
論文 参考訳(メタデータ) (2023-05-23T03:55:50Z) - Discriminative Attribution from Counterfactuals [64.94009515033984]
本稿では,特徴属性と反実的説明を組み合わせたニューラルネットワークの解釈可能性について述べる。
本手法は,特徴属性法の性能を客観的に評価するために有効であることを示す。
論文 参考訳(メタデータ) (2021-09-28T00:53:34Z) - Exploiting Sample Uncertainty for Domain Adaptive Person
Re-Identification [137.9939571408506]
各サンプルに割り当てられた擬似ラベルの信頼性を推定・活用し,ノイズラベルの影響を緩和する。
不確実性に基づく最適化は大幅な改善をもたらし、ベンチマークデータセットにおける最先端のパフォーマンスを達成します。
論文 参考訳(メタデータ) (2020-12-16T04:09:04Z) - Tweet Sentiment Quantification: An Experimental Re-Evaluation [88.60021378715636]
センチメント定量化(Sentiment Quantification)は、教師付き学習によって、感情関連クラスの相対周波数(prevalence')を推定するタスクである。
統合され、より堅牢な実験プロトコルに従って、これらの定量化手法を再評価する。
結果はガオ・ガオ・セバスティアーニ(Gao Gao Sebastiani)によって得られたものとは大きく異なり、異なる感情量化法の相対的な強さと弱さについて、よりしっかりとした理解を提供する。
論文 参考訳(メタデータ) (2020-11-04T21:41:34Z) - Dynamic Semantic Matching and Aggregation Network for Few-shot Intent
Detection [69.2370349274216]
利用可能な注釈付き発話が不足しているため、インテント検出は困難である。
セマンティック成分はマルチヘッド自己認識によって発話から蒸留される。
本手法はラベル付きインスタンスとラベルなしインスタンスの両方の表現を強化するための総合的なマッチング手段を提供する。
論文 参考訳(メタデータ) (2020-10-06T05:16:38Z) - Learning from Aggregate Observations [82.44304647051243]
本研究では,一組のインスタンスに監視信号が与えられる集合観察から学習する問題について検討する。
本稿では,多種多様な集合観測に適合する一般的な確率的枠組みを提案する。
単純な極大解は様々な微分可能なモデルに適用できる。
論文 参考訳(メタデータ) (2020-04-14T06:18:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。