論文の概要: FACTS: First Amplify Correlations and Then Slice to Discover Bias
- arxiv url: http://arxiv.org/abs/2309.17430v1
- Date: Fri, 29 Sep 2023 17:41:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-02 12:23:25.983510
- Title: FACTS: First Amplify Correlations and Then Slice to Discover Bias
- Title(参考訳): FACTS: 最初に相関を増幅し、次にバイアスを発見
- Authors: Sriram Yenamandra, Pratik Ramesh, Viraj Prabhu, Judy Hoffman
- Abstract要約: コンピュータビジョンデータセットは、しばしばタスク関連ラベルと(学習しやすい)潜在タスク関連属性の間の急激な相関を含んでいる。
このようなデータセットでトレーニングされたモデルは、"ショートカット"を学び、相関が保たないデータのバイアス分散スライスを過小評価する。
本稿では,まず相関を増幅し,次にバイアスを識別し,下流のバイアス軽減戦略について報告する。
- 参考スコア(独自算出の注目度): 17.244153084361102
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Computer vision datasets frequently contain spurious correlations between
task-relevant labels and (easy to learn) latent task-irrelevant attributes
(e.g. context). Models trained on such datasets learn "shortcuts" and
underperform on bias-conflicting slices of data where the correlation does not
hold. In this work, we study the problem of identifying such slices to inform
downstream bias mitigation strategies. We propose First Amplify Correlations
and Then Slice to Discover Bias (FACTS), wherein we first amplify correlations
to fit a simple bias-aligned hypothesis via strongly regularized empirical risk
minimization. Next, we perform correlation-aware slicing via mixture modeling
in bias-aligned feature space to discover underperforming data slices that
capture distinct correlations. Despite its simplicity, our method considerably
improves over prior work (by as much as 35% precision@10) in correlation bias
identification across a range of diverse evaluation settings. Our code is
available at: https://github.com/yvsriram/FACTS.
- Abstract(参考訳): コンピュータビジョンデータセットは、しばしばタスク関連ラベルと(学習しやすい)潜在タスク関連属性(コンテキストなど)の間に急激な相関関係を含む。
このようなデータセットでトレーニングされたモデルは、"ショートカット"を学び、相関が保たないデータのバイアス分散スライスを過小評価する。
本研究では,このようなスライスを識別して下流のバイアス軽減戦略に知らせる問題について検討する。
そこで我々は,まず相関を増幅し,強正則化された経験的リスク最小化を通した単純なバイアス整合仮説に適合する相関を増幅する。
次に,バイアスアライメント特徴空間における混合モデリングによる相関認識スライシングを行い,異なる相関関係を捉えた不適切なデータスライスを検出する。
その単純さにもかかわらず、本手法は、様々な評価設定において相関バイアスの同定において、事前の作業(最大35%の精度@10)よりも大幅に改善する。
私たちのコードは、https://github.com/yvsriram/FACTS.comで利用可能です。
関連論文リスト
- Mitigating Spurious Correlations via Disagreement Probability [4.8884049398279705]
経験的リスク最小化(ERM)で訓練されたモデルは、ターゲットラベルとバイアス属性の急激な相関に偏りがちである。
すべてのデータサンプルのモデル性能を堅牢に向上する訓練目標を導入する。
次に, バイアスラベルを必要としない脱バイアス法DPR(Disagreement Probability based Resampling for Debiasing)を導出する。
論文 参考訳(メタデータ) (2024-11-04T02:44:04Z) - Towards Robust Text Classification: Mitigating Spurious Correlations with Causal Learning [2.7813683000222653]
本稿では,因果関係へのモデル依存を軽減するために,因果相関ロバスト (CCR) を提案する。
CCRは、逆確率重み付け(IPW)損失関数とともに、反ファクト推論に基づく因果的特徴選択法を統合する。
グループラベルを持たないメソッド間でのCCRの最先端性能を示し、場合によってはグループラベルを利用するモデルと競合する。
論文 参考訳(メタデータ) (2024-11-01T21:29:07Z) - Spuriousness-Aware Meta-Learning for Learning Robust Classifiers [26.544938760265136]
Spurious correlations is brittle associations between certain attribute of inputs and target variables。
深部画像分類器はしばしばそれらを予測に利用し、相関が持たないデータの一般化が不十分になる。
スプリアス相関の影響を緩和することはロバストなモデル一般化に不可欠であるが、しばしばデータ内のスプリアス相関のアノテーションを必要とする。
論文 参考訳(メタデータ) (2024-06-15T21:41:25Z) - Revisiting the Dataset Bias Problem from a Statistical Perspective [72.94990819287551]
統計的観点から「データセットバイアス」問題を考察する。
問題の主な原因は、クラス属性 u と非クラス属性 b の強い相関関係である。
本稿では,各試料nの目的をフラクタル1p(u_n|b_n)で重み付けするか,その試料をフラクタル1p(u_n|b_n)に比例してサンプリングすることにより,データセットバイアスを軽減することを提案する。
論文 参考訳(メタデータ) (2024-02-05T22:58:06Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - Kernel-Whitening: Overcome Dataset Bias with Isotropic Sentence
Embedding [51.48582649050054]
符号化文の特徴間の相関関係を解消する表現正規化手法を提案する。
またNystromカーネル近似法であるKernel-Whiteningを提案する。
実験により,Kernel-Whiteningは分布内精度を維持しつつ,分布外データセット上でのBERTの性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2022-10-14T05:56:38Z) - Less Learn Shortcut: Analyzing and Mitigating Learning of Spurious
Feature-Label Correlation [44.319739489968164]
ディープニューラルネットワークは、タスクを理解するのではなく、意思決定をするためのショートカットとしてデータセットバイアスを取ることが多い。
本研究では,モデルがバイアスデータ分布から学習する単語特徴とラベルとの素早い相関に着目した。
本手法は, 偏りのある例と下級者の偏り度を定量的に評価する学習戦略である。
論文 参考訳(メタデータ) (2022-05-25T09:08:35Z) - Decorrelate Irrelevant, Purify Relevant: Overcome Textual Spurious
Correlations from a Feature Perspective [47.10907370311025]
自然言語理解(NLU)モデルは、散発的な相関(すなわちデータセットバイアス)に頼る傾向があり、分布内データセットでは高い性能を得るが、分布外データセットでは性能が劣る。
既存のデバイアス法のほとんどは、バイアスのある特徴を持つサンプルを識別し、弱めていることが多い。
サンプルの重み付けは、サンプルの偏りのない部分から学習する際のモデルを妨げる。
本稿では,特徴空間の観点から,微粒な方法でスプリアス相関を除去することを提案する。
論文 参考訳(メタデータ) (2022-02-16T13:23:14Z) - Learning Bias-Invariant Representation by Cross-Sample Mutual
Information Minimization [77.8735802150511]
対象タスクが誤用したバイアス情報を除去するために,クロスサンプル対逆脱バイアス法(CSAD)を提案する。
相関測定は, 対向的偏り評価において重要な役割を担い, クロスサンプル型相互情報推定器によって行われる。
我々は,提案手法の最先端手法に対する利点を検証するために,公開データセットの徹底的な実験を行った。
論文 参考訳(メタデータ) (2021-08-11T21:17:02Z) - Learning to Model and Ignore Dataset Bias with Mixed Capacity Ensembles [66.15398165275926]
本稿では,データセット固有のパターンを自動的に検出・無視する手法を提案する。
我々の方法は、より高い容量モデルでアンサンブルで低容量モデルを訓練する。
視覚的質問応答データセットの10ポイントゲインを含む,すべての設定の改善を示す。
論文 参考訳(メタデータ) (2020-11-07T22:20:03Z) - Decorrelated Clustering with Data Selection Bias [55.91842043124102]
本稿では,データ選択バイアスを伴うクラスタリングのためのデコリレーション正規化K-Meansアルゴリズム(DCKM)を提案する。
DCKMアルゴリズムは,選択バイアスによって生じる予期せぬ特徴相関を除去する必要があることを示す。
論文 参考訳(メタデータ) (2020-06-29T08:55:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。