論文の概要: Common-Sense Bias Discovery and Mitigation for Classification Tasks
- arxiv url: http://arxiv.org/abs/2401.13213v3
- Date: Tue, 17 Dec 2024 01:59:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 13:55:13.721786
- Title: Common-Sense Bias Discovery and Mitigation for Classification Tasks
- Title(参考訳): 共通センスバイアスの発見と分類課題の緩和
- Authors: Miao Zhang, Zee fryer, Ben Colman, Ali Shahriyari, Gaurav Bharaj,
- Abstract要約: テキスト記述に基づく画像データセットにおける包括的バイアス情報を抽出する新しい枠組みを提案する。
ダウンストリーム実験により,複数の画像ベンチマークデータセットから新しいモデルバイアスが検出された。
発見されたバイアスは、単純なデータ再重み付け戦略によって緩和することができる。
- 参考スコア(独自算出の注目度): 15.683471433842492
- License:
- Abstract: Machine learning model bias can arise from dataset composition: correlated sensitive features can disturb the downstream classification model's decision boundary and lead to performance differences along these features. Existing de-biasing works tackle most prominent bias features, like colors of digits or background of animals. However, a real-world dataset often includes a large number of feature correlations, that manifest intrinsically in the data as common sense information. Such spurious visual cues can further reduce model robustness. Thus, practitioners desire the whole picture of correlations and flexibility to treat concerned bias for specific domain tasks. With this goal, we propose a novel framework to extract comprehensive bias information in image datasets based on textual descriptions, a common sense-rich modality. Specifically, features are constructed by clustering noun phrase embeddings of similar semantics. Each feature's appearance across a dataset is inferred and their co-occurrence statistics are measured, with spurious correlations optionally examined by a human-in-the-loop interface. Downstream experiments show that our method discovers novel model biases on multiple image benchmark datasets. Furthermore, the discovered bias can be mitigated by a simple data re-weighting strategy that de-correlates the features, and outperforms state-of-the-art unsupervised bias mitigation methods.
- Abstract(参考訳): 相関性のある機能は、下流の分類モデルの判断境界を乱し、これらの特徴に沿ったパフォーマンスの違いを引き起こす。
既存の脱バイアス処理は、数字の色や動物の背景など、最も顕著なバイアスに対処する。
しかし、実世界のデータセットには、多くの特徴相関が含まれており、それはデータに共通感覚情報として内在的に現れている。
このような刺激的な視覚的手がかりは、モデルロバスト性をさらに低下させる。
このように、実践者は特定のドメインタスクに対するバイアスを扱うために相関と柔軟性の全体像を望んでいる。
そこで本稿では,テキスト記述に基づく画像データセットの包括的バイアス情報を抽出するフレームワークを提案する。
具体的には、類似のセマンティクスの名詞句の埋め込みをクラスタリングすることで特徴を構築できる。
データセットにまたがる各機能の外観が推測され、その共起統計が測定される。
ダウンストリーム実験により,複数の画像ベンチマークデータセットから新しいモデルバイアスが検出された。
さらに、発見されたバイアスは、特徴をデコレーションする単純なデータ再重み付け戦略によって緩和することができ、最先端の非教師なしバイアス緩和手法よりも優れています。
関連論文リスト
- Enhancing Intrinsic Features for Debiasing via Investigating Class-Discerning Common Attributes in Bias-Contrastive Pair [36.221761997349795]
ディープニューラルネットワークは、データセットバイアスの存在下でターゲットクラスと急激な相関を持つバイアス特性に依存している。
本稿では,本質的特徴の領域を示す空間的指示を明示的に提示する手法を提案する。
実験により, 種々のバイアス重大度を有する合成および実世界のデータセットに対して, 最先端の性能を達成できることが実証された。
論文 参考訳(メタデータ) (2024-04-30T04:13:14Z) - Approximating Counterfactual Bounds while Fusing Observational, Biased
and Randomised Data Sources [64.96984404868411]
我々は、複数の、偏見のある、観察的、介入的な研究からのデータを統合するという問題に対処する。
利用可能なデータの可能性は局所的な最大値を持たないことを示す。
次に、同じアプローチが複数のデータセットの一般的なケースにどのように対処できるかを示す。
論文 参考訳(メタデータ) (2023-07-31T11:28:24Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - Does Your Model Classify Entities Reasonably? Diagnosing and Mitigating
Spurious Correlations in Entity Typing [29.820473012776283]
既存のエンティティ型付けモデルは、素早い相関の問題に直面している。
既存のモデルバイアスには、参照コンテキストバイアス、語彙オーバーラップバイアス、名前付きエンティティバイアス、代名詞バイアス、依存性バイアス、一般化バイアスの6種類がある。
オリジナルのトレーニングセットをバイアスなしのトレーニングセットで強化することで、モデルは文を完全に理解せざるを得なくなる。
論文 参考訳(メタデータ) (2022-05-25T10:34:22Z) - General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。
GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-20T14:47:32Z) - Learning Debiased and Disentangled Representations for Semantic
Segmentation [52.35766945827972]
セマンティックセグメンテーションのためのモデルに依存しない訓練手法を提案する。
各トレーニングイテレーションで特定のクラス情報をランダムに除去することにより、クラス間の機能依存を効果的に削減する。
提案手法で訓練したモデルは,複数のセマンティックセグメンテーションベンチマークにおいて強い結果を示す。
論文 参考訳(メタデータ) (2021-10-31T16:15:09Z) - Learning Debiased Representation via Disentangled Feature Augmentation [19.348340314001756]
本稿では, 様々なバイアスを伴うサンプルを用いたトレーニングが, 脱バイアスに不可欠であることを示す実験的検討を行った。
本稿では, 多様なバイアス分散サンプルを合成するために, 特徴レベルのデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2021-07-03T08:03:25Z) - Learning to Model and Ignore Dataset Bias with Mixed Capacity Ensembles [66.15398165275926]
本稿では,データセット固有のパターンを自動的に検出・無視する手法を提案する。
我々の方法は、より高い容量モデルでアンサンブルで低容量モデルを訓練する。
視覚的質問応答データセットの10ポイントゲインを含む,すべての設定の改善を示す。
論文 参考訳(メタデータ) (2020-11-07T22:20:03Z) - Out-of-distribution Generalization via Partial Feature Decorrelation [72.96261704851683]
本稿では,特徴分解ネットワークと対象画像分類モデルとを協調的に最適化する,PFDL(Partial Feature Deorrelation Learning)アルゴリズムを提案する。
実世界のデータセットを用いた実験により,OOD画像分類データセットにおけるバックボーンモデルの精度が向上することを示した。
論文 参考訳(メタデータ) (2020-07-30T05:48:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。