論文の概要: Common-Sense Bias Modeling for Classification Tasks
- arxiv url: http://arxiv.org/abs/2401.13213v5
- Date: Mon, 20 Jan 2025 22:21:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:16:48.766656
- Title: Common-Sense Bias Modeling for Classification Tasks
- Title(参考訳): 分類作業のための常識バイアスモデリング
- Authors: Miao Zhang, Zee fryer, Ben Colman, Ali Shahriyari, Gaurav Bharaj,
- Abstract要約: テキスト記述に基づく画像データセットの包括的バイアスを抽出する新しい枠組みを提案する。
提案手法は,複数の画像ベンチマークデータセットにおける新しいモデルバイアスを明らかにする。
発見されたバイアスは、機能の非相関化のために、単純なデータ再重み付けによって緩和することができる。
- 参考スコア(独自算出の注目度): 15.683471433842492
- License:
- Abstract: Machine learning model bias can arise from dataset composition: correlated sensitive features can distort the downstream classification model's decision boundary and lead to performance differences along these features. Existing de-biasing works tackle the most prominent bias features, such as colors of digits or background of animals. However, real-world datasets often include a large number of feature correlations that intrinsically manifest in the data as common sense information. Such spurious visual cues can further reduce model robustness. Thus, domain practitioners desire a comprehensive understanding of correlations and the flexibility to address relevant biases. To this end, we propose a novel framework to extract comprehensive biases in image datasets based on textual descriptions, a common sense-rich modality. Specifically, features are constructed by clustering noun phrase embeddings with similar semantics. The presence of each feature across the dataset is inferred, and their co-occurrence statistics are measured, with spurious correlations optionally examined by a human-in-the-loop module. Downstream experiments show that our method uncovers novel model biases in multiple image benchmark datasets. Furthermore, the discovered bias can be mitigated by simple data re-weighting to de-correlate the features, outperforming state-of-the-art unsupervised bias mitigation methods.
- Abstract(参考訳): 相関性のある機能は、下流の分類モデルの判断境界を歪め、これらの特徴に沿ってパフォーマンスの違いをもたらす。
既存の脱バイアス処理は、数字の色や動物の背景など、最も顕著なバイアスに対処する。
しかし、実世界のデータセットには、通常感覚情報としてデータに内在的に現れる多数の特徴相関が含まれていることが多い。
このような刺激的な視覚的手がかりは、モデルロバスト性をさらに低下させる。
したがって、ドメインの実践者は相関関係の包括的な理解と、関連するバイアスに対処する柔軟性を望んでいる。
そこで本稿では,テキスト記述に基づく画像データセットの包括的バイアスを抽出する枠組みを提案する。
特に、特徴は、類似した意味を持つ名詞句の埋め込みをクラスタリングすることによって構築される。
データセットにまたがる各機能の存在を推測し、その共起統計を計測する。
ダウンストリーム実験により,本手法は複数の画像ベンチマークデータセットにおいて新しいモデルバイアスを明らかにする。
さらに、検出されたバイアスは、単純なデータ再重み付けによって軽減され、特徴を非相関化し、最先端の非教師なしバイアス緩和法より優れた性能を発揮する。
関連論文リスト
- Enhancing Intrinsic Features for Debiasing via Investigating Class-Discerning Common Attributes in Bias-Contrastive Pair [36.221761997349795]
ディープニューラルネットワークは、データセットバイアスの存在下でターゲットクラスと急激な相関を持つバイアス特性に依存している。
本稿では,本質的特徴の領域を示す空間的指示を明示的に提示する手法を提案する。
実験により, 種々のバイアス重大度を有する合成および実世界のデータセットに対して, 最先端の性能を達成できることが実証された。
論文 参考訳(メタデータ) (2024-04-30T04:13:14Z) - Approximating Counterfactual Bounds while Fusing Observational, Biased
and Randomised Data Sources [64.96984404868411]
我々は、複数の、偏見のある、観察的、介入的な研究からのデータを統合するという問題に対処する。
利用可能なデータの可能性は局所的な最大値を持たないことを示す。
次に、同じアプローチが複数のデータセットの一般的なケースにどのように対処できるかを示す。
論文 参考訳(メタデータ) (2023-07-31T11:28:24Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - Does Your Model Classify Entities Reasonably? Diagnosing and Mitigating
Spurious Correlations in Entity Typing [29.820473012776283]
既存のエンティティ型付けモデルは、素早い相関の問題に直面している。
既存のモデルバイアスには、参照コンテキストバイアス、語彙オーバーラップバイアス、名前付きエンティティバイアス、代名詞バイアス、依存性バイアス、一般化バイアスの6種類がある。
オリジナルのトレーニングセットをバイアスなしのトレーニングセットで強化することで、モデルは文を完全に理解せざるを得なくなる。
論文 参考訳(メタデータ) (2022-05-25T10:34:22Z) - General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。
GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-20T14:47:32Z) - Learning Debiased and Disentangled Representations for Semantic
Segmentation [52.35766945827972]
セマンティックセグメンテーションのためのモデルに依存しない訓練手法を提案する。
各トレーニングイテレーションで特定のクラス情報をランダムに除去することにより、クラス間の機能依存を効果的に削減する。
提案手法で訓練したモデルは,複数のセマンティックセグメンテーションベンチマークにおいて強い結果を示す。
論文 参考訳(メタデータ) (2021-10-31T16:15:09Z) - Learning Debiased Representation via Disentangled Feature Augmentation [19.348340314001756]
本稿では, 様々なバイアスを伴うサンプルを用いたトレーニングが, 脱バイアスに不可欠であることを示す実験的検討を行った。
本稿では, 多様なバイアス分散サンプルを合成するために, 特徴レベルのデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2021-07-03T08:03:25Z) - Learning to Model and Ignore Dataset Bias with Mixed Capacity Ensembles [66.15398165275926]
本稿では,データセット固有のパターンを自動的に検出・無視する手法を提案する。
我々の方法は、より高い容量モデルでアンサンブルで低容量モデルを訓練する。
視覚的質問応答データセットの10ポイントゲインを含む,すべての設定の改善を示す。
論文 参考訳(メタデータ) (2020-11-07T22:20:03Z) - Out-of-distribution Generalization via Partial Feature Decorrelation [72.96261704851683]
本稿では,特徴分解ネットワークと対象画像分類モデルとを協調的に最適化する,PFDL(Partial Feature Deorrelation Learning)アルゴリズムを提案する。
実世界のデータセットを用いた実験により,OOD画像分類データセットにおけるバックボーンモデルの精度が向上することを示した。
論文 参考訳(メタデータ) (2020-07-30T05:48:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。