論文の概要: Better May Not Be Fairer: Can Data Augmentation Mitigate Subgroup
Degradation?
- arxiv url: http://arxiv.org/abs/2212.08649v1
- Date: Fri, 16 Dec 2022 18:51:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-19 15:49:51.263387
- Title: Better May Not Be Fairer: Can Data Augmentation Mitigate Subgroup
Degradation?
- Title(参考訳): データ拡張はサブグループ劣化を緩和できるか?
- Authors: Ming-Chang Chiu, Pin-Yu Chen, Xuezhe Ma
- Abstract要約: 画像分類作業において,自然背景色が刺激的特徴として果たす役割について検討する。
標準的なCNNは人間レベルの精度を実現するが、サブグループのパフォーマンスは一貫性がない。
本研究では,事前学習した生成フローによって得られた分離されたセマンティック表現を活用するセマンティックDA手法であるFlowAugを提案する。
- 参考スコア(独自算出の注目度): 82.19825940999681
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is no secret that deep learning models exhibit undesirable behaviors such
as learning spurious correlations instead of learning correct relationships
between input/output pairs. Prior works on robustness study datasets that mix
low-level features to quantify how spurious correlations affect predictions
instead of considering natural semantic factors due to limitations in accessing
realistic datasets for comprehensive evaluation. To bridge this gap, in this
paper we first investigate how natural background colors play a role as
spurious features in image classification tasks by manually splitting the test
sets of CIFAR10 and CIFAR100 into subgroups based on the background color of
each image. We name our datasets CIFAR10-B and CIFAR100-B. We find that while
standard CNNs achieve human-level accuracy, the subgroup performances are not
consistent, and the phenomenon remains even after data augmentation (DA). To
alleviate this issue, we propose FlowAug, a semantic DA method that leverages
the decoupled semantic representations captured by a pre-trained generative
flow. Experimental results show that FlowAug achieves more consistent results
across subgroups than other types of DA methods on CIFAR10 and CIFAR100.
Additionally, it shows better generalization performance. Furthermore, we
propose a generic metric for studying model robustness to spurious
correlations, where we take a macro average on the weighted standard deviations
across different classes. Per our metric, FlowAug demonstrates less reliance on
spurious correlations. Although this metric is proposed to study our curated
datasets, it applies to all datasets that have subgroups or subclasses. Lastly,
aside from less dependence on spurious correlations and better generalization
on in-distribution test sets, we also show superior out-of-distribution results
on CIFAR10.1 and competitive performances on CIFAR10-C and CIFAR100-C.
- Abstract(参考訳): 深層学習モデルが、入力/出力ペア間の正確な関係を学習する代わりに、急激な相関を学習するなど、望ましくない振る舞いを示すことは周知の事実である。
従来の研究では、低レベルの特徴を混ぜたロバストネス研究データセットを使用して、スプリアス相関が予測にどのように影響するかを定量化している。
そこで本稿では,まず,cifar10とcifar100のテストセットを各画像の背景色に基づいてサブグループに手作業で分割して,自然背景色が画像分類タスクにおけるスプリアスな特徴として果たす役割について検討する。
我々はデータセットを CIFAR10-B と CIFAR100-B と命名した。
標準的なCNNは人間レベルの精度を実現するが、サブグループのパフォーマンスは一貫しておらず、データ拡張(DA)後もその現象は残る。
この問題を軽減するために,事前学習した生成フローによって得られた分離されたセマンティック表現を活用するセマンティックDA手法であるFlowAugを提案する。
実験の結果,FlowAugはCIFAR10およびCIFAR100上の他のDA法よりも,サブグループ間で一貫性のある結果が得られることがわかった。
さらに、より優れた一般化性能を示す。
さらに,各クラス間の重み付き標準偏差に対してマクロ平均値を取ることにより,モデルロバスト性を研究するための汎用的指標を提案する。
われわれの測定値によると、FlowAugはスプリアス相関への依存度を低くしている。
このメトリクスは、キュレートされたデータセットを研究するために提案されているが、サブグループまたはサブクラスを持つすべてのデータセットに適用される。
最後に,散発的な相関や分布内テストセットのより良い一般化への依存度低下を別にして,cifar10.1における優れた分布外結果とcifar10-cおよびcifar100-cにおける競合性能を示す。
関連論文リスト
- Generalized Category Discovery with Clustering Assignment Consistency [56.92546133591019]
一般化圏発見(GCD)は、最近提案されたオープンワールドタスクである。
クラスタリングの一貫性を促進するための協調学習ベースのフレームワークを提案する。
提案手法は,3つの総合的なベンチマークと3つのきめ細かい視覚認識データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-10-30T00:32:47Z) - A soft nearest-neighbor framework for continual semi-supervised learning [35.957577587090604]
本稿では,全てのデータサンプルがラベル付けされていない連続的半教師付き学習手法を提案する。
我々は、最も近い隣人の力を利用して、特徴空間を非線形に分割し、基礎となるデータ分布を柔軟にモデル化する。
提案手法は,低解像度画像と高解像度画像の両方で良好に動作し,より複雑なデータセットにシームレスにスケールする。
論文 参考訳(メタデータ) (2022-12-09T20:03:59Z) - AU-Aware Vision Transformers for Biased Facial Expression Recognition [17.00557858587472]
本研究では,複数のFERデータセットのナイーブな共同トレーニングが個々のFERデータセットのパフォーマンスに有害であることを示す。
AU-ViT(AU-Aware Vision Transformer)を提案する。
私たちのAU-ViTは、RAF-DBで91.10%、AffectNetで65.59%、FERPlusで90.15%という、一般的な3つのデータセットで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2022-11-12T08:58:54Z) - Assessing Dataset Bias in Computer Vision [0.0]
偏見は、訓練するモデルに伝播する傾向があり、しばしば少数派ではパフォーマンスが劣る。
UTKFaceデータセットのサンプルに、アンダーサンプリング、幾何変換、可変オートエンコーダ(VAE)、生成逆ネットワーク(GAN)など、いくつかの拡張手法を適用する。
FairFaceモデルと比較して、複数のデータセット上の年齢と民族の分類において、我々のモデルが全体的なパフォーマンスと一貫性を向上できることを示しました。
論文 参考訳(メタデータ) (2022-05-03T22:45:49Z) - Improving Contrastive Learning on Imbalanced Seed Data via Open-World
Sampling [96.8742582581744]
我々は、Model-Aware K-center (MAK)と呼ばれるオープンワールドなラベルなしデータサンプリングフレームワークを提案する。
MAKは、尾性、近接性、多様性の3つの単純な原則に従う。
我々はMAKが学習した機能の全体的な表現品質とクラスバランス性の両方を継続的に改善できることを実証した。
論文 参考訳(メタデータ) (2021-11-01T15:09:41Z) - No Fear of Heterogeneity: Classifier Calibration for Federated Learning
with Non-IID Data [78.69828864672978]
実世界のフェデレーションシステムにおける分類モデルのトレーニングにおける中心的な課題は、非IIDデータによる学習である。
このアルゴリズムは, 近似されたssian混合モデルからサンプリングした仮想表現を用いて分類器を調整する。
実験の結果,CIFAR-10,CIFAR-100,CINIC-10など,一般的なフェデレーション学習ベンチマークにおけるCCVRの現状が示された。
論文 参考訳(メタデータ) (2021-06-09T12:02:29Z) - Learning to Model and Ignore Dataset Bias with Mixed Capacity Ensembles [66.15398165275926]
本稿では,データセット固有のパターンを自動的に検出・無視する手法を提案する。
我々の方法は、より高い容量モデルでアンサンブルで低容量モデルを訓練する。
視覚的質問応答データセットの10ポイントゲインを含む,すべての設定の改善を示す。
論文 参考訳(メタデータ) (2020-11-07T22:20:03Z) - SCAN: Learning to Classify Images without Labels [73.69513783788622]
機能学習とクラスタリングを分離する2段階のアプローチを提唱する。
表現学習からの自己教師型タスクを用いて意味論的意味のある特徴を得る。
我々は、ImageNet上で有望な結果を得、低データ体制下では、いくつかの半教師付き学習方法より優れています。
論文 参考訳(メタデータ) (2020-05-25T18:12:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。