論文の概要: On the Impact of Data Quality on Image Classification Fairness
- arxiv url: http://arxiv.org/abs/2305.01595v1
- Date: Tue, 2 May 2023 16:54:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-03 13:39:06.878143
- Title: On the Impact of Data Quality on Image Classification Fairness
- Title(参考訳): データ品質が画像分類公平性に及ぼす影響について
- Authors: Aki Barry and Lei Han and Gianluca Demartini
- Abstract要約: 複数の画像分類データセットにまたがる様々なアルゴリズムにおける重要公平度の測定を行う。
我々は、ラベル内のノイズをトレーニングセット内のデータのラベル付けの不正確さ、データのノイズをデータの歪みとして記述する。
元のデータセットにノイズを加えることで、トレーニングデータの品質と、トレーニングデータ上でトレーニングされたモデルのアウトプットの公平性との関係を探ることができる。
- 参考スコア(独自算出の注目度): 11.329873246415797
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the proliferation of algorithmic decision-making, increased scrutiny has
been placed on these systems. This paper explores the relationship between the
quality of the training data and the overall fairness of the models trained
with such data in the context of supervised classification. We measure key
fairness metrics across a range of algorithms over multiple image
classification datasets that have a varying level of noise in both the labels
and the training data itself. We describe noise in the labels as inaccuracies
in the labelling of the data in the training set and noise in the data as
distortions in the data, also in the training set. By adding noise to the
original datasets, we can explore the relationship between the quality of the
training data and the fairness of the output of the models trained on that
data.
- Abstract(参考訳): アルゴリズムによる意思決定の進展に伴い、これらのシステムに対する精査が増加している。
本稿では,教師付き分類の文脈において,訓練データの品質とモデル全体の公平性との関係について検討する。
ラベルとトレーニングデータの両方において,ノイズレベルが異なる複数の画像分類データセット上で,アルゴリズムの広範囲にわたる重要公平度メトリクスを測定した。
ラベル内のノイズをトレーニングセット内のデータのラベル付けの不正確性、データ内のノイズをトレーニングセットにおけるデータの歪みとして記述する。
元のデータセットにノイズを加えることで、トレーニングデータの品質と、そのデータでトレーニングされたモデルの出力の公平性の関係を探求することができる。
関連論文リスト
- Fair-OBNC: Correcting Label Noise for Fairer Datasets [9.427445881721814]
トレーニングデータのバイアスは ラベルノイズと関連しています
このようなバイアスデータに基づいてトレーニングされたモデルは、センシティブな情報に関してバイアスを永続的に、あるいは悪化させる可能性がある。
公平性を考慮したラベルノイズ補正法であるFair-OBNCを提案する。
論文 参考訳(メタデータ) (2024-10-08T17:18:18Z) - In-Context Probing Approximates Influence Function for Data Valuation [16.404477234171733]
そこで本研究では,文脈内探索によるデータ評価が,学習データ選択に影響を及ぼすことを示す。
実験結果から, 文脈内探索と勾配に基づく影響フレームワークは, トレーニングデータのランク付け方法に類似していることがわかった。
論文 参考訳(メタデータ) (2024-07-17T02:06:56Z) - Soft Curriculum for Learning Conditional GANs with Noisy-Labeled and
Uncurated Unlabeled Data [70.25049762295193]
本稿では,トレーニング中にノイズラベル付きおよび未処理データを受け入れる条件付き画像生成フレームワークを提案する。
本稿では,ラベルのないデータに新たなラベルを割り当てながら,逆行訓練にインスタンスワイドを割り当てるソフトカリキュラム学習を提案する。
実験により,本手法は,定量および定性性能の両面において,既存の半教師付き・ラベル付きロバストな手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-07-17T08:31:59Z) - Systematic analysis of the impact of label noise correction on ML
Fairness [0.0]
偏りのあるデータセットで学習したモデルの公平性を確保するため,ラベルノイズ補正手法の有効性を実証的に評価する手法を開発した。
その結果,ハイブリッドラベル雑音補正法は,予測性能と公平性との最良のトレードオフを実現することが示唆された。
論文 参考訳(メタデータ) (2023-06-28T08:08:14Z) - On-the-fly Denoising for Data Augmentation in Natural Language
Understanding [101.46848743193358]
よりクリーンなオリジナルデータに基づいて訓練された有機教師モデルによって提供されるソフトな拡張ラベルから学習する,データ拡張のためのオンザフライデノケーション手法を提案する。
本手法は,一般的な拡張手法に適用でき,テキスト分類と質問応答の両タスクの性能を一貫して向上させることができる。
論文 参考訳(メタデータ) (2022-12-20T18:58:33Z) - Representation Learning for the Automatic Indexing of Sound Effects
Libraries [79.68916470119743]
タスク固有のがデータセットに依存しない表現は、クラス不均衡、一貫性のないクラスラベル、不十分なデータセットサイズなどのデータ問題にうまく対処できることを示す。
詳細な実験結果は、メトリック学習アプローチと異なるデータセット間の学習方法が表現効率に与える影響を示している。
論文 参考訳(メタデータ) (2022-08-18T23:46:13Z) - Assessing the Quality of the Datasets by Identifying Mislabeled Samples [14.881597737762316]
本稿では,各データ点の品質を測る指標として,新しい統計値(ノイズスコア)を提案する。
本研究では,データ品質管理型変分オートエンコーダ(AQUAVS)の推論ネットワークから導出される表現を用いる。
我々は、MNIST、FashionMNIST、CIFAR10/100データセットを破損させることにより、提案した統計データを検証した。
論文 参考訳(メタデータ) (2021-09-10T17:14:09Z) - Improving filling level classification with adversarial training [90.01594595780928]
単一画像からカップや飲料グラスのコンテントのレベルを分類する問題について検討する。
汎用ソースデータセットで逆トレーニングを使用し、タスク固有のデータセットでトレーニングを洗練します。
ソース領域における逆学習による伝達学習は,テストセットの分類精度を常に向上させることを示す。
論文 参考訳(メタデータ) (2021-02-08T08:32:56Z) - Unsupervised Domain Adaptation for Acoustic Scene Classification Using
Band-Wise Statistics Matching [69.24460241328521]
機械学習アルゴリズムは、トレーニング(ソース)とテスト(ターゲット)データの分散のミスマッチの影響を受けやすい。
本研究では,ターゲット領域音響シーンの各周波数帯域の1次及び2次サンプル統計値と,ソース領域学習データセットの1次と2次サンプル統計値との整合性を有する教師なし領域適応手法を提案する。
提案手法は,文献にみられる最先端の教師なし手法よりも,ソース・ドメインの分類精度とターゲット・ドメインの分類精度の両面で優れていることを示す。
論文 参考訳(メタデータ) (2020-04-30T23:56:05Z) - On the Role of Dataset Quality and Heterogeneity in Model Confidence [27.657631193015252]
安全クリティカルなアプリケーションは、正確で校正された確率を出力する機械学習モデルを必要とする。
未分類のディープネットワークは、過度に信頼された予測をすることが知られている。
本研究では,データセットサイズとラベルノイズがモデルの信頼性に与える影響について検討した。
論文 参考訳(メタデータ) (2020-02-23T05:13:12Z) - Learning with Out-of-Distribution Data for Audio Classification [60.48251022280506]
我々は,OODインスタンスを破棄するよりも,特定のOODインスタンスを検出・復号化することで,学習に肯定的な影響を及ぼすことを示す。
提案手法は,畳み込みニューラルネットワークの性能を著しく向上させる。
論文 参考訳(メタデータ) (2020-02-11T21:08:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。