論文の概要: Dataset Bias Mitigation Through Analysis of CNN Training Scores
- arxiv url: http://arxiv.org/abs/2106.14829v1
- Date: Mon, 28 Jun 2021 16:07:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-29 19:14:54.233236
- Title: Dataset Bias Mitigation Through Analysis of CNN Training Scores
- Title(参考訳): CNNトレーニングスコアの分析によるデータセットバイアス軽減
- Authors: Ekberjan Derman
- Abstract要約: 本稿では,スコアベース再サンプリング(SBR)と呼ばれる,ドメインに依存しない新しい手法を提案する。
そこで本手法では, トレーニングを行った場合, 同一のCNNモデルを用いて, トレーニングサンプルを推定し, 予測値を求め, 予測点と接地点との距離に基づいて, 接地点から遠く離れた標本を同定する。
提案手法の有効性を検証し,提案手法の有効性を確認した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training datasets are crucial for convolutional neural network-based
algorithms, which directly impact their overall performance. As such, using a
well-structured dataset that has minimum level of bias is always desirable. In
this paper, we proposed a novel, domain-independent approach, called
score-based resampling (SBR), to locate the under-represented samples of the
original training dataset based on the model prediction scores obtained with
that training set. In our method, once trained, we use the same CNN model to
infer on its own training samples, obtain prediction scores, and based on the
distance between predicted and ground-truth, we identify samples that are far
away from their ground-truth and augment them in the original training set. The
temperature term of the Sigmoid function is decreased to better differentiate
scores. For experimental evaluation, we selected one Kaggle dataset for gender
classification. We first used a CNN-based classifier with relatively standard
structure, trained on the training images, and evaluated on the provided
validation samples of the original dataset. Then, we assessed it on a totally
new test dataset consisting of light male, light female, dark male, and dark
female groups. The obtained accuracies varied, revealing the existence of
categorical bias against certain groups in the original dataset. Subsequently,
we trained the model after resampling based on our proposed approach. We
compared our method with a previously proposed variational autoencoder (VAE)
based algorithm. The obtained results confirmed the validity of our proposed
method regrading identifying under-represented samples among original dataset
to decrease categorical bias of classifying certain groups. Although tested for
gender classification, the proposed algorithm can be used for investigating
dataset structure of any CNN-based tasks.
- Abstract(参考訳): データセットのトレーニングは畳み込みニューラルネットワークベースのアルゴリズムにとって極めて重要である。
そのため、バイアスの最小レベルを持つよく構造化されたデータセットの使用が常に望ましい。
本稿では,トレーニングセットで得られたモデル予測スコアに基づいて,元のトレーニングデータセットの未表示サンプルを同定する,スコアベース再サンプリング(sbr)と呼ばれる新しいドメイン非依存手法を提案する。
本手法では,同一のcnnモデルを用いて,自己のトレーニングサンプルを推定し,予測値を得るとともに,予測値と地中値の距離に基づいて,地中から遠く離れたサンプルを同定し,元のトレーニングセットで補強する。
Sigmoid関数の温度項は、スコアをよりよく区別するために減少する。
実験評価のために,性別分類のためのkaggleデータセットを1つ選択した。
最初に、比較的標準的な構造を持つCNNベースの分類器を使用し、トレーニング画像に基づいて訓練を行い、元のデータセットの検証サンプルについて評価した。
そして、軽男性、軽女性、暗い男性、暗い女性グループからなる全く新しいテストデータセットで評価した。
得られた精度は変化し、元のデータセットの特定のグループに対する分類バイアスの存在が明らかになった。
その後、提案手法に基づいて再サンプリング後のモデルを訓練した。
本手法を先述した変分オートエンコーダ(vae)に基づくアルゴリズムと比較した。
得られた結果から,本手法の有効性を確認し,特定のグループ分類の分類バイアスを低減した。
性別分類のためにテストされているが、提案アルゴリズムは任意のCNNベースのタスクのデータセット構造を調べるのに利用できる。
関連論文リスト
- Downstream-Pretext Domain Knowledge Traceback for Active Learning [138.02530777915362]
本稿では、下流知識と事前学習指導のデータ相互作用をトレースするダウンストリーム・プレテキスト・ドメイン知識トレース(DOKT)手法を提案する。
DOKTは、トレースバックの多様性指標とドメインベースの不確実性推定器から構成される。
10のデータセットで行った実験は、我々のモデルが他の最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-20T01:34:13Z) - A Closer Look at Benchmarking Self-Supervised Pre-training with Image Classification [51.35500308126506]
自己教師付き学習(SSL)は、データ自体が監視を提供する機械学習アプローチであり、外部ラベルの必要性を排除している。
SSLの分類に基づく評価プロトコルがどのように相関し、異なるデータセットのダウンストリーム性能を予測するかを検討する。
論文 参考訳(メタデータ) (2024-07-16T23:17:36Z) - Adversarial Sampling for Fairness Testing in Deep Neural Network [0.0]
与えられたデータセット内のさまざまなクラスの画像にわたるディープニューラルネットワークモデルの予測において、公正性をテストするための逆サンプリング。
我々は、元の画像でニューラルネットワークモデルを訓練し、摂動または攻撃された画像でモデルをトレーニングすることはなかった。
モデルに逆方向サンプリングを施すと、逆方向サンプルが属する画像のもともとのカテゴリ/クラスを予測することができた。
論文 参考訳(メタデータ) (2023-03-06T03:55:37Z) - CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。
本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文 参考訳(メタデータ) (2022-06-01T03:02:07Z) - Mitigating Dataset Bias by Using Per-sample Gradient [9.290757451344673]
PGD(Per-sample Gradient-based Debiasing)は,一様バッチサンプリングによるモデルトレーニング,サンプル勾配の基準に比例して各サンプルの重要性の設定,重要バッチサンプリングを用いたモデルトレーニングの3段階からなる。
種々の合成および実世界のデータセットに対する既存のベースラインと比較して,本手法は分類タスクの最先端の精度を示した。
論文 参考訳(メタデータ) (2022-05-31T11:41:02Z) - Conformal prediction for the design problem [72.14982816083297]
機械学習の現実的な展開では、次にテストすべきデータを選択するために予測アルゴリズムを使用します。
このような設定では、トレーニングデータとテストデータの間には、異なるタイプの分散シフトがある。
このような環境で予測の不確実性を定量化する手法を提案する。
論文 参考訳(メタデータ) (2022-02-08T02:59:12Z) - Novelty-based Generalization Evaluation for Traffic Light Detection [13.487711023133764]
独立テストデータセット上で様々なメトリクスを計算することにより,畳み込みニューラルネットワーク(CNN)の一般化能力を評価する。
テストデータセットにおけるオブジェクトの新規性を考慮したCNN一般化スコアリングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-03T09:23:56Z) - Robust Fairness-aware Learning Under Sample Selection Bias [17.09665420515772]
サンプル選択バイアス下での頑健で公正な学習のための枠組みを提案する。
テストデータが利用可能で、利用できない場合に、サンプル選択バイアスを処理する2つのアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-05-24T23:23:36Z) - Statistical model-based evaluation of neural networks [74.10854783437351]
ニューラルネットワーク(NN)の評価のための実験装置を開発する。
このセットアップは、NNs vis-a-vis minimum-mean-square-error (MMSE)パフォーマンス境界のベンチマークに役立つ。
これにより、トレーニングデータサイズ、データ次元、データ幾何学、ノイズ、トレーニング条件とテスト条件のミスマッチの影響をテストできます。
論文 参考訳(メタデータ) (2020-11-18T00:33:24Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z) - Incremental Unsupervised Domain-Adversarial Training of Neural Networks [17.91571291302582]
教師付き統計学習の文脈では通常、トレーニングセットはテストサンプルを描画する同じ分布から来ていると仮定される。
ここでは、モデルが新しいドメインに反復的に適応される段階的な視点から、別の道を選び、問題にアプローチします。
その結果,いくつかのデータセットにおける非増加事例に対する明らかな改善が報告され,他の最先端のドメイン適応アルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-01-13T09:54:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。