論文の概要: Mitigating Dataset Bias by Using Per-sample Gradient
- arxiv url: http://arxiv.org/abs/2205.15704v1
- Date: Tue, 31 May 2022 11:41:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-01 14:51:50.953807
- Title: Mitigating Dataset Bias by Using Per-sample Gradient
- Title(参考訳): サンプル毎勾配を用いたデータセットバイアスの軽減
- Authors: Sumyeong Ahn, Seongyoon Kim, and Se-young Yun
- Abstract要約: PGD(Per-sample Gradient-based Debiasing)は,一様バッチサンプリングによるモデルトレーニング,サンプル勾配の基準に比例して各サンプルの重要性の設定,重要バッチサンプリングを用いたモデルトレーニングの3段階からなる。
種々の合成および実世界のデータセットに対する既存のベースラインと比較して,本手法は分類タスクの最先端の精度を示した。
- 参考スコア(独自算出の注目度): 9.290757451344673
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The performance of deep neural networks is strongly influenced by the
training dataset setup. In particular, when attributes having a strong
correlation with the target attribute are present, the trained model can
provide unintended prejudgments and show significant inference errors (i.e.,
the dataset bias problem). Various methods have been proposed to mitigate
dataset bias, and their emphasis is on weakly correlated samples, called
bias-conflicting samples. These methods are based on explicit bias labels
involving human or empirical correlation metrics (e.g., training loss).
However, such metrics require human costs or have insufficient theoretical
explanation. In this study, we propose a debiasing algorithm, called PGD
(Per-sample Gradient-based Debiasing), that comprises three steps: (1) training
a model on uniform batch sampling, (2) setting the importance of each sample in
proportion to the norm of the sample gradient, and (3) training the model using
importance-batch sampling, whose probability is obtained in step (2). Compared
with existing baselines for various synthetic and real-world datasets, the
proposed method showed state-of-the-art accuracy for a the classification task.
Furthermore, we describe theoretical understandings about how PGD can mitigate
dataset bias.
- Abstract(参考訳): 深層ニューラルネットワークの性能は、トレーニングデータセット設定の影響を強く受けている。
特に、ターゲット属性と強い相関を持つ属性が存在する場合、トレーニングされたモデルは意図しない偏見を提供し、重要な推論エラー(すなわちデータセットバイアス問題)を示すことができる。
データセットバイアスを軽減するための様々な手法が提案されており、その重点はバイアス強調サンプルと呼ばれる弱い相関サンプルに向けられている。
これらの方法は、人間または経験的相関メトリクス(例えばトレーニング損失)を含む明示的なバイアスラベルに基づいている。
しかし、そのような指標は人的コストを必要とするか、理論的な説明が不十分である。
本研究では,(1)一様バッチサンプリングでモデルを訓練すること,(2)サンプル勾配のノルムに比例して各サンプルの重要性を設定すること,(2)ステップで確率が得られる重要バッチサンプリングを用いてモデルを訓練すること,の3つのステップからなる,pgd(per-sample gradient-based debiasing)と呼ばれるデバイアスアルゴリズムを提案する。
種々の合成および実世界のデータセットに対する既存のベースラインと比較して,本手法は分類タスクの最先端の精度を示した。
さらに、PGDがデータセットバイアスを緩和する方法に関する理論的理解についても述べる。
関連論文リスト
- Downstream-Pretext Domain Knowledge Traceback for Active Learning [138.02530777915362]
本稿では、下流知識と事前学習指導のデータ相互作用をトレースするダウンストリーム・プレテキスト・ドメイン知識トレース(DOKT)手法を提案する。
DOKTは、トレースバックの多様性指標とドメインベースの不確実性推定器から構成される。
10のデータセットで行った実験は、我々のモデルが他の最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-20T01:34:13Z) - Revisiting the Dataset Bias Problem from a Statistical Perspective [72.94990819287551]
統計的観点から「データセットバイアス」問題を考察する。
問題の主な原因は、クラス属性 u と非クラス属性 b の強い相関関係である。
本稿では,各試料nの目的をフラクタル1p(u_n|b_n)で重み付けするか,その試料をフラクタル1p(u_n|b_n)に比例してサンプリングすることにより,データセットバイアスを軽減することを提案する。
論文 参考訳(メタデータ) (2024-02-05T22:58:06Z) - Delving into Identify-Emphasize Paradigm for Combating Unknown Bias [52.76758938921129]
同定精度を高めるため,有効バイアス強調スコアリング法(ECS)を提案する。
また, マイニングされたバイアスアライメントとバイアスコンプリケート試料のコントリビューションのバランスをとるために, 勾配アライメント(GA)を提案する。
様々な環境で複数のデータセットで実験を行い、提案されたソリューションが未知のバイアスの影響を軽減することを実証した。
論文 参考訳(メタデータ) (2023-02-22T14:50:24Z) - Certifying Data-Bias Robustness in Linear Regression [12.00314910031517]
本稿では, 線形回帰モデルが学習データセットのラベルバイアスに対して, ポイントワイズで損なわれているかどうかを検証する手法を提案する。
この問題を個々のテストポイントに対して正確に解く方法を示し、近似的だがよりスケーラブルな方法を提供する。
また、いくつかのデータセット上の特定のバイアス仮定に対して、高いレベルの非腐食性など、バイアス-腐食性のギャップを掘り下げる。
論文 参考訳(メタデータ) (2022-06-07T20:47:07Z) - Bias-inducing geometries: an exactly solvable data model with fairness
implications [13.690313475721094]
我々は、正確に解決可能なデータ不均衡の高次元モデルを導入する。
この合成フレームワークで訓練された学習モデルの典型的特性を解析的に解き放つ。
フェアネス評価によく用いられる観測対象の正確な予測値を得る。
論文 参考訳(メタデータ) (2022-05-31T16:27:57Z) - CMW-Net: Learning a Class-Aware Sample Weighting Mapping for Robust Deep
Learning [55.733193075728096]
現代のディープニューラルネットワークは、破損したラベルやクラス不均衡を含むバイアス付きトレーニングデータに容易に適合する。
サンプル再重み付け手法は、このデータバイアス問題を緩和するために一般的に使用されている。
本稿では,データから直接明示的な重み付け方式を適応的に学習できるメタモデルを提案する。
論文 参考訳(メタデータ) (2022-02-11T13:49:51Z) - FairIF: Boosting Fairness in Deep Learning via Influence Functions with
Validation Set Sensitive Attributes [51.02407217197623]
本稿では,FAIRIFという2段階の学習アルゴリズムを提案する。
サンプル重みが計算される再重み付きデータセットの損失を最小限に抑える。
FAIRIFは、様々な種類のバイアスに対して、フェアネスとユーティリティのトレードオフを良くしたモデルが得られることを示す。
論文 参考訳(メタデータ) (2022-01-15T05:14:48Z) - Bayesian analysis of the prevalence bias: learning and predicting from
imbalanced data [10.659348599372944]
本稿では,モデル学習のための理論的および計算的枠組みと,有病率バイアスの存在下での予測について述べる。
原則的なトレーニング損失の代替として,要約曲線から操作点を選択することで,テスト時の手順を補完するものだ。
バックプロパゲーションを用いた(深い)学習の現在のパラダイムにシームレスに統合され、ベイズモデルと自然に結合する。
論文 参考訳(メタデータ) (2021-07-31T14:36:33Z) - Learning Debiased Representation via Disentangled Feature Augmentation [19.348340314001756]
本稿では, 様々なバイアスを伴うサンプルを用いたトレーニングが, 脱バイアスに不可欠であることを示す実験的検討を行った。
本稿では, 多様なバイアス分散サンプルを合成するために, 特徴レベルのデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2021-07-03T08:03:25Z) - Why resampling outperforms reweighting for correcting sampling bias with
stochastic gradients [10.860844636412862]
バイアスデータセット上で機械学習モデルをトレーニングするには、バイアスを補うための補正テクニックが必要である。
我々は、目的関数を維持するためにサブグループの比率を再均衡させる2つの一般的な手法、再サンプリングと再重み付けについて検討する。
論文 参考訳(メタデータ) (2020-09-28T16:12:38Z) - An Investigation of Why Overparameterization Exacerbates Spurious
Correlations [98.3066727301239]
この動作を駆動するトレーニングデータの2つの重要な特性を特定します。
モデルの"記憶"に対する帰納的バイアスが,パラメータ化の超過を損なう可能性を示す。
論文 参考訳(メタデータ) (2020-05-09T01:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。