論文の概要: Learning to Split for Automatic Bias Detection
- arxiv url: http://arxiv.org/abs/2204.13749v1
- Date: Thu, 28 Apr 2022 19:41:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-02 12:52:37.114316
- Title: Learning to Split for Automatic Bias Detection
- Title(参考訳): 自動バイアス検出のための分割学習
- Authors: Yujia Bao, Regina Barzilay
- Abstract要約: Learning to Split (ls)は自動バイアス検出のためのアルゴリズムである。
我々は,Beer Review,CelebA,MNLIに対するアプローチを評価した。
- 参考スコア(独自算出の注目度): 39.353850990332525
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Classifiers are biased when trained on biased datasets. As a remedy, we
propose Learning to Split (ls), an algorithm for automatic bias detection.
Given a dataset with input-label pairs, ls learns to split this dataset so that
predictors trained on the training split generalize poorly to the testing
split. This performance gap provides a proxy for measuring the degree of bias
in the learned features and can therefore be used to reduce biases. Identifying
non-generalizable splits is challenging as we don't have any explicit
annotations about how to split. In this work, we show that the prediction
correctness of the testing example can be used as a source of weak supervision:
generalization performance will drop if we move examples that are predicted
correctly away from the testing split, leaving only those that are
mispredicted. We evaluate our approach on Beer Review, Waterbirds, CelebA and
MNLI. Empirical results show that ls is able to generate astonishingly
challenging splits that correlate with human-identified biases. Moreover, we
demonstrate that combining robust learning algorithms (such as group DRO) with
splits identified by ls enables automatic de-biasing. Compared with previous
state-of-the-arts, we substantially improves the worst-group performance (23.4%
on average) when the source of biases is unknown during training and
validation.
- Abstract(参考訳): 分類器はバイアス付きデータセットで訓練されるとバイアスを受ける。
本研究では,自動バイアス検出のためのアルゴリズムであるlearning to split (ls)を提案する。
入力ラベルペアのデータセットが与えられると、lsはこのデータセットを分割することを学び、トレーニングでトレーニングされた予測者がテストの分割に悪影響を与えるようにします。
このパフォーマンスギャップは、学習した機能のバイアスの度合いを測定するプロキシを提供し、従ってバイアスを減らすために使用できる。
分割方法に関する明確なアノテーションがないため、一般化不可能な分割を特定することは難しい。
本研究は,テスト例の予測精度を弱監督源として用いることを示し,テスト分割から正しく予測された例を移動させた場合,一般化性能は低下し,誤予測された例のみが残ることを示した。
我々は,Beer Review,Waterbirds,CelebA,MNLIに対するアプローチを評価した。
実験の結果、lsは人間の特定バイアスと相関する驚くほど難しい分割を生成できることが示されている。
さらに,lsで同定されたスプリットとロバストな学習アルゴリズム(グループdroなど)を組み合わせることで,自動脱バイアスが可能となることを示す。
従来の最先端技術と比較して、トレーニングや検証においてバイアスの源が不明な場合の最悪のグループパフォーマンス(平均23.4%)を大幅に改善する。
関連論文リスト
- Distributional bias compromises leave-one-out cross-validation [0.6656737591902598]
クロスバリデーションは機械学習モデルの予測性能を推定する一般的な手法である。
そこで本研究では,"leave-out-out cross-validation" という手法によって,各トレーニングフォールドの平均ラベルと対応するテストインスタンスのラベルとの間に負の相関が生じることを示す。
分布バイアスを補正する一般化可能な再均衡型クロスバリデーション手法を提案する。
論文 参考訳(メタデータ) (2024-06-03T15:47:34Z) - Revisiting the Dataset Bias Problem from a Statistical Perspective [72.94990819287551]
統計的観点から「データセットバイアス」問題を考察する。
問題の主な原因は、クラス属性 u と非クラス属性 b の強い相関関係である。
本稿では,各試料nの目的をフラクタル1p(u_n|b_n)で重み付けするか,その試料をフラクタル1p(u_n|b_n)に比例してサンプリングすることにより,データセットバイアスを軽減することを提案する。
論文 参考訳(メタデータ) (2024-02-05T22:58:06Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Correcting Underrepresentation and Intersectional Bias for Classification [49.1574468325115]
我々は、表現不足のバイアスによって破損したデータから学習する問題を考察する。
偏りのないデータの少ない場合、グループワイドのドロップアウト率を効率的に推定できることが示される。
本アルゴリズムは,有限VC次元のモデルクラスに対して,効率的な学習を可能にする。
論文 参考訳(メタデータ) (2023-06-19T18:25:44Z) - Beyond Random Split for Assessing Statistical Model Performance [0.0]
予測器の多様性に基づいて、トレーニングとテストセットを分割する戦略を分析する。
このような戦略は、人口の代表性が最小限に抑えられた珍しい例や珍しい例を取り入れることを保証することを目的としている。
予備的な結果はモンテカルロ分割戦略に3つの代替戦略を適用することの重要性を示した。
論文 参考訳(メタデータ) (2022-09-04T22:24:35Z) - Relieving Long-tailed Instance Segmentation via Pairwise Class Balance [85.53585498649252]
長い尾のインスタンスセグメンテーションは、クラス間のトレーニングサンプルの極端な不均衡のために難しいタスクである。
尾のついたものに対して、(大多数のサンプルを含む)ヘッドクラスの深刻なバイアスを引き起こす。
そこで本研究では,学習中の予測嗜好を蓄積するために,学習中に更新される混乱行列上に構築された新しいPairwise Class Balance(PCB)手法を提案する。
論文 参考訳(メタデータ) (2022-01-08T07:48:36Z) - Examining and Combating Spurious Features under Distribution Shift [94.31956965507085]
我々は、最小限の統計量という情報理論の概念を用いて、ロバストで刺激的な表現を定義し、分析する。
入力分布のバイアスしか持たない場合でも、モデルはトレーニングデータから急激な特徴を拾い上げることができることを証明しています。
分析から着想を得た結果,グループDROは,グループ同士の相関関係を直接考慮しない場合に失敗する可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-14T05:39:09Z) - We Need to Talk About Random Splits [3.236124102160291]
ゴーマンとベドリックは、NLP実験において標準的な分割ではなくランダム分割を使うことを主張した。
標準的な分割のようにランダムな分割は、過度に楽観的なパフォーマンス推定につながると我々は主張する。
論文 参考訳(メタデータ) (2020-05-01T22:14:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。