論文の概要: Don't Discard All the Biased Instances: Investigating a Core Assumption
in Dataset Bias Mitigation Techniques
- arxiv url: http://arxiv.org/abs/2109.00521v1
- Date: Wed, 1 Sep 2021 10:25:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-04 12:27:40.137348
- Title: Don't Discard All the Biased Instances: Investigating a Core Assumption
in Dataset Bias Mitigation Techniques
- Title(参考訳): 偏りのあるすべてのインスタンスを破棄するな - データセットバイアス緩和テクニックにおけるコア仮定の調査
- Authors: Hossein Amirkhani, Mohammad Taher Pilehvar
- Abstract要約: データセットバイアスを緩和する既存のテクニックは、バイアス付きモデルを利用してバイアス付きインスタンスを識別することが多い。
これらの偏りのあるインスタンスの役割は、メインモデルのトレーニング中に減少し、アウト・オブ・ディストリビューションデータに対するロバスト性を高める。
本稿では,この仮定が一般には成り立たないことを示す。
- 参考スコア(独自算出の注目度): 19.252319300590656
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing techniques for mitigating dataset bias often leverage a biased model
to identify biased instances. The role of these biased instances is then
reduced during the training of the main model to enhance its robustness to
out-of-distribution data. A common core assumption of these techniques is that
the main model handles biased instances similarly to the biased model, in that
it will resort to biases whenever available. In this paper, we show that this
assumption does not hold in general. We carry out a critical investigation on
two well-known datasets in the domain, MNLI and FEVER, along with two biased
instance detection methods, partial-input and limited-capacity models. Our
experiments show that in around a third to a half of instances, the biased
model is unable to predict the main model's behavior, highlighted by the
significantly different parts of the input on which they base their decisions.
Based on a manual validation, we also show that this estimate is highly in line
with human interpretation. Our findings suggest that down-weighting of
instances detected by bias detection methods, which is a widely-practiced
procedure, is an unnecessary waste of training data. We release our code to
facilitate reproducibility and future research.
- Abstract(参考訳): データセットバイアスを緩和する既存のテクニックは、バイアス付きモデルを利用してバイアス付きインスタンスを識別することが多い。
偏りのあるインスタンスの役割は、メインモデルのトレーニング中に削減され、分散データに対する堅牢性が向上します。
これらのテクニックの一般的な前提は、メインモデルがバイアス付きモデルと同様のバイアス付きインスタンスを扱い、いつでもバイアスに頼っていることである。
本稿では,この仮定が一般には成立しないことを示す。
mnliとフィーバーというドメインでよく知られた2つのデータセットと、偏りのあるインスタンス検出方法、部分入力モデルと限定容量モデルについて批判的な調査を行った。
私たちの実験では、3分の1から半分のインスタンスでは、バイアスのあるモデルではメインモデルの振る舞いを予測できないことが分かりました。
また,手作業による検証に基づいて,この推定値が人間の解釈と非常に一致していることを示す。
本研究は, 偏差検出法により検出されたインスタンスの低重み付けが, トレーニングデータの不要な無駄であることを示すものである。
再現性と今後の研究を促進するためにコードをリリースします。
関連論文リスト
- CosFairNet:A Parameter-Space based Approach for Bias Free Learning [1.9116784879310025]
バイアス付きデータに基づいてトレーニングされたディープニューラルネットワークは、意図しない推論ルールを不注意に学習することが多い。
本稿では,モデルのパラメータ空間内で直接バイアスに対処する新しい手法を提案する。
各種合成および実世界のデータセットにおいて,分類精度の向上と偏りの低減効果を示す。
論文 参考訳(メタデータ) (2024-10-19T13:06:40Z) - Looking at Model Debiasing through the Lens of Anomaly Detection [11.113718994341733]
ディープニューラルネットワークはデータのバイアスに敏感である。
本稿では,異常検出に基づく新しいバイアス同定手法を提案する。
合成および実際のベンチマークデータセット上で、最先端のパフォーマンスに到達する。
論文 参考訳(メタデータ) (2024-07-24T17:30:21Z) - Revisiting the Dataset Bias Problem from a Statistical Perspective [72.94990819287551]
統計的観点から「データセットバイアス」問題を考察する。
問題の主な原因は、クラス属性 u と非クラス属性 b の強い相関関係である。
本稿では,各試料nの目的をフラクタル1p(u_n|b_n)で重み付けするか,その試料をフラクタル1p(u_n|b_n)に比例してサンプリングすることにより,データセットバイアスを軽減することを提案する。
論文 参考訳(メタデータ) (2024-02-05T22:58:06Z) - Improving Bias Mitigation through Bias Experts in Natural Language
Understanding [10.363406065066538]
補助モデルと主モデルの間に二項分類器を導入するデバイアス化フレームワークを提案する。
提案手法は補助モデルのバイアス識別能力を向上させる。
論文 参考訳(メタデータ) (2023-12-06T16:15:00Z) - Fast Model Debias with Machine Unlearning [54.32026474971696]
ディープニューラルネットワークは多くの現実世界のシナリオでバイアスのある振る舞いをする。
既存のデバイアス法は、バイアスラベルやモデル再トレーニングのコストが高い。
バイアスを特定し,評価し,除去するための効率的なアプローチを提供する高速モデル脱バイアスフレームワーク(FMD)を提案する。
論文 参考訳(メタデータ) (2023-10-19T08:10:57Z) - Echoes: Unsupervised Debiasing via Pseudo-bias Labeling in an Echo
Chamber [17.034228910493056]
本稿では,既存のバイアスモデルがトレーニングデータにおけるバイアス強調サンプルに過度に適合していることを明らかにする実験的検討を行った。
本研究では、バイアスモデルとターゲットモデルを異なる戦略で訓練するEchoesという、単純で効果的な手法を提案する。
提案手法は,既存の合成データセットと実世界のデータセットのベースラインと比較して,優れたデバイアス化結果が得られる。
論文 参考訳(メタデータ) (2023-05-06T13:13:18Z) - Feature-Level Debiased Natural Language Understanding [86.8751772146264]
既存の自然言語理解(NLU)モデルは、特定のデータセットで高いパフォーマンスを達成するために、データセットバイアスに依存することが多い。
本稿では, バイアスの潜在特性を緩和し, バイアスの動的性質を無視するために, DCT(Debiasing contrastive learning)を提案する。
DCTは、ディストリビューション内のパフォーマンスを維持しながら、アウトオブディストリビューションデータセットの最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2022-12-11T06:16:14Z) - Balancing out Bias: Achieving Fairness Through Training Reweighting [58.201275105195485]
自然言語処理におけるバイアスは、性別や人種などの著者の特徴を学習するモデルから生じる。
既存のバイアスの緩和と測定方法は、著者の人口統計学と言語変数の相関を直接考慮していない。
本稿では,インスタンス再重み付けを用いたバイアス対策法を提案する。
論文 参考訳(メタデータ) (2021-09-16T23:40:28Z) - Learning from others' mistakes: Avoiding dataset biases without modeling
them [111.17078939377313]
最先端自然言語処理(NLP)モデルは、意図したタスクをターゲットとする機能ではなく、データセットのバイアスや表面形状の相関をモデル化することを学ぶことが多い。
これまでの研究は、バイアスに関する知識が利用できる場合に、これらの問題を回避するための効果的な方法を示してきた。
本稿では,これらの問題点を無視する学習モデルについて述べる。
論文 参考訳(メタデータ) (2020-12-02T16:10:54Z) - Towards Robustifying NLI Models Against Lexical Dataset Biases [94.79704960296108]
本稿では、語彙的データセットバイアスに対するモデル強化のための、データレベルとモデルレベルのデバイアス法の両方について検討する。
まず、データ拡張と拡張によってデータセットをデバイアスするが、この方法でモデルバイアスを完全に除去することはできないことを示す。
第2のアプローチでは、バーオブワードのサブモデルを使用して、バイアスを悪用する可能性のある機能をキャプチャし、元のモデルがこれらのバイアス付き機能を学ぶのを防ぐ。
論文 参考訳(メタデータ) (2020-05-10T17:56:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。