論文の概要: Revisiting the Dataset Bias Problem from a Statistical Perspective
- arxiv url: http://arxiv.org/abs/2402.03577v1
- Date: Mon, 5 Feb 2024 22:58:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 17:20:39.202131
- Title: Revisiting the Dataset Bias Problem from a Statistical Perspective
- Title(参考訳): 統計的観点からのデータセットバイアス問題の再検討
- Authors: Kien Do, Dung Nguyen, Hung Le, Thao Le, Dang Nguyen, Haripriya
Harikumar, Truyen Tran, Santu Rana, Svetha Venkatesh
- Abstract要約: 統計的観点から「データセットバイアス」問題を考察する。
問題の主な原因は、クラス属性 u と非クラス属性 b の強い相関関係である。
本稿では,各試料nの目的をフラクタル1p(u_n|b_n)で重み付けするか,その試料をフラクタル1p(u_n|b_n)に比例してサンプリングすることにより,データセットバイアスを軽減することを提案する。
- 参考スコア(独自算出の注目度): 72.94990819287551
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we study the "dataset bias" problem from a statistical
standpoint, and identify the main cause of the problem as the strong
correlation between a class attribute u and a non-class attribute b in the
input x, represented by p(u|b) differing significantly from p(u). Since p(u|b)
appears as part of the sampling distributions in the standard maximum
log-likelihood (MLL) objective, a model trained on a biased dataset via MLL
inherently incorporates such correlation into its parameters, leading to poor
generalization to unbiased test data. From this observation, we propose to
mitigate dataset bias via either weighting the objective of each sample n by
\frac{1}{p(u_{n}|b_{n})} or sampling that sample with a weight proportional to
\frac{1}{p(u_{n}|b_{n})}. While both methods are statistically equivalent, the
former proves more stable and effective in practice. Additionally, we establish
a connection between our debiasing approach and causal reasoning, reinforcing
our method's theoretical foundation. However, when the bias label is
unavailable, computing p(u|b) exactly is difficult. To overcome this challenge,
we propose to approximate \frac{1}{p(u|b)} using a biased classifier trained
with "bias amplification" losses. Extensive experiments on various biased
datasets demonstrate the superiority of our method over existing debiasing
techniques in most settings, validating our theoretical analysis.
- Abstract(参考訳): 本稿では,統計学的観点からの「データセットバイアス」問題を考察し,p(u) と大きく異なる p(u|b) で表される入力 x におけるクラス属性 u と非クラス属性 b との強い相関性として問題の主な原因を明らかにする。
p(u|b) は標準最大ログ類似度(MLL)目標のサンプリング分布の一部として現れるため、MLL を通じてバイアスデータセットで訓練されたモデルは本質的にそのような相関関係をパラメータに組み込んでおり、偏りのないテストデータへの一般化が不十分である。
この観察から,各サンプルnの目的を {\displaystyle \frac{1}{p(u_{n}|b_{n})} で重み付けするか,あるいは,そのサンプルを {\displaystyle \frac{1}{p(u_{n}|b_{n})} に比例してサンプリングすることにより,データセットバイアスを軽減することを提案する。
どちらの方法も統計的に等価であるが、前者はより安定で効果的であることが証明されている。
さらに, 脱バイアスアプローチと因果推論との関連性を確立し, 提案手法の理論的基礎を補強する。
しかし、バイアスラベルが利用できない場合、p(u|b) を正確に計算するのは困難である。
この課題を克服するために,「バイアス増幅」損失を訓練したバイアス付き分類器を用いて,フラクタ{1}{p(u|b)}を近似する手法を提案する。
様々な偏りのあるデータセットに対する大規模な実験は、ほとんどの環境で既存のデバイアス手法よりも優れた方法を示し、理論解析を検証した。
関連論文リスト
- CosFairNet:A Parameter-Space based Approach for Bias Free Learning [1.9116784879310025]
バイアス付きデータに基づいてトレーニングされたディープニューラルネットワークは、意図しない推論ルールを不注意に学習することが多い。
本稿では,モデルのパラメータ空間内で直接バイアスに対処する新しい手法を提案する。
各種合成および実世界のデータセットにおいて,分類精度の向上と偏りの低減効果を示す。
論文 参考訳(メタデータ) (2024-10-19T13:06:40Z) - IBADR: an Iterative Bias-Aware Dataset Refinement Framework for
Debiasing NLU models [52.03761198830643]
IBADR(Iterative Bias-Aware dataset Refinement framework)を提案する。
まず、プール内のサンプルのバイアス度を定量化するために浅いモデルを訓練する。
次に、各サンプルにバイアス度を表すバイアス指標をペアにして、これらの拡張サンプルを使用してサンプルジェネレータを訓練する。
このようにして、このジェネレータは、バイアスインジケータとサンプルの対応関係を効果的に学習することができる。
論文 参考訳(メタデータ) (2023-11-01T04:50:38Z) - Mitigating Bias for Question Answering Models by Tracking Bias Influence [84.66462028537475]
本稿では,複数選択QAモデルのバイアスを軽減するためのBMBIを提案する。
バイアスのある例から学んだ場合、モデルがよりバイアスに傾くように傾くという直感に基づいて、クエリインスタンスのバイアスレベルを測定します。
本手法は,複数のバイアスカテゴリにまたがる複数のQA定式化に適用可能であることを示す。
論文 参考訳(メタデータ) (2023-10-13T00:49:09Z) - Echoes: Unsupervised Debiasing via Pseudo-bias Labeling in an Echo
Chamber [17.034228910493056]
本稿では,既存のバイアスモデルがトレーニングデータにおけるバイアス強調サンプルに過度に適合していることを明らかにする実験的検討を行った。
本研究では、バイアスモデルとターゲットモデルを異なる戦略で訓練するEchoesという、単純で効果的な手法を提案する。
提案手法は,既存の合成データセットと実世界のデータセットのベースラインと比較して,優れたデバイアス化結果が得られる。
論文 参考訳(メタデータ) (2023-05-06T13:13:18Z) - Feature-Level Debiased Natural Language Understanding [86.8751772146264]
既存の自然言語理解(NLU)モデルは、特定のデータセットで高いパフォーマンスを達成するために、データセットバイアスに依存することが多い。
本稿では, バイアスの潜在特性を緩和し, バイアスの動的性質を無視するために, DCT(Debiasing contrastive learning)を提案する。
DCTは、ディストリビューション内のパフォーマンスを維持しながら、アウトオブディストリビューションデータセットの最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2022-12-11T06:16:14Z) - BiasEnsemble: Revisiting the Importance of Amplifying Bias for Debiasing [31.665352191081357]
Debiasing”は、データセットバイアスの影響を受けにくいように分類器をトレーニングすることを目的としている。
$f_B$はバイアス整合サンプルにフォーカスするよう訓練され、$f_D$は主にバイアス整合サンプルでトレーニングされる。
本稿では,バイアス分散サンプルを除去する新しいバイアス付きサンプル選択法であるBiasEnsembleを提案する。
論文 参考訳(メタデータ) (2022-05-29T07:55:06Z) - Learning Debiased Representation via Disentangled Feature Augmentation [19.348340314001756]
本稿では, 様々なバイアスを伴うサンプルを用いたトレーニングが, 脱バイアスに不可欠であることを示す実験的検討を行った。
本稿では, 多様なバイアス分散サンプルを合成するために, 特徴レベルのデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2021-07-03T08:03:25Z) - AutoDebias: Learning to Debias for Recommendation [43.84313723394282]
今回提案するtextitAotoDebiasは、他の(小さな)均一なデータセットを利用してデバイアスパラメータを最適化する。
我々は、AutoDebiasの一般化を導き、適切なデバイアス戦略を得る能力を証明する。
論文 参考訳(メタデータ) (2021-05-10T08:03:48Z) - The Gap on GAP: Tackling the Problem of Differing Data Distributions in
Bias-Measuring Datasets [58.53269361115974]
バイアスモデルを検出する診断データセットは、自然言語処理におけるバイアス低減の重要な前提条件である。
収集されたデータの望ましくないパターンは、そのようなテストを誤ったものにします。
実験データにおけるそのようなパターンに対処するために, 実験サンプルを重み付けする理論的基礎的手法を提案する。
論文 参考訳(メタデータ) (2020-11-03T16:50:13Z) - Towards Robustifying NLI Models Against Lexical Dataset Biases [94.79704960296108]
本稿では、語彙的データセットバイアスに対するモデル強化のための、データレベルとモデルレベルのデバイアス法の両方について検討する。
まず、データ拡張と拡張によってデータセットをデバイアスするが、この方法でモデルバイアスを完全に除去することはできないことを示す。
第2のアプローチでは、バーオブワードのサブモデルを使用して、バイアスを悪用する可能性のある機能をキャプチャし、元のモデルがこれらのバイアス付き機能を学ぶのを防ぐ。
論文 参考訳(メタデータ) (2020-05-10T17:56:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。