論文の概要: Kernel-Whitening: Overcome Dataset Bias with Isotropic Sentence
Embedding
- arxiv url: http://arxiv.org/abs/2210.07547v1
- Date: Fri, 14 Oct 2022 05:56:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 15:14:04.176763
- Title: Kernel-Whitening: Overcome Dataset Bias with Isotropic Sentence
Embedding
- Title(参考訳): kernel-whitening:等方性文埋め込みによるデータセットバイアスの克服
- Authors: Songyang Gao, Shihan Dou, Qi Zhang, Xuanjing Huang
- Abstract要約: 符号化文の特徴間の相関関係を解消する表現正規化手法を提案する。
またNystromカーネル近似法であるKernel-Whiteningを提案する。
実験により,Kernel-Whiteningは分布内精度を維持しつつ,分布外データセット上でのBERTの性能を著しく向上することが示された。
- 参考スコア(独自算出の注目度): 51.48582649050054
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Dataset bias has attracted increasing attention recently for its detrimental
effect on the generalization ability of fine-tuned models. The current
mainstream solution is designing an additional shallow model to pre-identify
biased instances. However, such two-stage methods scale up the computational
complexity of training process and obstruct valid feature information while
mitigating bias. To address this issue, we utilize the representation
normalization method which aims at disentangling the correlations between
features of encoded sentences. We find it also promising in eliminating the
bias problem by providing isotropic data distribution. We further propose
Kernel-Whitening, a Nystrom kernel approximation method to achieve more
thorough debiasing on nonlinear spurious correlations. Our framework is
end-to-end with similar time consumption to fine-tuning. Experiments show that
Kernel-Whitening significantly improves the performance of BERT on
out-of-distribution datasets while maintaining in-distribution accuracy.
- Abstract(参考訳): データセットバイアスは、微調整モデルの一般化能力に対する有害な影響により近年注目を集めている。
現在の主流のソリューションは、バイアスのあるインスタンスを事前に識別するための、追加の浅いモデルの設計である。
しかし、この2段階の手法は、トレーニングプロセスの計算複雑性を増大させ、バイアスを緩和しながら有効な特徴情報を妨害する。
この問題に対処するために,符号化文の特徴間の相関関係の解消を目的とした表現正規化手法を用いる。
また,等方性データ分布を提供することでバイアス問題を解消することも期待できる。
さらに,非線形スプリアス相関のより徹底的なデバイアスを実現するために,nystromカーネル近似法であるkernel-whiteningを提案する。
私たちのフレームワークはエンドツーエンドで、時間消費と微調整の類似しています。
実験により,Kernel-Whiteningは分布内精度を維持しつつ,分布外データセットにおけるBERTの性能を著しく向上することが示された。
関連論文リスト
- Model Debiasing by Learnable Data Augmentation [19.625915578646758]
本稿では,トレーニングを正規化可能なデータ拡張戦略を備えた,新しい2段階学習パイプラインを提案する。
合成および現実的なバイアス付きデータセットの実験は、最先端の分類精度を示し、競合する手法より優れている。
論文 参考訳(メタデータ) (2024-08-09T09:19:59Z) - Looking at Model Debiasing through the Lens of Anomaly Detection [11.113718994341733]
ディープニューラルネットワークはデータのバイアスに敏感である。
本稿では,異常検出に基づく新しいバイアス同定手法を提案する。
合成および実際のベンチマークデータセット上で、最先端のパフォーマンスに到達する。
論文 参考訳(メタデータ) (2024-07-24T17:30:21Z) - DiffInject: Revisiting Debias via Synthetic Data Generation using Diffusion-based Style Injection [9.801159950963306]
DiffInject(ディフインジェクション)は,事前学習した拡散モデルを用いて,合成バイアス競合サンプルを増強する強力な手法である。
私たちのフレームワークでは、バイアスタイプやラベル付けに関する明確な知識は必要ありません。
論文 参考訳(メタデータ) (2024-06-10T09:45:38Z) - Training Unbiased Diffusion Models From Biased Dataset [18.09610829650175]
本稿では,拡散モデルのバイアスを軽減するために,時間依存性の重要度再重み付けを提案する。
時間依存密度比が従来の手法よりも精度が高いことを示す。
スコアマッチングに直接適用することは難解であるが、再重み付けとスコア補正の両方に時間依存密度比を用いることで、目的関数の抽出可能な形式に繋がることがわかった。
論文 参考訳(メタデータ) (2024-03-02T12:06:42Z) - Revisiting the Dataset Bias Problem from a Statistical Perspective [72.94990819287551]
統計的観点から「データセットバイアス」問題を考察する。
問題の主な原因は、クラス属性 u と非クラス属性 b の強い相関関係である。
本稿では,各試料nの目的をフラクタル1p(u_n|b_n)で重み付けするか,その試料をフラクタル1p(u_n|b_n)に比例してサンプリングすることにより,データセットバイアスを軽減することを提案する。
論文 参考訳(メタデータ) (2024-02-05T22:58:06Z) - Self-supervised debiasing using low rank regularization [59.84695042540525]
純粋な相関は、ディープニューラルネットワークの強いバイアスを引き起こし、一般化能力を損なう可能性がある。
ラベルのないサンプルと互換性のある自己監督型脱バイアスフレームワークを提案する。
注目すべきは,提案フレームワークが自己教師付き学習ベースラインの一般化性能を著しく向上させることである。
論文 参考訳(メタデータ) (2022-10-11T08:26:19Z) - Predicting traffic signals on transportation networks using
spatio-temporal correlations on graphs [56.48498624951417]
本稿では,複数の熱拡散カーネルをデータ駆動予測モデルにマージして交通信号を予測する交通伝搬モデルを提案する。
予測誤差を最小限に抑えるためにベイズ推定を用いてモデルパラメータを最適化し,2つの手法の混合率を決定する。
提案モデルでは,計算労力の少ない最先端のディープニューラルネットワークに匹敵する予測精度を示す。
論文 参考訳(メタデータ) (2021-04-27T18:17:42Z) - Decorrelated Clustering with Data Selection Bias [55.91842043124102]
本稿では,データ選択バイアスを伴うクラスタリングのためのデコリレーション正規化K-Meansアルゴリズム(DCKM)を提案する。
DCKMアルゴリズムは,選択バイアスによって生じる予期せぬ特徴相関を除去する必要があることを示す。
論文 参考訳(メタデータ) (2020-06-29T08:55:50Z) - Towards Robustifying NLI Models Against Lexical Dataset Biases [94.79704960296108]
本稿では、語彙的データセットバイアスに対するモデル強化のための、データレベルとモデルレベルのデバイアス法の両方について検討する。
まず、データ拡張と拡張によってデータセットをデバイアスするが、この方法でモデルバイアスを完全に除去することはできないことを示す。
第2のアプローチでは、バーオブワードのサブモデルを使用して、バイアスを悪用する可能性のある機能をキャプチャし、元のモデルがこれらのバイアス付き機能を学ぶのを防ぐ。
論文 参考訳(メタデータ) (2020-05-10T17:56:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。