論文の概要: IBADR: an Iterative Bias-Aware Dataset Refinement Framework for
Debiasing NLU models
- arxiv url: http://arxiv.org/abs/2311.00292v1
- Date: Wed, 1 Nov 2023 04:50:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 14:43:46.213231
- Title: IBADR: an Iterative Bias-Aware Dataset Refinement Framework for
Debiasing NLU models
- Title(参考訳): IBADR: NLUモデルのデバイアス化のための反復バイアス対応データセットリファインメントフレームワーク
- Authors: Xiaoyue Wang, Xin Liu, Lijie Wang, Yaoxiang Wang, Jinsong Su and Hua
Wu
- Abstract要約: IBADR(Iterative Bias-Aware dataset Refinement framework)を提案する。
まず、プール内のサンプルのバイアス度を定量化するために浅いモデルを訓練する。
次に、各サンプルにバイアス度を表すバイアス指標をペアにして、これらの拡張サンプルを使用してサンプルジェネレータを訓練する。
このようにして、このジェネレータは、バイアスインジケータとサンプルの対応関係を効果的に学習することができる。
- 参考スコア(独自算出の注目度): 52.03761198830643
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As commonly-used methods for debiasing natural language understanding (NLU)
models, dataset refinement approaches heavily rely on manual data analysis, and
thus maybe unable to cover all the potential biased features. In this paper, we
propose IBADR, an Iterative Bias-Aware Dataset Refinement framework, which
debiases NLU models without predefining biased features. We maintain an
iteratively expanded sample pool. Specifically, at each iteration, we first
train a shallow model to quantify the bias degree of samples in the pool. Then,
we pair each sample with a bias indicator representing its bias degree, and use
these extended samples to train a sample generator. In this way, this generator
can effectively learn the correspondence relationship between bias indicators
and samples. Furthermore, we employ the generator to produce pseudo samples
with fewer biased features by feeding specific bias indicators. Finally, we
incorporate the generated pseudo samples into the pool. Experimental results
and in-depth analyses on two NLU tasks show that IBADR not only significantly
outperforms existing dataset refinement approaches, achieving SOTA, but also is
compatible with model-centric methods.
- Abstract(参考訳): 自然言語理解(nlu)モデルをデバイアスする一般的な手法として、データセットのリファインメントアプローチは手動のデータ解析に大きく依存しており、潜在的なバイアスのある機能をすべてカバーできない可能性がある。
本稿では,バイアスのある特徴を事前に定義することなくnluモデルをデバイザリングする反復バイアス対応データセットリファインメントフレームワークであるibdrを提案する。
反復的に拡張されたサンプルプールを維持します。
具体的には、各イテレーションでまず浅いモデルをトレーニングし、プール内のサンプルのバイアス度を定量化します。
次に、各サンプルをバイアス度を表すバイアスインジケータとペアリングし、これらの拡張サンプルを使用してサンプルジェネレータをトレーニングします。
このようにして、バイアス指標とサンプルの対応関係を効果的に学習することができる。
さらに, 特定のバイアス指標を入力することにより, バイアスの少ない擬似サンプルを生成する。
最後に、生成された擬似サンプルをプールに組み込む。
2つのnluタスクの実験結果と詳細な分析により、ibdrは既存のデータセットのリファインメントアプローチを大きく上回るだけでなく、モデル中心の手法とも互換性があることが示された。
関連論文リスト
- DiffInject: Revisiting Debias via Synthetic Data Generation using Diffusion-based Style Injection [9.801159950963306]
DiffInject(ディフインジェクション)は,事前学習した拡散モデルを用いて,合成バイアス競合サンプルを増強する強力な手法である。
私たちのフレームワークでは、バイアスタイプやラベル付けに関する明確な知識は必要ありません。
論文 参考訳(メタデータ) (2024-06-10T09:45:38Z) - Enhancing Intrinsic Features for Debiasing via Investigating Class-Discerning Common Attributes in Bias-Contrastive Pair [36.221761997349795]
ディープニューラルネットワークは、データセットバイアスの存在下でターゲットクラスと急激な相関を持つバイアス特性に依存している。
本稿では,本質的特徴の領域を示す空間的指示を明示的に提示する手法を提案する。
実験により, 種々のバイアス重大度を有する合成および実世界のデータセットに対して, 最先端の性能を達成できることが実証された。
論文 参考訳(メタデータ) (2024-04-30T04:13:14Z) - Revisiting the Dataset Bias Problem from a Statistical Perspective [72.94990819287551]
統計的観点から「データセットバイアス」問題を考察する。
問題の主な原因は、クラス属性 u と非クラス属性 b の強い相関関係である。
本稿では,各試料nの目的をフラクタル1p(u_n|b_n)で重み付けするか,その試料をフラクタル1p(u_n|b_n)に比例してサンプリングすることにより,データセットバイアスを軽減することを提案する。
論文 参考訳(メタデータ) (2024-02-05T22:58:06Z) - Echoes: Unsupervised Debiasing via Pseudo-bias Labeling in an Echo
Chamber [17.034228910493056]
本稿では,既存のバイアスモデルがトレーニングデータにおけるバイアス強調サンプルに過度に適合していることを明らかにする実験的検討を行った。
本研究では、バイアスモデルとターゲットモデルを異なる戦略で訓練するEchoesという、単純で効果的な手法を提案する。
提案手法は,既存の合成データセットと実世界のデータセットのベースラインと比較して,優れたデバイアス化結果が得られる。
論文 参考訳(メタデータ) (2023-05-06T13:13:18Z) - Feature-Level Debiased Natural Language Understanding [86.8751772146264]
既存の自然言語理解(NLU)モデルは、特定のデータセットで高いパフォーマンスを達成するために、データセットバイアスに依存することが多い。
本稿では, バイアスの潜在特性を緩和し, バイアスの動的性質を無視するために, DCT(Debiasing contrastive learning)を提案する。
DCTは、ディストリビューション内のパフォーマンスを維持しながら、アウトオブディストリビューションデータセットの最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2022-12-11T06:16:14Z) - General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。
GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-20T14:47:32Z) - Learning Debiased Representation via Disentangled Feature Augmentation [19.348340314001756]
本稿では, 様々なバイアスを伴うサンプルを用いたトレーニングが, 脱バイアスに不可欠であることを示す実験的検討を行った。
本稿では, 多様なバイアス分散サンプルを合成するために, 特徴レベルのデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2021-07-03T08:03:25Z) - One for More: Selecting Generalizable Samples for Generalizable ReID
Model [92.40951770273972]
本稿では,選択したサンプルを損失関数として一般化する1対3の学習目標を提案する。
提案した1対3のサンプルは,ReIDトレーニングフレームワークにシームレスに統合できる。
論文 参考訳(メタデータ) (2020-12-10T06:37:09Z) - Towards Robustifying NLI Models Against Lexical Dataset Biases [94.79704960296108]
本稿では、語彙的データセットバイアスに対するモデル強化のための、データレベルとモデルレベルのデバイアス法の両方について検討する。
まず、データ拡張と拡張によってデータセットをデバイアスするが、この方法でモデルバイアスを完全に除去することはできないことを示す。
第2のアプローチでは、バーオブワードのサブモデルを使用して、バイアスを悪用する可能性のある機能をキャプチャし、元のモデルがこれらのバイアス付き機能を学ぶのを防ぐ。
論文 参考訳(メタデータ) (2020-05-10T17:56:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。