論文の概要: CrossAug: A Contrastive Data Augmentation Method for Debiasing Fact
Verification Models
- arxiv url: http://arxiv.org/abs/2109.15107v1
- Date: Thu, 30 Sep 2021 13:19:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-01 15:08:26.397022
- Title: CrossAug: A Contrastive Data Augmentation Method for Debiasing Fact
Verification Models
- Title(参考訳): CrossAug: Fact Verification Modelのデバイアスのためのコントラストデータ拡張手法
- Authors: Minwoo Lee, Seungpil Won, Juae Kim, Hwanhee Lee, Cheoneum Park, Kyomin
Jung
- Abstract要約: そこで本研究では,事実検証モデルのデバイアス化のためのデータ拡張手法であるCrossAugを提案する。
既存のサンプルから新たなクレームやエビデンスを生成するために、2段階拡張パイプラインを使用します。
生成されたサンプルは、元のペアとクロスワイズにペアリングされ、対照的なサンプルを形成します。
- 参考スコア(独自算出の注目度): 14.75693099720436
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Fact verification datasets are typically constructed using crowdsourcing
techniques due to the lack of text sources with veracity labels. However, the
crowdsourcing process often produces undesired biases in data that cause models
to learn spurious patterns. In this paper, we propose CrossAug, a contrastive
data augmentation method for debiasing fact verification models. Specifically,
we employ a two-stage augmentation pipeline to generate new claims and
evidences from existing samples. The generated samples are then paired
cross-wise with the original pair, forming contrastive samples that facilitate
the model to rely less on spurious patterns and learn more robust
representations. Experimental results show that our method outperforms the
previous state-of-the-art debiasing technique by 3.6% on the debiased extension
of the FEVER dataset, with a total performance boost of 10.13% from the
baseline. Furthermore, we evaluate our approach in data-scarce settings, where
models can be more susceptible to biases due to the lack of training data.
Experimental results demonstrate that our approach is also effective at
debiasing in these low-resource conditions, exceeding the baseline performance
on the Symmetric dataset with just 1% of the original data.
- Abstract(参考訳): 事実検証データセットは通常、ベラシティラベルを持つテキストソースがないため、クラウドソーシング技術を使用して構築される。
しかし、クラウドソーシングプロセスは、しばしばデータに望ましくないバイアスを生じさせ、モデルが急激なパターンを学習させる。
本稿では,事実検証モデルのデバイアス化のためのデータ拡張手法であるCrossAugを提案する。
具体的には、既存のサンプルから新たなクレームや証拠を生成するために、2段階の増補パイプラインを使用します。
生成されたサンプルは、元のペアと交差してペアリングされ、モデルのスプリアスパターンへの依存を減らし、より堅牢な表現を学ぶための対照的なサンプルを形成する。
実験結果から,本手法は, FEVERデータセットのデバイアス化拡張において, 従来技術のデバイアス化技術よりも3.6%向上し, ベースラインから10.13%向上した。
さらに,トレーニングデータの欠如により,モデルがバイアスの影響を受けやすいデータキャリア設定におけるアプローチを評価した。
実験の結果,本手法はこれらの低リソース条件下でのデバイアス化にも有効であり,Symmetricデータセットのベースライン性能を1%に抑えることができた。
関連論文リスト
- A Simple Remedy for Dataset Bias via Self-Influence: A Mislabeled Sample Perspective [33.78421391776591]
本稿では,誤ラベル検出の新たな視点を提案する。
我々の新しい視点は、検出の精度を高め、バイアスのあるモデルを効果的に修正できることを示します。
提案手法は既存の手法を補完するものであり,近年のデバイアス化手法をすでに適用しているモデルに適用しても,性能改善を示す。
論文 参考訳(メタデータ) (2024-11-01T04:54:32Z) - Model Debiasing by Learnable Data Augmentation [19.625915578646758]
本稿では,トレーニングを正規化可能なデータ拡張戦略を備えた,新しい2段階学習パイプラインを提案する。
合成および現実的なバイアス付きデータセットの実験は、最先端の分類精度を示し、競合する手法より優れている。
論文 参考訳(メタデータ) (2024-08-09T09:19:59Z) - Looking at Model Debiasing through the Lens of Anomaly Detection [11.113718994341733]
ディープニューラルネットワークはデータのバイアスに敏感である。
本稿では,異常検出に基づく新しいバイアス同定手法を提案する。
合成および実際のベンチマークデータセット上で、最先端のパフォーマンスに到達する。
論文 参考訳(メタデータ) (2024-07-24T17:30:21Z) - DiffInject: Revisiting Debias via Synthetic Data Generation using Diffusion-based Style Injection [9.801159950963306]
DiffInject(ディフインジェクション)は,事前学習した拡散モデルを用いて,合成バイアス競合サンプルを増強する強力な手法である。
私たちのフレームワークでは、バイアスタイプやラベル付けに関する明確な知識は必要ありません。
論文 参考訳(メタデータ) (2024-06-10T09:45:38Z) - Data Attribution for Diffusion Models: Timestep-induced Bias in Influence Estimation [53.27596811146316]
拡散モデルは、以前の文脈における瞬間的な入出力関係ではなく、一連のタイムステップで操作する。
本稿では、この時間的ダイナミクスを取り入れた拡散トラクInについて、サンプルの損失勾配ノルムが時間ステップに大きく依存していることを確認する。
そこで我々はDiffusion-ReTracを再正規化適応として導入し、興味のあるサンプルを対象にしたトレーニングサンプルの検索を可能にする。
論文 参考訳(メタデータ) (2024-01-17T07:58:18Z) - Diverse Data Augmentation with Diffusions for Effective Test-time Prompt
Tuning [73.75282761503581]
DiffTPTを提案する。DiffTPTは,事前学習した拡散モデルを用いて,多種多様な情報データを生成する。
DiffTPTがゼロショット精度を平均5.13%向上することを示す。
論文 参考訳(メタデータ) (2023-08-11T09:36:31Z) - Feature-Level Debiased Natural Language Understanding [86.8751772146264]
既存の自然言語理解(NLU)モデルは、特定のデータセットで高いパフォーマンスを達成するために、データセットバイアスに依存することが多い。
本稿では, バイアスの潜在特性を緩和し, バイアスの動的性質を無視するために, DCT(Debiasing contrastive learning)を提案する。
DCTは、ディストリビューション内のパフォーマンスを維持しながら、アウトオブディストリビューションデータセットの最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2022-12-11T06:16:14Z) - Towards Robust Visual Question Answering: Making the Most of Biased
Samples via Contrastive Learning [54.61762276179205]
我々は,ビザドサンプルを最大限に活用することで,ロバストなVQAモデルを構築するための新しいコントラスト学習手法 MMBS を提案する。
具体的には、元のトレーニングサンプルからスプリアス相関に関連する情報を排除し、比較学習のための正のサンプルを構築する。
我々は,OODデータセットのVQA-CP v2において,IDデータセットのVQA v2上での堅牢なパフォーマンスを維持しながら,競争性能を達成することで,コントリビューションを検証した。
論文 参考訳(メタデータ) (2022-10-10T11:05:21Z) - Generating Data to Mitigate Spurious Correlations in Natural Language
Inference Datasets [27.562256973255728]
自然言語処理モデルはしばしば、タスクに依存しない特徴とデータセットのラベルの間の急激な相関を利用して、トレーニング対象のディストリビューション内でのみうまく機能する。
そこで本研究では, 脱バイアス化したデータセットを生成して, 脱バイアス化したオフザシェルフモデルをトレーニングする手法を提案する。
提案手法は,1)高品質なラベル一貫性のあるデータサンプルを生成するためのデータジェネレータの訓練方法,2)素粒子相関に寄与するデータ点を除去するフィルタリング機構から構成される。
論文 参考訳(メタデータ) (2022-03-24T09:08:05Z) - Negative Data Augmentation [127.28042046152954]
負のデータ拡張サンプルは、データ分散のサポートに関する情報を提供することを示す。
我々は、NDAを識別器の合成データの追加源として利用する新しいGAN訓練目標を提案する。
実験により,本手法で訓練したモデルでは,異常検出能力の向上とともに条件付き・条件付き画像生成の改善を実現している。
論文 参考訳(メタデータ) (2021-02-09T20:28:35Z) - Towards Robustifying NLI Models Against Lexical Dataset Biases [94.79704960296108]
本稿では、語彙的データセットバイアスに対するモデル強化のための、データレベルとモデルレベルのデバイアス法の両方について検討する。
まず、データ拡張と拡張によってデータセットをデバイアスするが、この方法でモデルバイアスを完全に除去することはできないことを示す。
第2のアプローチでは、バーオブワードのサブモデルを使用して、バイアスを悪用する可能性のある機能をキャプチャし、元のモデルがこれらのバイアス付き機能を学ぶのを防ぐ。
論文 参考訳(メタデータ) (2020-05-10T17:56:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。