論文の概要: CrossAug: A Contrastive Data Augmentation Method for Debiasing Fact
Verification Models
- arxiv url: http://arxiv.org/abs/2109.15107v1
- Date: Thu, 30 Sep 2021 13:19:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-01 15:08:26.397022
- Title: CrossAug: A Contrastive Data Augmentation Method for Debiasing Fact
Verification Models
- Title(参考訳): CrossAug: Fact Verification Modelのデバイアスのためのコントラストデータ拡張手法
- Authors: Minwoo Lee, Seungpil Won, Juae Kim, Hwanhee Lee, Cheoneum Park, Kyomin
Jung
- Abstract要約: そこで本研究では,事実検証モデルのデバイアス化のためのデータ拡張手法であるCrossAugを提案する。
既存のサンプルから新たなクレームやエビデンスを生成するために、2段階拡張パイプラインを使用します。
生成されたサンプルは、元のペアとクロスワイズにペアリングされ、対照的なサンプルを形成します。
- 参考スコア(独自算出の注目度): 14.75693099720436
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Fact verification datasets are typically constructed using crowdsourcing
techniques due to the lack of text sources with veracity labels. However, the
crowdsourcing process often produces undesired biases in data that cause models
to learn spurious patterns. In this paper, we propose CrossAug, a contrastive
data augmentation method for debiasing fact verification models. Specifically,
we employ a two-stage augmentation pipeline to generate new claims and
evidences from existing samples. The generated samples are then paired
cross-wise with the original pair, forming contrastive samples that facilitate
the model to rely less on spurious patterns and learn more robust
representations. Experimental results show that our method outperforms the
previous state-of-the-art debiasing technique by 3.6% on the debiased extension
of the FEVER dataset, with a total performance boost of 10.13% from the
baseline. Furthermore, we evaluate our approach in data-scarce settings, where
models can be more susceptible to biases due to the lack of training data.
Experimental results demonstrate that our approach is also effective at
debiasing in these low-resource conditions, exceeding the baseline performance
on the Symmetric dataset with just 1% of the original data.
- Abstract(参考訳): 事実検証データセットは通常、ベラシティラベルを持つテキストソースがないため、クラウドソーシング技術を使用して構築される。
しかし、クラウドソーシングプロセスは、しばしばデータに望ましくないバイアスを生じさせ、モデルが急激なパターンを学習させる。
本稿では,事実検証モデルのデバイアス化のためのデータ拡張手法であるCrossAugを提案する。
具体的には、既存のサンプルから新たなクレームや証拠を生成するために、2段階の増補パイプラインを使用します。
生成されたサンプルは、元のペアと交差してペアリングされ、モデルのスプリアスパターンへの依存を減らし、より堅牢な表現を学ぶための対照的なサンプルを形成する。
実験結果から,本手法は, FEVERデータセットのデバイアス化拡張において, 従来技術のデバイアス化技術よりも3.6%向上し, ベースラインから10.13%向上した。
さらに,トレーニングデータの欠如により,モデルがバイアスの影響を受けやすいデータキャリア設定におけるアプローチを評価した。
実験の結果,本手法はこれらの低リソース条件下でのデバイアス化にも有効であり,Symmetricデータセットのベースライン性能を1%に抑えることができた。
関連論文リスト
- Data Attribution for Diffusion Models: Timestep-induced Bias in
Influence Estimation [58.20016784231991]
拡散モデルは、以前の文脈における瞬間的な入出力関係ではなく、一連のタイムステップで操作する。
本稿では、この時間的ダイナミクスを取り入れた拡散トラクInについて、サンプルの損失勾配ノルムが時間ステップに大きく依存していることを確認する。
そこで我々はDiffusion-ReTracを再正規化適応として導入し、興味のあるサンプルを対象にしたトレーニングサンプルの検索を可能にする。
論文 参考訳(メタデータ) (2024-01-17T07:58:18Z) - Hybrid Sample Synthesis-based Debiasing of Classifier in Limited Data
Setting [5.837881923712393]
本稿では,バイアスに関する事前情報を持たない,より実践的な設定に焦点を当てる。
この設定では、モデルがバイアス予測を発生させるようなバイアスアライメントされたサンプルが多数存在する。
トレーニングデータに制限がある場合、バイアスアライメントされたサンプルの影響がモデル予測にさらに強くなる可能性がある。
論文 参考訳(メタデータ) (2023-12-13T17:04:16Z) - Improving Bias Mitigation through Bias Experts in Natural Language
Understanding [10.363406065066538]
補助モデルと主モデルの間に二項分類器を導入するデバイアス化フレームワークを提案する。
提案手法は補助モデルのバイアス識別能力を向上させる。
論文 参考訳(メタデータ) (2023-12-06T16:15:00Z) - Diverse Data Augmentation with Diffusions for Effective Test-time Prompt
Tuning [73.75282761503581]
DiffTPTを提案する。DiffTPTは,事前学習した拡散モデルを用いて,多種多様な情報データを生成する。
DiffTPTがゼロショット精度を平均5.13%向上することを示す。
論文 参考訳(メタデータ) (2023-08-11T09:36:31Z) - Feature-Level Debiased Natural Language Understanding [86.8751772146264]
既存の自然言語理解(NLU)モデルは、特定のデータセットで高いパフォーマンスを達成するために、データセットバイアスに依存することが多い。
本稿では, バイアスの潜在特性を緩和し, バイアスの動的性質を無視するために, DCT(Debiasing contrastive learning)を提案する。
DCTは、ディストリビューション内のパフォーマンスを維持しながら、アウトオブディストリビューションデータセットの最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2022-12-11T06:16:14Z) - Towards Robust Visual Question Answering: Making the Most of Biased
Samples via Contrastive Learning [54.61762276179205]
我々は,ビザドサンプルを最大限に活用することで,ロバストなVQAモデルを構築するための新しいコントラスト学習手法 MMBS を提案する。
具体的には、元のトレーニングサンプルからスプリアス相関に関連する情報を排除し、比較学習のための正のサンプルを構築する。
我々は,OODデータセットのVQA-CP v2において,IDデータセットのVQA v2上での堅牢なパフォーマンスを維持しながら,競争性能を達成することで,コントリビューションを検証した。
論文 参考訳(メタデータ) (2022-10-10T11:05:21Z) - Generating Data to Mitigate Spurious Correlations in Natural Language
Inference Datasets [27.562256973255728]
自然言語処理モデルはしばしば、タスクに依存しない特徴とデータセットのラベルの間の急激な相関を利用して、トレーニング対象のディストリビューション内でのみうまく機能する。
そこで本研究では, 脱バイアス化したデータセットを生成して, 脱バイアス化したオフザシェルフモデルをトレーニングする手法を提案する。
提案手法は,1)高品質なラベル一貫性のあるデータサンプルを生成するためのデータジェネレータの訓練方法,2)素粒子相関に寄与するデータ点を除去するフィルタリング機構から構成される。
論文 参考訳(メタデータ) (2022-03-24T09:08:05Z) - Negative Data Augmentation [127.28042046152954]
負のデータ拡張サンプルは、データ分散のサポートに関する情報を提供することを示す。
我々は、NDAを識別器の合成データの追加源として利用する新しいGAN訓練目標を提案する。
実験により,本手法で訓練したモデルでは,異常検出能力の向上とともに条件付き・条件付き画像生成の改善を実現している。
論文 参考訳(メタデータ) (2021-02-09T20:28:35Z) - Towards Robustifying NLI Models Against Lexical Dataset Biases [94.79704960296108]
本稿では、語彙的データセットバイアスに対するモデル強化のための、データレベルとモデルレベルのデバイアス法の両方について検討する。
まず、データ拡張と拡張によってデータセットをデバイアスするが、この方法でモデルバイアスを完全に除去することはできないことを示す。
第2のアプローチでは、バーオブワードのサブモデルを使用して、バイアスを悪用する可能性のある機能をキャプチャし、元のモデルがこれらのバイアス付き機能を学ぶのを防ぐ。
論文 参考訳(メタデータ) (2020-05-10T17:56:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。