論文の概要: FairFlow: An Automated Approach to Model-based Counterfactual Data Augmentation For NLP
- arxiv url: http://arxiv.org/abs/2407.16431v1
- Date: Tue, 23 Jul 2024 12:29:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 17:16:18.466533
- Title: FairFlow: An Automated Approach to Model-based Counterfactual Data Augmentation For NLP
- Title(参考訳): FairFlow: NLPのためのモデルベースの対実データ拡張に対する自動アプローチ
- Authors: Ewoenam Kwaku Tokpo, Toon Calders,
- Abstract要約: 本稿では,FairFlowを提案する。FairFlowは,逆ファクトテキスト生成モデルの学習のための並列データの自動生成手法である。
FairFlowは優れた性能を維持しつつ辞書ベースの単語置換手法の限界を大幅に克服することを示す。
- 参考スコア(独自算出の注目度): 7.41244589428771
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the evolution of language models, they continue to portray harmful societal biases and stereotypes inadvertently learned from training data. These inherent biases often result in detrimental effects in various applications. Counterfactual Data Augmentation (CDA), which seeks to balance demographic attributes in training data, has been a widely adopted approach to mitigate bias in natural language processing. However, many existing CDA approaches rely on word substitution techniques using manually compiled word-pair dictionaries. These techniques often lead to out-of-context substitutions, resulting in potential quality issues. The advancement of model-based techniques, on the other hand, has been challenged by the need for parallel training data. Works in this area resort to manually generated parallel data that are expensive to collect and are consequently limited in scale. This paper proposes FairFlow, an automated approach to generating parallel data for training counterfactual text generator models that limits the need for human intervention. Furthermore, we show that FairFlow significantly overcomes the limitations of dictionary-based word-substitution approaches whilst maintaining good performance.
- Abstract(参考訳): 言語モデルの進化にもかかわらず、彼らは教育データから不注意に学んだ有害な社会的偏見やステレオタイプを描き続けている。
これらの固有のバイアスは、様々な応用において有害な影響をもたらすことが多い。
学習データにおける人口統計特性のバランスを図るCDAは、自然言語処理におけるバイアスを軽減するために広く採用されているアプローチである。
しかし、既存のCDAアプローチの多くは、手動でコンパイルされたワードペア辞書を使った単語置換技術に依存している。
これらの技術は、しばしば文脈外置換を引き起こし、潜在的な品質問題を引き起こす。
一方,モデルに基づく手法の進歩は,並列トレーニングデータの必要性から問題視されている。
この地域の作業は、手動で生成した並列データを利用しており、収集に費用がかかり、結果として大規模に制限される。
本稿では,人間の介入を制限した対実テキスト生成モデルの訓練のための並列データの自動生成手法であるFairFlowを提案する。
さらに、FairFlowは、優れた性能を維持しつつ、辞書ベースの単語置換アプローチの限界を著しく克服していることを示す。
関連論文リスト
- High-Dimensional Distributed Sparse Classification with Scalable Communication-Efficient Global Updates [50.406127962933915]
我々はコミュニケーション効率のよい分散ロジスティック回帰モデルを学ぶことができる問題に対する解決策を開発する。
実験では、いくつかの分散更新ステップだけで、分散アルゴリズムよりも精度が大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-07-08T19:34:39Z) - Model-based Counterfactual Generator for Gender Bias Mitigation [8.75682288556859]
対実データ拡張は、自然言語モデルにおけるジェンダーバイアスを軽減するために好まれる手法の1つである。
辞書に基づく対実データ拡張手法のいくつかの制限を強調した。
本稿では,ジェンダーバイアスを軽減するために,反事実を生成するためのモデルベースソリューションを提案する。
論文 参考訳(メタデータ) (2023-11-06T15:25:30Z) - Weigh Your Own Words: Improving Hate Speech Counter Narrative Generation
via Attention Regularization [31.40751207207214]
オンラインヘイトスピーチと戦うための最近の計算手法は、カウンターナラティブの自動生成を伴う。
本稿では, PLMの一般化機能を改善するために, 新たなアテンション正規化手法を提案する。
正規化されたモデルは、ほとんどの場合において最先端のアプローチよりも優れたカウンターナラティブを生み出す。
論文 参考訳(メタデータ) (2023-09-05T15:27:22Z) - Non-Invasive Fairness in Learning through the Lens of Data Drift [88.37640805363317]
データや学習アルゴリズムを変更することなく、機械学習モデルの公平性を向上する方法を示す。
異なる集団間の傾向のばらつきと、学習モデルと少数民族間の連続的な傾向は、データドリフトと類似している。
このドリフトを解決するための2つの戦略(モデル分割とリウィーディング)を探索し、基礎となるデータに対するモデル全体の適合性を改善することを目的としている。
論文 参考訳(メタデータ) (2023-03-30T17:30:42Z) - Enhancing Text Generation with Cooperative Training [23.971227375706327]
ほとんどの一般的な方法は、別々に生成的および差別的なモデルを訓練し、互いに変化に適応できなかった。
本稿では,識別器とジェネレータをクローズドループで協調的に学習するテキスト分野におけるテキスト自己一貫性学習フレームワークを提案する。
我々のフレームワークは、モード崩壊や非収束といったトレーニングの不安定さを軽減することができる。
論文 参考訳(メタデータ) (2023-03-16T04:21:19Z) - $\textit{latent}$-GLAT: Glancing at Latent Variables for Parallel Text
Generation [65.29170569821093]
並列テキスト生成は、ジェネレーション効率の成功により、広く注目を集めています。
本稿では,単語分類情報を取得するために,離散潜在変数を用いた$textitlatent$-GLATを提案する。
実験結果から,本手法は自己回帰モデルを用いることなく,強いベースラインを達成できることが示唆された。
論文 参考訳(メタデータ) (2022-04-05T07:34:12Z) - NoiER: An Approach for Training more Reliable Fine-TunedDownstream Task
Models [54.184609286094044]
補助モデルと付加データなしで問題を解くための学習パラダイムとして,ノイズエントロピー正規化(NoiER)を提案する。
提案手法は,従来の微調整モデルと比較して平均55%改善した。
論文 参考訳(メタデータ) (2021-08-29T06:58:28Z) - Learning to Perturb Word Embeddings for Out-of-distribution QA [55.103586220757464]
本論文では,入力問題と文脈の単語埋め込みを意味論を変化させることなく学習するノイズ発生器に基づく簡便かつ効果的なDA法を提案する。
ひとつのソースデータセットに,5つの異なるターゲットドメインに埋め込むことで,トレーニングされたQAモデルのパフォーマンスを検証する。
特に、私たちのトレーニングを受けたモデルは、240K以上の人工的なQAペアでトレーニングされたモデルよりも優れています。
論文 参考訳(メタデータ) (2021-05-06T14:12:26Z) - Improving Commonsense Causal Reasoning by Adversarial Training and Data
Augmentation [14.92157586545743]
本稿では,因果推論の領域において,モデルをより堅牢にするための多くの手法を提案する。
少数の追加生成データポイントがなくても、パフォーマンスと両方のデータセットの統計的に有意な改善を示します。
論文 参考訳(メタデータ) (2021-01-13T09:55:29Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。