論文の概要: Text Style Transfer for Bias Mitigation using Masked Language Modeling
- arxiv url: http://arxiv.org/abs/2201.08643v1
- Date: Fri, 21 Jan 2022 11:06:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-24 14:32:03.226820
- Title: Text Style Transfer for Bias Mitigation using Masked Language Modeling
- Title(参考訳): マスキング言語モデルを用いたバイアス緩和のためのテキストスタイル転送
- Authors: Ewoenam Kwaku Tokpo, Toon Calders
- Abstract要約: 本稿では,テキストデータを自動的にデバイアスするテキストスタイル転送モデルを提案する。
このモデルでは、潜在コンテンツエンコーディングと明示的なキーワード置換を組み合わせることで、そのような問題を解決する。
- 参考スコア(独自算出の注目度): 9.350763916068026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is well known that textual data on the internet and other digital
platforms contain significant levels of bias and stereotypes. Although many
such texts contain stereotypes and biases that inherently exist in natural
language for reasons that are not necessarily malicious, there are crucial
reasons to mitigate these biases. For one, these texts are being used as
training corpus to train language models for salient applications like
cv-screening, search engines, and chatbots; such applications are turning out
to produce discriminatory results. Also, several research findings have
concluded that biased texts have significant effects on the target demographic
groups. For instance, masculine-worded job advertisements tend to be less
appealing to female applicants.
In this paper, we present a text style transfer model that can be used to
automatically debias textual data. Our style transfer model improves on the
limitations of many existing style transfer techniques such as loss of content
information. Our model solves such issues by combining latent content encoding
with explicit keyword replacement. We will show that this technique produces
better content preservation whilst maintaining good style transfer accuracy.
- Abstract(参考訳): インターネットや他のデジタルプラットフォーム上のテキストデータは、かなりのレベルのバイアスとステレオタイプを含んでいることはよく知られている。
このようなテキストには、必ずしも悪意を持っていない理由から自然言語に固有のステレオタイプやバイアスが含まれているが、これらのバイアスを緩和するための重要な理由がある。
例えば、これらのテキストは、cv-screeningや検索エンジン、チャットボットといった優れたアプリケーションのための言語モデルをトレーニングするためのトレーニングコーパスとして使われています。
また、いくつかの研究結果から、偏りのあるテキストはターゲットの人口集団に大きな影響を与えると結論づけられた。
例えば、男性言葉の求人広告は女性応募者にはあまりアピールしない傾向にある。
本稿では,テキストデータの自動デバイアスに使用できるテキストスタイルトランスファーモデルを提案する。
当社のスタイル転送モデルは,コンテンツ情報の喪失などの既存のスタイル転送技術の制限を改善した。
本モデルでは,潜在コンテンツエンコーディングと明示的なキーワード置換を組み合わせることで,このような問題を解決する。
本手法は,優れたスタイル転送精度を維持しつつ,より良いコンテンツ保存を実現することを示す。
関連論文リスト
- Harmful Speech Detection by Language Models Exhibits Gender-Queer Dialect Bias [8.168722337906148]
本研究では,ジェンダークェア方言の有害な音声分類におけるバイアスの存在について検討した。
LGBTQ+スラーの非退行的使用を実証する109個のテンプレートに基づく新しいデータセットであるQuierLexを紹介する。
筆者らは,これらのテキストの害評価において,市販の5つの言語モデルの性能を体系的に評価した。
論文 参考訳(メタデータ) (2024-05-23T18:07:28Z) - Multilingual Text-to-Image Generation Magnifies Gender Stereotypes and Prompt Engineering May Not Help You [64.74707085021858]
多言語モデルは、モノリンガルモデルと同様に、有意な性別バイアスに悩まされていることを示す。
多言語モデルにおけるジェンダーバイアスの研究を促進するための新しいベンチマークMAGBIGを提案する。
以上の結果から,モデルが強い性バイアスを示すだけでなく,言語によって異なる行動を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-01-29T12:02:28Z) - Don't lose the message while paraphrasing: A study on content preserving
style transfer [61.38460184163704]
スタイル伝達研究の現実的な応用には,コンテンツ保存が不可欠である。
形式性伝達領域の例において、様々なスタイル転送モデルを比較する。
我々は,スタイル伝達のための最先端技術について,精密な比較研究を行っている。
論文 参考訳(メタデータ) (2023-08-17T15:41:08Z) - StoryTrans: Non-Parallel Story Author-Style Transfer with Discourse
Representations and Content Enhancing [73.81778485157234]
長文は通常、文よりも談話構造のような複雑な著者の言語的嗜好を含んでいる。
我々は、入力されたストーリーを特定の著者スタイルに転送する必要があるノン並列ストーリー作者スタイル転送のタスクを定式化する。
モデルが自動エンコーダに退化することを防ぐために,学習した談話表現からスタイル的特徴を引き離すための追加の学習目標を用いる。
論文 参考訳(メタデータ) (2022-08-29T08:47:49Z) - Whose Language Counts as High Quality? Measuring Language Ideologies in
Text Data Selection [83.3580786484122]
より富裕で、教育され、都会のZIPコードにある大きな学校の新聞は、質の高いものとして分類される傾向にある。
高品質なコーパスを特権化するには言語イデオロギーが必要です。
論文 参考訳(メタデータ) (2022-01-25T17:20:04Z) - The Authors Matter: Understanding and Mitigating Implicit Bias in Deep
Text Classification [36.361778457307636]
ディープテキスト分類モデルは、特定の人口統計グループの著者によって書かれたテキストのバイアス結果を生成することができます。
本論文では,異なる人口集団の異なるテキスト分類タスクに暗黙のバイアスが存在することを示す。
そして、暗黙のバイアスの知識を深めるために、学習に基づく解釈方法を構築します。
論文 参考訳(メタデータ) (2021-05-06T16:17:38Z) - Self-Diagnosis and Self-Debiasing: A Proposal for Reducing Corpus-Based
Bias in NLP [10.936043362876651]
問題のあるテキストを生成するモデルの確率を減少させる復号アルゴリズムを提案する。
このアプローチは必ずしもバイアス付きテキストを生成する言語モデルの問題を取り除くものではないが、この方向への重要なステップであると考えている。
論文 参考訳(メタデータ) (2021-02-28T11:07:37Z) - Adversarial Watermarking Transformer: Towards Tracing Text Provenance
with Data Hiding [80.3811072650087]
自然言語の透かしを防御として研究し,テキストの出所の発見と追跡に役立てる。
本稿では,適応型透かし変換器(AWT)とエンコーダ・デコーダ・デコーダを併用した対向型透かし変換器(AWT)について述べる。
AWTは、テキストにデータを隠蔽する最初のエンドツーエンドモデルである。
論文 参考訳(メタデータ) (2020-09-07T11:01:24Z) - Improving Disentangled Text Representation Learning with
Information-Theoretic Guidance [99.68851329919858]
自然言語の独特な性質は、テキスト表現の分離をより困難にする。
情報理論にインスパイアされた本研究では,テキストの不整合表現を効果的に表現する手法を提案する。
条件付きテキスト生成とテキストスタイル転送の両方の実験は、不整合表現の質を実証する。
論文 参考訳(メタデータ) (2020-06-01T03:36:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。