論文の概要: Generating Gender Augmented Data for NLP
- arxiv url: http://arxiv.org/abs/2107.05987v1
- Date: Tue, 13 Jul 2021 11:13:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-14 22:02:37.314295
- Title: Generating Gender Augmented Data for NLP
- Title(参考訳): NLPのためのジェンダー増強データの生成
- Authors: Nishtha Jain, Maja Popovic, Declan Groves, Eva Vanmassenhove
- Abstract要約: ジェンダーバイアスは、NLPベースのアプリケーション、特に性差のある言語で頻繁に発生する。
本稿では,会話文の自動書き直し手法を提案する。
提案するアプローチは、あるジェンダーから別のジェンダーへの"翻訳"を訓練されたニューラルマシン翻訳(NMT)システムに基づいている。
- 参考スコア(独自算出の注目度): 3.5557219875516655
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Gender bias is a frequent occurrence in NLP-based applications, especially
pronounced in gender-inflected languages. Bias can appear through associations
of certain adjectives and animate nouns with the natural gender of referents,
but also due to unbalanced grammatical gender frequencies of inflected words.
This type of bias becomes more evident in generating conversational utterances
where gender is not specified within the sentence, because most current NLP
applications still work on a sentence-level context. As a step towards more
inclusive NLP, this paper proposes an automatic and generalisable rewriting
approach for short conversational sentences. The rewriting method can be
applied to sentences that, without extra-sentential context, have multiple
equivalent alternatives in terms of gender. The method can be applied both for
creating gender balanced outputs as well as for creating gender balanced
training data. The proposed approach is based on a neural machine translation
(NMT) system trained to 'translate' from one gender alternative to another.
Both the automatic and manual analysis of the approach show promising results
for automatic generation of gender alternatives for conversational sentences in
Spanish.
- Abstract(参考訳): ジェンダーバイアスはNLPベースのアプリケーションで頻繁に発生し、特に性差のある言語では顕著である。
バイアスは、特定の形容詞やアニメート名詞と参照者の自然な性別の関連付けを通じて現れるが、同時に、屈折した単語の不均衡な文法的性別頻度によっても現れる。
このようなバイアスは、現在NLPアプリケーションが文レベルのコンテキストで動作しているため、文内で性別が特定されていない会話的発話を生成する際により明確になる。
より包括的なNLPへのステップとして,短い会話文に対する自動的かつ一般化可能な書き換え手法を提案する。
書き直し法(rewriting method)は、性別の観点で複数の等価な選択肢を持つ文に適用することができる。
この方法は、性別バランスのとれたアウトプットの作成と、性別バランスの訓練データの作成の両方に応用できる。
提案するアプローチは、あるジェンダーから別のジェンダーへの"翻訳"を訓練されたニューラルマシン翻訳(NMT)システムに基づいている。
このアプローチの自動分析と手動分析は、スペイン語の会話文の自動生成に有望な結果を示している。
関連論文リスト
- Beyond Binary Gender: Evaluating Gender-Inclusive Machine Translation with Ambiguous Attitude Words [85.48043537327258]
既存の機械翻訳の性別バイアス評価は主に男性と女性の性別に焦点を当てている。
本研究では,AmbGIMT (Gender-Inclusive Machine Translation with Ambiguous attitude words) のベンチマークを示す。
本研究では,感情的態度スコア(EAS)に基づく性別バイアス評価手法を提案する。
論文 参考訳(メタデータ) (2024-07-23T08:13:51Z) - Gender Inflected or Bias Inflicted: On Using Grammatical Gender Cues for
Bias Evaluation in Machine Translation [0.0]
我々はヒンディー語をソース言語とし、ヒンディー語(HI-EN)の異なるNMTシステムを評価するために、ジェンダー特化文の2つのセットを構築した。
本研究は,そのような外部バイアス評価データセットを設計する際に,言語の性質を考えることの重要性を強調した。
論文 参考訳(メタデータ) (2023-11-07T07:09:59Z) - Probing Explicit and Implicit Gender Bias through LLM Conditional Text
Generation [64.79319733514266]
大規模言語モデル(LLM)はバイアスと有害な応答を生成する。
本研究では,あらかじめ定義されたジェンダーフレーズやステレオタイプを必要としない条件付きテキスト生成機構を提案する。
論文 参考訳(メタデータ) (2023-11-01T05:31:46Z) - How To Build Competitive Multi-gender Speech Translation Models For
Controlling Speaker Gender Translation [21.125217707038356]
発音性言語から文法性言語に翻訳する場合、生成された翻訳は、話者を参照する者を含む様々な単語に対して、明確なジェンダー代入を必要とする。
このような偏見や包括的行動を避けるために、話者の性別に関する外部から提供されたメタデータによって、話者関連表現の性別割当を導出すべきである。
本稿では、話者のジェンダーメタデータを単一の「マルチジェンダー」ニューラルSTモデルに統合し、維持しやすくすることで、同じ結果を達成することを目的とする。
論文 参考訳(メタデータ) (2023-10-23T17:21:32Z) - The Gender-GAP Pipeline: A Gender-Aware Polyglot Pipeline for Gender
Characterisation in 55 Languages [51.2321117760104]
本稿では,55言語を対象とした大規模データセットにおけるジェンダー表現を特徴付ける自動パイプラインであるGender-GAP Pipelineについて述べる。
このパイプラインは、性別付き人称名詞の多言語語彙を用いて、テキスト中の性別表現を定量化する。
本稿では、WMTのトレーニングデータとNewsタスクの開発データにジェンダー表現を報告し、現在のデータが男性表現にスキューされていることを確認する。
論文 参考訳(メタデータ) (2023-08-31T17:20:50Z) - VisoGender: A dataset for benchmarking gender bias in image-text pronoun
resolution [80.57383975987676]
VisoGenderは、視覚言語モデルで性別バイアスをベンチマークするための新しいデータセットである。
We focus to occupation-related biases in a hegemonic system of binary gender, inspired by Winograd and Winogender schemas。
我々は、最先端の視覚言語モデルをいくつかベンチマークし、それらが複雑な場面における二項性解消のバイアスを示すことを発見した。
論文 参考訳(メタデータ) (2023-06-21T17:59:51Z) - NeuTral Rewriter: A Rule-Based and Neural Approach to Automatic
Rewriting into Gender-Neutral Alternatives [2.3204178451683264]
本稿では、英語における性中立性書き換えに対するルールベースおよびニューラルアプローチを提案する。
詳細なマニュアルと自動評価では、ルールベースのアプローチによって生成されたデータに基づいてトレーニングされたNeuTral Rewriterが、0.18%未満のワードエラー率(WER)を取得する方法が強調されている。
論文 参考訳(メタデータ) (2021-09-13T16:26:12Z) - They, Them, Theirs: Rewriting with Gender-Neutral English [56.14842450974887]
私たちは、英語でジェンダーインクルージョンを促進する一般的な方法である特異点についてケーススタディを行います。
本研究では, 人為的データを持たない1%の単語誤り率で, ジェンダーニュートラルな英語を学習できるモデルについて述べる。
論文 参考訳(メタデータ) (2021-02-12T21:47:48Z) - Neural Machine Translation Doesn't Translate Gender Coreference Right
Unless You Make It [18.148675498274866]
ニューラル・マシン・トランスフォーメーションに明示的な単語レベルのジェンダー・インフレクション・タグを組み込む手法を提案する。
既存の単純なアプローチは、文中の複数のエンティティにジェンダー・フィーチャーを過度に一般化することができる。
また,英語のジェンダーニュートラルな実体の翻訳を,それに対応する言語規則で評価する拡張も提案する。
論文 参考訳(メタデータ) (2020-10-11T20:05:42Z) - Multi-Dimensional Gender Bias Classification [67.65551687580552]
機械学習モデルは、性別に偏ったテキストでトレーニングする際に、社会的に望ましくないパターンを不注意に学習することができる。
本稿では,テキスト中の性バイアスを複数の実用的・意味的な次元に沿って分解する一般的な枠組みを提案する。
このきめ細かいフレームワークを用いて、8つの大規模データセットにジェンダー情報を自動的にアノテートする。
論文 参考訳(メタデータ) (2020-05-01T21:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。