論文の概要: The Arabic Parallel Gender Corpus 2.0: Extensions and Analyses
- arxiv url: http://arxiv.org/abs/2110.09216v1
- Date: Mon, 18 Oct 2021 12:06:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-19 16:41:50.754374
- Title: The Arabic Parallel Gender Corpus 2.0: Extensions and Analyses
- Title(参考訳): アラビア語並列性コーパス2.0:拡張と分析
- Authors: Bashar Alhafni, Nizar Habash, Houda Bouamor
- Abstract要約: 本研究では,性別識別と書き直しのための新しいコーパスを提案する。
アラビア語は、ジェンダーマークに富む形態的言語である。
- 参考スコア(独自算出の注目度): 17.253633576291897
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gender bias in natural language processing (NLP) applications, particularly
machine translation, has been receiving increasing attention. Much of the
research on this issue has focused on mitigating gender bias in English NLP
models and systems. Addressing the problem in poorly resourced, and/or
morphologically rich languages has lagged behind, largely due to the lack of
datasets and resources. In this paper, we introduce a new corpus for gender
identification and rewriting in contexts involving one or two target users (I
and/or You) -- first and second grammatical persons with independent
grammatical gender preferences. We focus on Arabic, a gender-marking
morphologically rich language. The corpus has multiple parallel components:
four combinations of 1st and 2nd person in feminine and masculine grammatical
genders, as well as English, and English to Arabic machine translation output.
This corpus expands on Habash et al. (2019)'s Arabic Parallel Gender Corpus
(APGC v1.0) by adding second person targets as well as increasing the total
number of sentences over 6.5 times, reaching over 590K words. Our new dataset
will aid the research and development of gender identification, controlled text
generation, and post-editing rewrite systems that could be used to personalize
NLP applications and provide users with the correct outputs based on their
grammatical gender preferences. We make the Arabic Parallel Gender Corpus (APGC
v2.0) publicly available.
- Abstract(参考訳): 自然言語処理(NLP)アプリケーションにおけるジェンダーバイアス、特に機械翻訳は注目されている。
この問題に関する多くの研究は、英語のnlpモデルとシステムにおけるジェンダーバイアスの緩和に焦点を当てている。
リソース不足、および/または形態学的にリッチな言語でのこの問題への対処は、主にデータセットとリソースの欠如によって、遅れている。
本稿では,1人ないし2人の対象ユーザ(Iおよび/またはYou)が関係する文脈において,ジェンダー識別と書き直しを行うための新しいコーパスを提案する。
アラビア語は形態学的に豊かな言語である。
コーパスには複数の並列成分があり、女性と男性による文法的性別の1人目と2人目の組み合わせ、英語とアラビア語の機械翻訳出力の4つがある。
このコーパスはhabash et al. (2019) の arabic parallel gender corpus (apgc v1.0) に拡張され、2人目のターゲットを追加し、6.5回以上の文の総数を増加させ、590万語以上に達する。
我々の新しいデータセットは、NLPアプリケーションをパーソナライズし、文法的な性別嗜好に基づいて正しい出力をユーザに提供できる性別識別、制御されたテキスト生成、編集後書き換えシステムの研究開発を支援する。
我々は、アラビア語並列性コーパス(apgc v2.0)を一般公開する。
関連論文リスト
- Beyond Binary Gender: Evaluating Gender-Inclusive Machine Translation with Ambiguous Attitude Words [85.48043537327258]
既存の機械翻訳の性別バイアス評価は主に男性と女性の性別に焦点を当てている。
本研究では,AmbGIMT (Gender-Inclusive Machine Translation with Ambiguous attitude words) のベンチマークを示す。
本研究では,感情的態度スコア(EAS)に基づく性別バイアス評価手法を提案する。
論文 参考訳(メタデータ) (2024-07-23T08:13:51Z) - Building Bridges: A Dataset for Evaluating Gender-Fair Machine Translation into German [17.924716793621627]
英独機械翻訳(MT)におけるジェンダーフェア言語の研究
2つの商用システムと6つのニューラルMTモデルを含む最初のベンチマーク研究を行う。
以上の結果から,ほとんどのシステムでは男性型が主流であり,性別ニュートラル変種は稀である。
論文 参考訳(メタデータ) (2024-06-10T09:39:19Z) - Multilingual Text-to-Image Generation Magnifies Gender Stereotypes and Prompt Engineering May Not Help You [64.74707085021858]
多言語モデルは、モノリンガルモデルと同様に、有意な性別バイアスに悩まされていることを示す。
多言語モデルにおけるジェンダーバイアスの研究を促進するための新しいベンチマークMAGBIGを提案する。
以上の結果から,モデルが強い性バイアスを示すだけでなく,言語によって異なる行動を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-01-29T12:02:28Z) - How To Build Competitive Multi-gender Speech Translation Models For
Controlling Speaker Gender Translation [21.125217707038356]
発音性言語から文法性言語に翻訳する場合、生成された翻訳は、話者を参照する者を含む様々な単語に対して、明確なジェンダー代入を必要とする。
このような偏見や包括的行動を避けるために、話者の性別に関する外部から提供されたメタデータによって、話者関連表現の性別割当を導出すべきである。
本稿では、話者のジェンダーメタデータを単一の「マルチジェンダー」ニューラルSTモデルに統合し、維持しやすくすることで、同じ結果を達成することを目的とする。
論文 参考訳(メタデータ) (2023-10-23T17:21:32Z) - VisoGender: A dataset for benchmarking gender bias in image-text pronoun
resolution [80.57383975987676]
VisoGenderは、視覚言語モデルで性別バイアスをベンチマークするための新しいデータセットである。
We focus to occupation-related biases in a hegemonic system of binary gender, inspired by Winograd and Winogender schemas。
我々は、最先端の視覚言語モデルをいくつかベンチマークし、それらが複雑な場面における二項性解消のバイアスを示すことを発見した。
論文 参考訳(メタデータ) (2023-06-21T17:59:51Z) - User-Centric Gender Rewriting [12.519348416773553]
我々は2人のユーザー(私とあなた)を巻き込んだ文脈におけるジェンダーリライトの課題を定義する。
ルールベースモデルとニューラルリライトモデルの両方の肯定的な側面を組み合わせたマルチステップシステムを開発した。
本研究は、アラビア語のジェンダー書き直しのためのコーパスにおいて、このアプローチの有効性を実証することに成功した。
論文 参考訳(メタデータ) (2022-05-04T17:46:17Z) - Generating Gender Augmented Data for NLP [3.5557219875516655]
ジェンダーバイアスは、NLPベースのアプリケーション、特に性差のある言語で頻繁に発生する。
本稿では,会話文の自動書き直し手法を提案する。
提案するアプローチは、あるジェンダーから別のジェンダーへの"翻訳"を訓練されたニューラルマシン翻訳(NMT)システムに基づいている。
論文 参考訳(メタデータ) (2021-07-13T11:13:21Z) - Quantifying Gender Bias Towards Politicians in Cross-Lingual Language
Models [104.41668491794974]
代名詞として政治家の名前を取り巻く言語モデルによって生成される形容詞と動詞の用法を定量化する。
死者や指定された言葉が男女の政治家と関連しているのに対し、美人や離婚といった特定の言葉が主に女性政治家に関係していることが判明した。
論文 参考訳(メタデータ) (2021-04-15T15:03:26Z) - They, Them, Theirs: Rewriting with Gender-Neutral English [56.14842450974887]
私たちは、英語でジェンダーインクルージョンを促進する一般的な方法である特異点についてケーススタディを行います。
本研究では, 人為的データを持たない1%の単語誤り率で, ジェンダーニュートラルな英語を学習できるモデルについて述べる。
論文 参考訳(メタデータ) (2021-02-12T21:47:48Z) - Gender in Danger? Evaluating Speech Translation Technology on the
MuST-SHE Corpus [20.766890957411132]
英語のような生産的な文法的なジェンダーのない言語からジェンダーマーク付き言語に翻訳することは、機械にとってよく知られた困難である。
ジェンダーバイアスを減らすために、オーディオは追加情報を提供できるか?
本稿では、音声翻訳における性差に関する最初の徹底的な調査を行い、将来の研究に役立つベンチマークのリリースに寄与する。
論文 参考訳(メタデータ) (2020-06-10T09:55:38Z) - Multi-Dimensional Gender Bias Classification [67.65551687580552]
機械学習モデルは、性別に偏ったテキストでトレーニングする際に、社会的に望ましくないパターンを不注意に学習することができる。
本稿では,テキスト中の性バイアスを複数の実用的・意味的な次元に沿って分解する一般的な枠組みを提案する。
このきめ細かいフレームワークを用いて、8つの大規模データセットにジェンダー情報を自動的にアノテートする。
論文 参考訳(メタデータ) (2020-05-01T21:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。