論文の概要: Transforming Dutch: Debiasing Dutch Coreference Resolution Systems for Non-binary Pronouns
- arxiv url: http://arxiv.org/abs/2405.00134v1
- Date: Tue, 30 Apr 2024 18:31:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-02 17:26:02.458858
- Title: Transforming Dutch: Debiasing Dutch Coreference Resolution Systems for Non-binary Pronouns
- Title(参考訳): オランダ語変換:非二項代名詞のためのオランダ語照合解決システム
- Authors: Goya van Boven, Yupei Du, Dong Nguyen,
- Abstract要約: ジェンダーニュートラルな代名詞は、西欧語で導入されつつある。
最近の評価では、英語のNLPシステムはジェンダーニュートラル代名詞を正しく処理できないことが示されている。
本稿では,オランダ語の男女中性代名詞に対する基準分解システムの性能について検討する。
- 参考スコア(独自算出の注目度): 5.5514102920271196
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Gender-neutral pronouns are increasingly being introduced across Western languages. Recent evaluations have however demonstrated that English NLP systems are unable to correctly process gender-neutral pronouns, with the risk of erasing and misgendering non-binary individuals. This paper examines a Dutch coreference resolution system's performance on gender-neutral pronouns, specifically hen and die. In Dutch, these pronouns were only introduced in 2016, compared to the longstanding existence of singular they in English. We additionally compare two debiasing techniques for coreference resolution systems in non-binary contexts: Counterfactual Data Augmentation (CDA) and delexicalisation. Moreover, because pronoun performance can be hard to interpret from a general evaluation metric like LEA, we introduce an innovative evaluation metric, the pronoun score, which directly represents the portion of correctly processed pronouns. Our results reveal diminished performance on gender-neutral pronouns compared to gendered counterparts. Nevertheless, although delexicalisation fails to yield improvements, CDA substantially reduces the performance gap between gendered and gender-neutral pronouns. We further show that CDA remains effective in low-resource settings, in which a limited set of debiasing documents is used. This efficacy extends to previously unseen neopronouns, which are currently infrequently used but may gain popularity in the future, underscoring the viability of effective debiasing with minimal resources and low computational costs.
- Abstract(参考訳): ジェンダーニュートラルな代名詞は、西欧語で導入されつつある。
しかし、近年の評価では、英語のNLPシステムは性中立代名詞を正しく処理することができず、非二項性個体の消去と誤認の危険性が指摘されている。
本稿では,オランダ語中性代名詞,特にHhen and dieに対するコーパス解決システムの性能について検討する。
オランダ語では、これらの代名詞は英語における特異語の長年の存在と比較して、2016年にのみ導入された。
さらに、非バイナリコンテキストにおけるコア参照解決システムのデバイアス化技術として、CDA(Counterfactual Data Augmentation)とデレクシカル化(Deexicalization)の2つを比較した。
また,LEAのような一般的な評価指標から代名詞のパフォーマンスを解釈することが難しいため,正規処理された代名詞の一部を直接表現する代名詞スコアという,革新的な評価基準を導入する。
その結果,性別中性代名詞のパフォーマンスが,性別中性代名詞と比較して低下していることが判明した。
それでも、偏見化は改善には至らなかったが、CDAは男女中性代名詞のパフォーマンスギャップを著しく減らしている。
さらに, CDA は低リソース環境でも有効であり, 限られた文書集合を用いていることを示す。
この効果は、現在はほとんど使われていないが、将来は人気が高まるであろう、未確認のネオプロノウンにまで拡張され、最小の資源と計算コストの低い効果的なデバイアスの実現可能性を示している。
関連論文リスト
- Beyond Binary Gender: Evaluating Gender-Inclusive Machine Translation with Ambiguous Attitude Words [85.48043537327258]
既存の機械翻訳の性別バイアス評価は主に男性と女性の性別に焦点を当てている。
本研究では,AmbGIMT (Gender-Inclusive Machine Translation with Ambiguous attitude words) のベンチマークを示す。
本研究では,感情的態度スコア(EAS)に基づく性別バイアス評価手法を提案する。
論文 参考訳(メタデータ) (2024-07-23T08:13:51Z) - Tokenization Matters: Navigating Data-Scarce Tokenization for Gender Inclusive Language Technologies [75.85462924188076]
ジェンダー非包括的NLP研究は、ジェンダーバイナリ中心大言語モデル(LLM)の有害な制限を文書化している。
誤認識はByte-Pair(BPE)トークン化によって大きく影響されている。
本研究では,(1)代名詞の代名詞化パリティ,(2)代名詞間の一貫した代名詞化を強制する手法,および(2)既存のLLM代名詞の知識を活用して新代名詞の習熟度を向上させる手法を提案する。
論文 参考訳(メタデータ) (2023-12-19T01:28:46Z) - VisoGender: A dataset for benchmarking gender bias in image-text pronoun
resolution [80.57383975987676]
VisoGenderは、視覚言語モデルで性別バイアスをベンチマークするための新しいデータセットである。
We focus to occupation-related biases in a hegemonic system of binary gender, inspired by Winograd and Winogender schemas。
我々は、最先端の視覚言語モデルをいくつかベンチマークし、それらが複雑な場面における二項性解消のバイアスを示すことを発見した。
論文 参考訳(メタデータ) (2023-06-21T17:59:51Z) - MISGENDERED: Limits of Large Language Models in Understanding Pronouns [46.276320374441056]
我々は、英語のジェンダーニュートラル代名詞を正しく活用する能力について、人気言語モデルの評価を行った。
提案するMISGENDEREDは,大言語モデルが好む代名詞を正しく活用する能力を評価するためのフレームワークである。
論文 参考訳(メタデータ) (2023-06-06T18:27:52Z) - What about em? How Commercial Machine Translation Fails to Handle
(Neo-)Pronouns [26.28827649737955]
単語代名詞の翻訳は、例えば非バイナリな個人など、余分に分類されたグループに対して区別することができる。
3つの商用機械翻訳システムが3人称代名詞の翻訳方法を検討する。
我々の誤り分析は、性中立代名詞の存在が文法的・意味的な翻訳誤りにつながることをしばしば示している。
論文 参考訳(メタデータ) (2023-05-25T13:34:09Z) - A Survey on Zero Pronoun Translation [69.09774294082965]
ゼロ代名詞(ZP)はプロドロップ言語では省略されることが多いが、非プロドロップ言語ではリコールされるべきである。
本研究は, 神経革命後のゼロ代名詞翻訳(ZPT)における主要な研究について述べる。
1) ZPTは大規模言語モデルの発展傾向と一致している; 2) データの制限は言語やドメインの学習バイアスを引き起こす; 3) 性能改善は単一のベンチマークで報告されることが多いが、高度な手法はまだ実世界の利用には程遠い。
論文 参考訳(メタデータ) (2023-05-17T13:19:01Z) - "I'm fully who I am": Towards Centering Transgender and Non-Binary
Voices to Measure Biases in Open Language Generation [69.25368160338043]
トランスジェンダーとノンバイナリ(TGNB)の個人は、日常生活から差別や排除を不当に経験している。
オープン・ランゲージ・ジェネレーションにおいて,経験豊富なTGNB人物の疎外化を取り巻く社会的現実がいかに貢献し,持続するかを評価する。
我々はTGNB指向のコミュニティからキュレートされたテンプレートベースの実世界のテキストのデータセットであるTANGOを紹介する。
論文 参考訳(メタデータ) (2023-05-17T04:21:45Z) - How Conservative are Language Models? Adapting to the Introduction of
Gender-Neutral Pronouns [0.15293427903448023]
スウェーデン語では、ジェンダーニュートラル代名詞は、人間の処理困難とは無関係であることを示す。
デンマーク語、英語、スウェーデン語のジェンダーニュートラル代名詞は、より難易度が高く、注意パターンが分散し、下流のパフォーマンスが悪化していることを示す。
論文 参考訳(メタデータ) (2022-04-11T09:42:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。