論文の概要: What about em? How Commercial Machine Translation Fails to Handle
(Neo-)Pronouns
- arxiv url: http://arxiv.org/abs/2305.16051v1
- Date: Thu, 25 May 2023 13:34:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 14:59:57.057081
- Title: What about em? How Commercial Machine Translation Fails to Handle
(Neo-)Pronouns
- Title(参考訳): Emはどうだろう?
商用機械翻訳が(neo-)pronounsを処理できない理由
- Authors: Anne Lauscher, Debora Nozza, Archie Crowley, Ehm Miltersen, Dirk Hovy
- Abstract要約: 単語代名詞の翻訳は、例えば非バイナリな個人など、余分に分類されたグループに対して区別することができる。
3つの商用機械翻訳システムが3人称代名詞の翻訳方法を検討する。
我々の誤り分析は、性中立代名詞の存在が文法的・意味的な翻訳誤りにつながることをしばしば示している。
- 参考スコア(独自算出の注目度): 26.28827649737955
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: As 3rd-person pronoun usage shifts to include novel forms, e.g., neopronouns,
we need more research on identity-inclusive NLP. Exclusion is particularly
harmful in one of the most popular NLP applications, machine translation (MT).
Wrong pronoun translations can discriminate against marginalized groups, e.g.,
non-binary individuals (Dev et al., 2021). In this ``reality check'', we study
how three commercial MT systems translate 3rd-person pronouns. Concretely, we
compare the translations of gendered vs. gender-neutral pronouns from English
to five other languages (Danish, Farsi, French, German, Italian), and vice
versa, from Danish to English. Our error analysis shows that the presence of a
gender-neutral pronoun often leads to grammatical and semantic translation
errors. Similarly, gender neutrality is often not preserved. By surveying the
opinions of affected native speakers from diverse languages, we provide
recommendations to address the issue in future MT research.
- Abstract(参考訳): 3人称代名詞の使用が新しい形態、例えば新代名詞にシフトするにつれて、アイデンティティを包含するNLPに関するさらなる研究が必要である。
排除は最も人気のあるNLPアプリケーションの一つである機械翻訳(MT)において特に有害である。
単語代名詞の翻訳は、非バイナリな個人(Dev et al., 2021)など、余分なグループに対して区別することができる。
この「現実チェック」では、3つの商業MTシステムがどのように3人称代名詞を翻訳するかを考察する。
具体的には、英語から他の5つの言語(デンマーク語、ファージ語、フランス語、ドイツ語、イタリア語)への男女中性代名詞と、デンマーク語から英語への翻訳を比較した。
誤り分析の結果,性中立代名詞の存在はしばしば文法的・意味的翻訳誤りをもたらすことがわかった。
同様に、性中立性はしばしば保存されない。
様々な言語から影響を受けた母国語話者の意見を調査することにより,今後のMT研究の課題に対処するためのレコメンデーションを提供する。
関連論文リスト
- Beyond Binary Gender: Evaluating Gender-Inclusive Machine Translation with Ambiguous Attitude Words [85.48043537327258]
既存の機械翻訳の性別バイアス評価は主に男性と女性の性別に焦点を当てている。
本研究では,AmbGIMT (Gender-Inclusive Machine Translation with Ambiguous attitude words) のベンチマークを示す。
本研究では,感情的態度スコア(EAS)に基づく性別バイアス評価手法を提案する。
論文 参考訳(メタデータ) (2024-07-23T08:13:51Z) - What an Elegant Bridge: Multilingual LLMs are Biased Similarly in Different Languages [51.0349882045866]
本稿では,Large Language Models (LLMs) の文法的ジェンダーのレンズによるバイアスについて検討する。
様々な言語における形容詞を持つ名詞を記述するためのモデルを提案し,特に文法性のある言語に焦点を当てた。
単純な分類器は、偶然以上の名詞の性別を予測できるだけでなく、言語間の移動可能性も示せる。
論文 参考訳(メタデータ) (2024-07-12T22:10:16Z) - Building Bridges: A Dataset for Evaluating Gender-Fair Machine Translation into German [17.924716793621627]
英独機械翻訳(MT)におけるジェンダーフェア言語の研究
2つの商用システムと6つのニューラルMTモデルを含む最初のベンチマーク研究を行う。
以上の結果から,ほとんどのシステムでは男性型が主流であり,性別ニュートラル変種は稀である。
論文 参考訳(メタデータ) (2024-06-10T09:39:19Z) - Transforming Dutch: Debiasing Dutch Coreference Resolution Systems for Non-binary Pronouns [5.5514102920271196]
ジェンダーニュートラルな代名詞は、西欧語で導入されつつある。
最近の評価では、英語のNLPシステムはジェンダーニュートラル代名詞を正しく処理できないことが示されている。
本稿では,オランダ語の男女中性代名詞に対する基準分解システムの性能について検討する。
論文 参考訳(メタデータ) (2024-04-30T18:31:19Z) - Tokenization Matters: Navigating Data-Scarce Tokenization for Gender Inclusive Language Technologies [75.85462924188076]
ジェンダー非包括的NLP研究は、ジェンダーバイナリ中心大言語モデル(LLM)の有害な制限を文書化している。
誤認識はByte-Pair(BPE)トークン化によって大きく影響されている。
本研究では,(1)代名詞の代名詞化パリティ,(2)代名詞間の一貫した代名詞化を強制する手法,および(2)既存のLLM代名詞の知識を活用して新代名詞の習熟度を向上させる手法を提案する。
論文 参考訳(メタデータ) (2023-12-19T01:28:46Z) - VisoGender: A dataset for benchmarking gender bias in image-text pronoun
resolution [80.57383975987676]
VisoGenderは、視覚言語モデルで性別バイアスをベンチマークするための新しいデータセットである。
We focus to occupation-related biases in a hegemonic system of binary gender, inspired by Winograd and Winogender schemas。
我々は、最先端の視覚言語モデルをいくつかベンチマークし、それらが複雑な場面における二項性解消のバイアスを示すことを発見した。
論文 参考訳(メタデータ) (2023-06-21T17:59:51Z) - MISGENDERED: Limits of Large Language Models in Understanding Pronouns [46.276320374441056]
我々は、英語のジェンダーニュートラル代名詞を正しく活用する能力について、人気言語モデルの評価を行った。
提案するMISGENDEREDは,大言語モデルが好む代名詞を正しく活用する能力を評価するためのフレームワークである。
論文 参考訳(メタデータ) (2023-06-06T18:27:52Z) - "I'm fully who I am": Towards Centering Transgender and Non-Binary
Voices to Measure Biases in Open Language Generation [69.25368160338043]
トランスジェンダーとノンバイナリ(TGNB)の個人は、日常生活から差別や排除を不当に経験している。
オープン・ランゲージ・ジェネレーションにおいて,経験豊富なTGNB人物の疎外化を取り巻く社会的現実がいかに貢献し,持続するかを評価する。
我々はTGNB指向のコミュニティからキュレートされたテンプレートベースの実世界のテキストのデータセットであるTANGOを紹介する。
論文 参考訳(メタデータ) (2023-05-17T04:21:45Z) - "I'm" Lost in Translation: Pronoun Missteps in Crowdsourced Data Sets [13.32560004325655]
クラウドソーシングのイニシアチブは、自然言語処理(NLP)に使用される大規模でオープンなデータセットの多言語翻訳に重点を置いている。
本研究は,クラウドソース型タトエバデータベースにおいて,英語と日本語で翻訳された代名詞の事例に着目した。
男性代名詞の偏見は,複数の言語が他の方法で説明されているにもかかわらず,全体として存在することがわかった。
論文 参考訳(メタデータ) (2023-04-22T09:27:32Z) - How Conservative are Language Models? Adapting to the Introduction of
Gender-Neutral Pronouns [0.15293427903448023]
スウェーデン語では、ジェンダーニュートラル代名詞は、人間の処理困難とは無関係であることを示す。
デンマーク語、英語、スウェーデン語のジェンダーニュートラル代名詞は、より難易度が高く、注意パターンが分散し、下流のパフォーマンスが悪化していることを示す。
論文 参考訳(メタデータ) (2022-04-11T09:42:02Z) - Welcome to the Modern World of Pronouns: Identity-Inclusive Natural
Language Processing beyond Gender [23.92148222207458]
自然言語処理における3人称代名詞問題の概要について概説する。
既存および新規なモデリング手法の評価を行う。
我々は、より差別のないアプローチが確立されたベンチマークデータに与える影響を定量化する。
論文 参考訳(メタデータ) (2022-02-24T06:42:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。