論文の概要: Enhancing Gender-Inclusive Machine Translation with Neomorphemes and Large Language Models
- arxiv url: http://arxiv.org/abs/2405.08477v1
- Date: Tue, 14 May 2024 10:02:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-15 14:28:33.737115
- Title: Enhancing Gender-Inclusive Machine Translation with Neomorphemes and Large Language Models
- Title(参考訳): 新形態素と大規模言語モデルによるジェンダー包摂型機械翻訳の強化
- Authors: Andrea Piergentili, Beatrice Savoldi, Matteo Negri, Luisa Bentivogli,
- Abstract要約: 二元性マーキングを避けるため, 性別非包括的新形態, ネロジカル要素について検討する。
ジェンダー非包括的エンイット翻訳をネオモルヒムで評価するためのリソースであるNeo-GATEをリリースする。
- 参考スコア(独自算出の注目度): 14.799630514233238
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine translation (MT) models are known to suffer from gender bias, especially when translating into languages with extensive gendered morphology. Accordingly, they still fall short in using gender-inclusive language, also representative of non-binary identities. In this paper, we look at gender-inclusive neomorphemes, neologistic elements that avoid binary gender markings as an approach towards fairer MT. In this direction, we explore prompting techniques with large language models (LLMs) to translate from English into Italian using neomorphemes. So far, this area has been under-explored due to its novelty and the lack of publicly available evaluation resources. We fill this gap by releasing Neo-GATE, a resource designed to evaluate gender-inclusive en-it translation with neomorphemes. With Neo-GATE, we assess four LLMs of different families and sizes and different prompt formats, identifying strengths and weaknesses of each on this novel task for MT.
- Abstract(参考訳): 機械翻訳(MT)モデルは、特に幅広い性別形態を持つ言語に翻訳する際に、性別バイアスに悩まされていることが知られている。
したがって、彼らは依然として、非バイナリアイデンティティーの代表であるジェンダー非包摂的言語の使用に不足している。
本稿では,二分性マーキングを回避し,二分性マーキングを回避し,大言語モデル(LLMs)による日本語からイタリア語への翻訳手法について検討する。
これまでのところ、この領域は、その斬新さと公的に利用可能な評価資源の欠如により、調査が過小評価されている。
このギャップを埋めるために、性別を含まないエンイット翻訳をネオモルヒムで評価するためのリソースであるNeo-GATEをリリースする。
Neo-GATEでは,異なる家族とサイズ,異なるプロンプトフォーマットの4つのLLMを評価し,MTの新たなタスクにおいて,それぞれの長所と短所を識別する。
関連論文リスト
- Generating Gender Alternatives in Machine Translation [13.153018685139413]
機械翻訳システムは、あいまいな性別の用語を、システムのトレーニングデータに最もよく見られる性別の形式に翻訳することが多い。
これはしばしば社会に存在する有害なステレオタイプを反映し永続する。
文法的に正しいジェンダー変換の代案を全て生成する問題について検討する。
論文 参考訳(メタデータ) (2024-07-29T22:10:51Z) - Beyond Binary Gender: Evaluating Gender-Inclusive Machine Translation with Ambiguous Attitude Words [85.48043537327258]
既存の機械翻訳の性別バイアス評価は主に男性と女性の性別に焦点を当てている。
本研究では,AmbGIMT (Gender-Inclusive Machine Translation with Ambiguous attitude words) のベンチマークを示す。
本研究では,感情的態度スコア(EAS)に基づく性別バイアス評価手法を提案する。
論文 参考訳(メタデータ) (2024-07-23T08:13:51Z) - Building Bridges: A Dataset for Evaluating Gender-Fair Machine Translation into German [17.924716793621627]
英独機械翻訳(MT)におけるジェンダーフェア言語の研究
2つの商用システムと6つのニューラルMTモデルを含む最初のベンチマーク研究を行う。
以上の結果から,ほとんどのシステムでは男性型が主流であり,性別ニュートラル変種は稀である。
論文 参考訳(メタデータ) (2024-06-10T09:39:19Z) - Multilingual Text-to-Image Generation Magnifies Gender Stereotypes and Prompt Engineering May Not Help You [64.74707085021858]
多言語モデルは、モノリンガルモデルと同様に、有意な性別バイアスに悩まされていることを示す。
多言語モデルにおけるジェンダーバイアスの研究を促進するための新しいベンチマークMAGBIGを提案する。
以上の結果から,モデルが強い性バイアスを示すだけでなく,言語によって異なる行動を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-01-29T12:02:28Z) - UnMASKed: Quantifying Gender Biases in Masked Language Models through
Linguistically Informed Job Market Prompts [0.0]
この研究は、マスキング言語モデル(MLM)に存在する固有のバイアスを掘り下げる。
本研究では, BERT, RoBERTa, DistilBERT, BERT-multilingual, XLM-RoBERTa, DistilBERT-multilingualの6つのモデルについて検討した。
この分析により、すべてのモデルのステレオタイプ的な性別アライメントが明らかとなり、多言語変異は相対的にバイアスを減少させる。
論文 参考訳(メタデータ) (2024-01-28T23:00:40Z) - Tokenization Matters: Navigating Data-Scarce Tokenization for Gender Inclusive Language Technologies [75.85462924188076]
ジェンダー非包括的NLP研究は、ジェンダーバイナリ中心大言語モデル(LLM)の有害な制限を文書化している。
誤認識はByte-Pair(BPE)トークン化によって大きく影響されている。
本研究では,(1)代名詞の代名詞化パリティ,(2)代名詞間の一貫した代名詞化を強制する手法,および(2)既存のLLM代名詞の知識を活用して新代名詞の習熟度を向上させる手法を提案する。
論文 参考訳(メタデータ) (2023-12-19T01:28:46Z) - Participatory Research as a Path to Community-Informed, Gender-Fair
Machine Translation [19.098548371499678]
本稿では、クイア人や非バイナリ人、翻訳者、MT専門家を含む参加型行動研究のための方法とケーススタディを提案する。
ケーススタディは、アイデンティティの無効化を避けるためにコンテキスト依存の重要性が中心的な発見であるドイツに焦点を当てている。
論文 参考訳(メタデータ) (2023-06-15T07:20:14Z) - MISGENDERED: Limits of Large Language Models in Understanding Pronouns [46.276320374441056]
我々は、英語のジェンダーニュートラル代名詞を正しく活用する能力について、人気言語モデルの評価を行った。
提案するMISGENDEREDは,大言語モデルが好む代名詞を正しく活用する能力を評価するためのフレームワークである。
論文 参考訳(メタデータ) (2023-06-06T18:27:52Z) - "I'm fully who I am": Towards Centering Transgender and Non-Binary
Voices to Measure Biases in Open Language Generation [69.25368160338043]
トランスジェンダーとノンバイナリ(TGNB)の個人は、日常生活から差別や排除を不当に経験している。
オープン・ランゲージ・ジェネレーションにおいて,経験豊富なTGNB人物の疎外化を取り巻く社会的現実がいかに貢献し,持続するかを評価する。
我々はTGNB指向のコミュニティからキュレートされたテンプレートベースの実世界のテキストのデータセットであるTANGOを紹介する。
論文 参考訳(メタデータ) (2023-05-17T04:21:45Z) - Investigating Failures of Automatic Translation in the Case of
Unambiguous Gender [13.58884863186619]
トランスフォーマーベースのモデルは、ニューラルマシン翻訳(NMT)のための現代の作業馬です。
我々は、名詞の性別をマークしない言語から他の名詞に翻訳することに関して、トランスフォーマーモデルによる体系的で初歩的なエラーのクラスを観察する。
トランスベースのNMTモデルがジェンダーを正しく翻訳する能力を測定するための評価スキームとデータセットをリリースします。
論文 参考訳(メタデータ) (2021-04-16T00:57:36Z) - Multi-Dimensional Gender Bias Classification [67.65551687580552]
機械学習モデルは、性別に偏ったテキストでトレーニングする際に、社会的に望ましくないパターンを不注意に学習することができる。
本稿では,テキスト中の性バイアスを複数の実用的・意味的な次元に沿って分解する一般的な枠組みを提案する。
このきめ細かいフレームワークを用いて、8つの大規模データセットにジェンダー情報を自動的にアノテートする。
論文 参考訳(メタデータ) (2020-05-01T21:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。