論文の概要: Evaluating Machine Translation Datasets for Low-Web Data Languages: A Gendered Lens
- arxiv url: http://arxiv.org/abs/2511.03880v1
- Date: Wed, 05 Nov 2025 21:51:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.225316
- Title: Evaluating Machine Translation Datasets for Low-Web Data Languages: A Gendered Lens
- Title(参考訳): 低Webデータ言語のための機械翻訳データセットの評価:ジェンダー付きレンズ
- Authors: Hellina Hailu Nigatu, Bethelhem Yemane Mamo, Bontu Fufa Balcha, Debora Taye Tesfaye, Elbethel Daniel Zewdie, Ikram Behiru Nesiru, Jitu Ewnetu Hailu, Senait Mengesha Yayo,
- Abstract要約: 品質よりも量を優先する上で、低リソースの言語ではパフォーマンスの悪い言語技術を構築するリスクがあります。
本稿では,3つの低リソース言語を対象とした機械翻訳データセットの品質について検討する。
人名,動詞の文法的性別,データセットのステレオタイプ的描写など,男性の性別に対する大きな歪を見出した。
- 参考スコア(独自算出の注目度): 2.0009620796960523
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As low-resourced languages are increasingly incorporated into NLP research, there is an emphasis on collecting large-scale datasets. But in prioritizing quantity over quality, we risk 1) building language technologies that perform poorly for these languages and 2) producing harmful content that perpetuates societal biases. In this paper, we investigate the quality of Machine Translation (MT) datasets for three low-resourced languages--Afan Oromo, Amharic, and Tigrinya, with a focus on the gender representation in the datasets. Our findings demonstrate that while training data has a large representation of political and religious domain text, benchmark datasets are focused on news, health, and sports. We also found a large skew towards the male gender--in names of persons, the grammatical gender of verbs, and in stereotypical depictions in the datasets. Further, we found harmful and toxic depictions against women, which were more prominent for the language with the largest amount of data, underscoring that quantity does not guarantee quality. We hope that our work inspires further inquiry into the datasets collected for low-resourced languages and prompts early mitigation of harmful content. WARNING: This paper contains discussion of NSFW content that some may find disturbing.
- Abstract(参考訳): 低リソース言語がNLP研究にますます取り入れられているため、大規模なデータセットの収集に重点が置かれている。
しかし、品質よりも量を優先する場合、我々はリスクを冒す
1)これらの言語に不利な機能を持つ言語技術の構築
2) 社会的バイアスを持続させる有害な物質を生産すること。
本稿では,Afan Oromo,Amharic,Tigrinyaの3つの低リソース言語における機械翻訳(MT)データセットの品質を,データセットにおけるジェンダー表現に焦点をあてて検討する。この結果から,トレーニングデータには政治的・宗教的領域のテキストが多数含まれているのに対し,ベンチマークデータセットはニュース,健康,スポーツに重点を置いていることがわかった。また,男性のジェンダー-イン名,動詞の文法的ジェンダー,およびデータセットのステレオタイプ的表現にも大きなスキューを見出した。
さらに,女性に対する有害で有毒な描写は,最もデータ量の多い言語では顕著であり,その量によって品質が保証されないことが判明した。
われわれの研究は、低リソース言語で収集されたデータセットをさらに調査し、有害なコンテンツの早期緩和を促すことを願っている。
WARNING: この論文には、一部で混乱していると思われるNSFWコンテンツに関する議論が含まれています。
関連論文リスト
- EuroGEST: Investigating gender stereotypes in multilingual language models [58.871032460235575]
EuroGESTは、英語と29のヨーロッパ言語にまたがるLLMにおける性別ステレオタイプ推論を計測するためのデータセットである。
すべての言語で最強のステレオタイプは、女性が「美」、「共感」、そして「否定」であり、男性は「リーダー」、「強く、タフ」、そして「職業的」であることを示している。
論文 参考訳(メタデータ) (2025-06-04T11:58:18Z) - Multilingual Text-to-Image Generation Magnifies Gender Stereotypes and Prompt Engineering May Not Help You [64.74707085021858]
多言語モデルは、モノリンガルモデルと同様に、有意な性別バイアスに悩まされていることを示す。
多言語モデルにおけるジェンダーバイアスの研究を促進するための新しいベンチマークMAGBIGを提案する。
以上の結果から,モデルが強い性バイアスを示すだけでなく,言語によって異なる行動を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-01-29T12:02:28Z) - Misgendering and Assuming Gender in Machine Translation when Working
with Low-Resource Languages [0.0]
本章では、低リソース言語の文脈における機械翻訳(MT)における性別関連エラーに焦点を当てる。
まず、低リソース言語とは何かを説明し、そのような言語階層を形成する社会的・計算的要因を分離できないかを検討する。
本稿では,このような誤りが言語的消去や表現的害に繋がるポストコロニアルおよび社会的影響について論じる。
論文 参考訳(メタデータ) (2024-01-24T00:58:30Z) - MiTTenS: A Dataset for Evaluating Gender Mistranslation [15.33020859049458]
さまざまな言語ファミリーやスクリプトから26言語をカバーするデータセットMiTTenSを紹介した。
データセットは、既知の障害パターンをターゲットにした手作りのパスで構築される。
高資源言語においても,すべてのシステムが性別の誤訳や潜在的危害を示すことを示す。
論文 参考訳(メタデータ) (2024-01-13T00:08:23Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - COLD: A Benchmark for Chinese Offensive Language Detection [54.60909500459201]
COLDatasetは、37kの注釈付き文を持つ中国の攻撃的言語データセットである。
また、人気のある中国語モデルの出力攻撃性を研究するために、textscCOLDetectorを提案する。
我々の資源と分析は、中国のオンラインコミュニティを解毒し、生成言語モデルの安全性を評価することを目的としている。
論文 参考訳(メタデータ) (2022-01-16T11:47:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。