論文の概要: Gender Bias in MT for a Genderless Language: New Benchmarks for Basque
- arxiv url: http://arxiv.org/abs/2603.08153v1
- Date: Mon, 09 Mar 2026 09:35:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.73721
- Title: Gender Bias in MT for a Genderless Language: New Benchmarks for Basque
- Title(参考訳): ジェンダーレス言語のためのMTのジェンダーバイアス:バスクの新しいベンチマーク
- Authors: Amaia Murillo, Olatz-Perez-de-Viñaspre, Naiara Perez,
- Abstract要約: バスク語を含む翻訳において、性別バイアスを評価するための2つの新しいデータセットを導入する。
大規模言語モデル (LLM) と機械翻訳システム (MT) の評価を行った。
- 参考スコア(独自算出の注目度): 1.1419092834574525
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) and machine translation (MT) systems are increasingly used in our daily lives, but their outputs can reproduce gender bias present in the training data. Most resources for evaluating such biases are designed for English and reflect its sociocultural context, which limits their applicability to other languages. This work addresses this gap by introducing two new datasets to evaluate gender bias in translations involving Basque, a low-resource and genderless language. WinoMTeus adapts the WinoMT benchmark to examine how gender-neutral Basque occupations are translated into gendered languages such as Spanish and French. FLORES+Gender, in turn, extends the FLORES+ benchmark to assess whether translation quality varies when translating from gendered languages (Spanish and English) into Basque depending on the gender of the referent. We evaluate several general-purpose LLMs and open and proprietary MT systems. The results reveal a systematic preference for masculine forms and, in some models, a slightly higher quality for masculine referents. Overall, these findings show that gender bias is still deeply rooted in these models, and highlight the need to develop evaluation methods that consider both linguistic features and cultural context.
- Abstract(参考訳): 大規模言語モデル (LLM) と機械翻訳システム (MT) は私たちの日常生活でますます利用されているが、その出力はトレーニングデータに存在する性別バイアスを再現することができる。
このようなバイアスを評価するためのほとんどのリソースは英語用に設計されており、その社会文化的文脈を反映している。
この研究は、低リソースとジェンダーレスの言語であるバスクを含む翻訳において、性別バイアスを評価するために、2つの新しいデータセットを導入することで、このギャップに対処する。
WinoMTeusはWinoMTベンチマークを適用して、性別ニュートラルなバスク人の職業が、スペイン語やフランス語のような性的な言語にどのように変換されるかを調べる。
FLORES+Gender は FLORES+ のベンチマークを拡張して、性別による言語(スペイン語と英語)からバスク語への翻訳において、参照者の性別に応じて翻訳品質が変化するかどうかを評価する。
汎用LLMとオープン・プロプライエタリMTシステムの評価を行った。
その結果,男性形態の体系的嗜好が明らかとなり,一部のモデルでは男性参照者に対して若干高い品質が得られた。
これらの結果から,ジェンダーバイアスは依然としてこれらのモデルに根付いており,言語的特徴と文化的文脈の両方を考慮した評価手法の開発の必要性が示唆された。
関連論文リスト
- Exploring Gender Bias in Large Language Models: An In-depth Dive into the German Language [21.87606488958834]
大規模言語モデル(LLM)における性別バイアス評価のためのドイツの5つのデータセットを提案する。
データセットは、ジェンダーバイアスというよく確立された概念に基づいており、複数の方法論を通してアクセス可能である。
8種類の多言語 LLM モデルで報告された本研究は,ドイツ語の性差にかかわる独特な課題を明らかにした。
論文 参考訳(メタデータ) (2025-07-22T13:09:41Z) - EuroGEST: Investigating gender stereotypes in multilingual language models [58.871032460235575]
EuroGESTは、英語と29のヨーロッパ言語にまたがるLLMにおける性別ステレオタイプ推論を計測するためのデータセットである。
すべての言語で最強のステレオタイプは、女性が「美」、「共感」、そして「否定」であり、男性は「リーダー」、「強く、タフ」、そして「職業的」であることを示している。
論文 参考訳(メタデータ) (2025-06-04T11:58:18Z) - Beyond Binary Gender: Evaluating Gender-Inclusive Machine Translation with Ambiguous Attitude Words [85.48043537327258]
既存の機械翻訳の性別バイアス評価は主に男性と女性の性別に焦点を当てている。
本研究では,AmbGIMT (Gender-Inclusive Machine Translation with Ambiguous attitude words) のベンチマークを示す。
本研究では,感情的態度スコア(EAS)に基づく性別バイアス評価手法を提案する。
論文 参考訳(メタデータ) (2024-07-23T08:13:51Z) - Leveraging Large Language Models to Measure Gender Representation Bias in Gendered Language Corpora [9.959039325564744]
大規模言語モデル(LLM)は、しばしば、トレーニングデータに埋め込まれた社会的バイアスを継承し、増幅する。
性バイアスとは、特定の役割や特性と特定の性別の関連性である。
ジェンダー表現バイアスは、性別の異なる個人への参照の不平等な頻度である。
論文 参考訳(メタデータ) (2024-06-19T16:30:58Z) - VisoGender: A dataset for benchmarking gender bias in image-text pronoun
resolution [80.57383975987676]
VisoGenderは、視覚言語モデルで性別バイアスをベンチマークするための新しいデータセットである。
We focus to occupation-related biases in a hegemonic system of binary gender, inspired by Winograd and Winogender schemas。
我々は、最先端の視覚言語モデルをいくつかベンチマークし、それらが複雑な場面における二項性解消のバイアスを示すことを発見した。
論文 参考訳(メタデータ) (2023-06-21T17:59:51Z) - Multi-Dimensional Gender Bias Classification [67.65551687580552]
機械学習モデルは、性別に偏ったテキストでトレーニングする際に、社会的に望ましくないパターンを不注意に学習することができる。
本稿では,テキスト中の性バイアスを複数の実用的・意味的な次元に沿って分解する一般的な枠組みを提案する。
このきめ細かいフレームワークを用いて、8つの大規模データセットにジェンダー情報を自動的にアノテートする。
論文 参考訳(メタデータ) (2020-05-01T21:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。