論文の概要: Investigating Gender Bias in Turkish Language Models
- arxiv url: http://arxiv.org/abs/2404.11726v1
- Date: Wed, 17 Apr 2024 20:24:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-19 13:30:32.961975
- Title: Investigating Gender Bias in Turkish Language Models
- Title(参考訳): トルコ語モデルにおけるジェンダーバイアスの調査
- Authors: Orhun Caglidil, Malte Ostendorff, Georg Rehm,
- Abstract要約: トルコ語モデルにおけるジェンダーバイアスの重要性について検討する。
我々は既存のバイアス評価フレームワークを構築し、それらをトルコ語に拡張する。
具体的には、クルド人の民族的偏見を埋め込んだトルコ語モデルを評価する。
- 参考スコア(独自算出の注目度): 3.100560442806189
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models are trained mostly on Web data, which often contains social stereotypes and biases that the models can inherit. This has potentially negative consequences, as models can amplify these biases in downstream tasks or applications. However, prior research has primarily focused on the English language, especially in the context of gender bias. In particular, grammatically gender-neutral languages such as Turkish are underexplored despite representing different linguistic properties to language models with possibly different effects on biases. In this paper, we fill this research gap and investigate the significance of gender bias in Turkish language models. We build upon existing bias evaluation frameworks and extend them to the Turkish language by translating existing English tests and creating new ones designed to measure gender bias in the context of T\"urkiye. Specifically, we also evaluate Turkish language models for their embedded ethnic bias toward Kurdish people. Based on the experimental results, we attribute possible biases to different model characteristics such as the model size, their multilingualism, and the training corpora. We make the Turkish gender bias dataset publicly available.
- Abstract(参考訳): 言語モデルは、主にWebデータに基づいて訓練されており、しばしばモデルが継承できる社会的ステレオタイプとバイアスを含んでいる。
モデルが下流のタスクやアプリケーションでこれらのバイアスを増幅できるため、これは潜在的にネガティブな結果をもたらす可能性がある。
しかし、先行研究は主に英語、特にジェンダーバイアスの文脈に焦点を当てている。
特に、トルコ語のような文法的にジェンダーニュートラルな言語は、言語モデルに異なる言語特性を表現しているにもかかわらず、バイアスに異なる影響を与える可能性があるにもかかわらず、過度に探索されている。
本稿では,この研究ギャップを埋め,トルコ語モデルにおけるジェンダーバイアスの重要性について考察する。
我々は、既存のバイアス評価フレームワークを構築し、既存の英語テストを翻訳し、T\"urkiye"の文脈で性別バイアスを測定するように設計された新しいものを作成することで、トルコ語に拡張する。
具体的には、クルド人の民族的偏見を埋め込んだトルコ語モデルも評価する。
実験結果から,モデルのサイズ,多言語性,学習コーパスなど,異なるモデル特性に偏りがある可能性が示唆された。
トルコのジェンダーバイアスデータセットを公開しています。
関連論文リスト
- Are Models Biased on Text without Gender-related Language? [14.931375031931386]
ステレオタイプフリーシナリオにおけるジェンダーバイアスを調査するための新しいフレームワークUnStereoEval(USE)を紹介する。
USEは事前学習データ統計に基づいて文レベルスコアを定義し、その文が単語と性別の関連が最小限であるかどうかを判定する。
28の試験モデルにおいて、偏見が低いことは、偏見が単にジェンダー関連の単語の存在に由来するものではないことを示唆している。
論文 参考訳(メタデータ) (2024-05-01T15:51:15Z) - Multilingual Text-to-Image Generation Magnifies Gender Stereotypes and Prompt Engineering May Not Help You [64.74707085021858]
多言語モデルは、モノリンガルモデルと同様に、有意な性別バイアスに悩まされていることを示す。
多言語モデルにおけるジェンダーバイアスの研究を促進するための新しいベンチマークMAGBIGを提案する。
以上の結果から,モデルが強い性バイアスを示すだけでなく,言語によって異なる行動を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-01-29T12:02:28Z) - Evaluating Large Language Models through Gender and Racial Stereotypes [0.0]
質比較研究を行い、性別と人種の2種類の偏見を前提として、言語モデルを評価する枠組みを確立する。
より古いモデルに比べて、新しいモデルでは男女の偏見が大幅に減少したが、人種の偏見は依然として存在する。
論文 参考訳(メタデータ) (2023-11-24T18:41:16Z) - VisoGender: A dataset for benchmarking gender bias in image-text pronoun
resolution [80.57383975987676]
VisoGenderは、視覚言語モデルで性別バイアスをベンチマークするための新しいデータセットである。
We focus to occupation-related biases in a hegemonic system of binary gender, inspired by Winograd and Winogender schemas。
我々は、最先端の視覚言語モデルをいくつかベンチマークし、それらが複雑な場面における二項性解消のバイアスを示すことを発見した。
論文 参考訳(メタデータ) (2023-06-21T17:59:51Z) - Comparing Biases and the Impact of Multilingual Training across Multiple
Languages [70.84047257764405]
ダウンストリーム感情分析タスクにおいて,イタリア語,中国語,英語,ヘブライ語,スペイン語のバイアス分析を行う。
我々は、既存の感情バイアスのテンプレートを、人種、宗教、国籍、性別の4つの属性で、イタリア語、中国語、ヘブライ語、スペイン語に適応させる。
以上の結果から,各言語の文化に支配的な集団の嗜好など,バイアス表現の類似性を明らかにした。
論文 参考訳(メタデータ) (2023-05-18T18:15:07Z) - Measuring Gender Bias in West Slavic Language Models [41.49834421110596]
チェコ語、ポーランド語、スロバキア語で最初のテンプレートベースのデータセットを導入し、男性、女性、非バイナリー対象に対する性別バイアスを測定した。
生成した単語の毒性と性差を定量化することにより、西スラヴ語モデルで符号化された性別バイアスを測定する。
これらの言語モデルは、被験者の性別に依存する有害な完成物を生成する。
論文 参考訳(メタデータ) (2023-04-12T11:49:43Z) - An Analysis of Social Biases Present in BERT Variants Across Multiple
Languages [0.0]
多様な言語からなる単言語BERTモデルにおけるバイアスについて検討する。
文の擬似類似度に基づいて,任意のバイアスを測定するテンプレートベースの手法を提案する。
偏見探索の現在の手法は言語に依存していると結論付けている。
論文 参考訳(メタデータ) (2022-11-25T23:38:08Z) - Efficient Gender Debiasing of Pre-trained Indic Language Models [0.0]
言語モデルが事前訓練されたデータに存在する性別バイアスは、これらのモデルを使用するシステムに反映される。
本稿では,ヒンディー語モデルにおける職業に関する性別バイアスを測定した。
以上の結果から,提案手法の適応後のバイアスが低減されることが示唆された。
論文 参考訳(メタデータ) (2022-09-08T09:15:58Z) - Quantifying Gender Bias Towards Politicians in Cross-Lingual Language
Models [104.41668491794974]
代名詞として政治家の名前を取り巻く言語モデルによって生成される形容詞と動詞の用法を定量化する。
死者や指定された言葉が男女の政治家と関連しているのに対し、美人や離婚といった特定の言葉が主に女性政治家に関係していることが判明した。
論文 参考訳(メタデータ) (2021-04-15T15:03:26Z) - Gender Bias in Multilingual Embeddings and Cross-Lingual Transfer [101.58431011820755]
多言語埋め込みにおけるジェンダーバイアスとNLPアプリケーションの伝達学習への影響について検討する。
我々は、バイアス分析のための多言語データセットを作成し、多言語表現におけるバイアスの定量化方法をいくつか提案する。
論文 参考訳(メタデータ) (2020-05-02T04:34:37Z) - Multi-Dimensional Gender Bias Classification [67.65551687580552]
機械学習モデルは、性別に偏ったテキストでトレーニングする際に、社会的に望ましくないパターンを不注意に学習することができる。
本稿では,テキスト中の性バイアスを複数の実用的・意味的な次元に沿って分解する一般的な枠組みを提案する。
このきめ細かいフレームワークを用いて、8つの大規模データセットにジェンダー情報を自動的にアノテートする。
論文 参考訳(メタデータ) (2020-05-01T21:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。