論文の概要: Breaking Language Barriers or Reinforcing Bias? A Study of Gender and Racial Disparities in Multilingual Contrastive Vision Language Models
- arxiv url: http://arxiv.org/abs/2505.14160v1
- Date: Tue, 20 May 2025 10:14:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.052942
- Title: Breaking Language Barriers or Reinforcing Bias? A Study of Gender and Racial Disparities in Multilingual Contrastive Vision Language Models
- Title(参考訳): 言語障壁を打破するかバイアスを補強するか : 多言語コントラスト視覚言語モデルにおける性差と人種差の検討
- Authors: Zahraa Al Sahili, Ioannis Patras, Matthew Purver,
- Abstract要約: 我々は,M-CLIP,NLLB-CLIP,CAPIVARA-CLIPの3つの公開多言語CLIPチェックポイントについて,最初の体系的監査を行った。
人種と性別の偏見を定量化し、ステレオタイプ増幅を測定する。
性別の多い言語は、すべての測定されたバイアスタイプを常に拡大するが、異国語のステレオタイプを輸入する場合、男女中立言語でさえも脆弱である。
- 参考スコア(独自算出の注目度): 14.632649933582648
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Multilingual vision-language models promise universal image-text retrieval, yet their social biases remain under-explored. We present the first systematic audit of three public multilingual CLIP checkpoints -- M-CLIP, NLLB-CLIP, and CAPIVARA-CLIP -- across ten languages that vary in resource availability and grammatical gender. Using balanced subsets of \textsc{FairFace} and the \textsc{PATA} stereotype suite in a zero-shot setting, we quantify race and gender bias and measure stereotype amplification. Contrary to the assumption that multilinguality mitigates bias, every model exhibits stronger gender bias than its English-only baseline. CAPIVARA-CLIP shows its largest biases precisely in the low-resource languages it targets, while the shared cross-lingual encoder of NLLB-CLIP transports English gender stereotypes into gender-neutral languages; loosely coupled encoders largely avoid this transfer. Highly gendered languages consistently magnify all measured bias types, but even gender-neutral languages remain vulnerable when cross-lingual weight sharing imports foreign stereotypes. Aggregated metrics conceal language-specific ``hot spots,'' underscoring the need for fine-grained, language-aware bias evaluation in future multilingual vision-language research.
- Abstract(参考訳): 多言語視覚言語モデルは、普遍的な画像テキスト検索を約束するが、それらの社会的バイアスは未探索のままである。
我々は,M-CLIP,NLLB-CLIP,CAPIVARA-CLIPの3つの公開多言語CLIPチェックポイントを,資源の可利用性と文法性に異なる10言語にわたって,初めて体系的に評価した。
ゼロショット設定で \textsc{FairFace} と \textsc{PATA} ステレオタイプスイートのバランスの取れた部分集合を用いて、人種と性別のバイアスを定量化し、ステレオタイプ増幅を測定する。
多言語性はバイアスを緩和するという仮定とは対照的に、すべてのモデルは英語のみのベースラインよりも強い性バイアスを示す。
CAPIVARA-CLIPは、ターゲットとする低リソース言語において、最も大きなバイアスを示し、NLLB-CLIPの共通言語エンコーダは、英語のジェンダーステレオタイプを性中立言語に転送する。
性別の多い言語は、常にすべての測定されたバイアスタイプを拡大するが、異国語のステレオタイプを輸入する場合、男女中立言語でさえも脆弱である。
集約されたメトリクスは言語固有の ''ホットスポット'' を隠蔽し、将来の多言語視覚言語研究における詳細な言語認知バイアス評価の必要性を裏付けている。
関連論文リスト
- mGeNTE: A Multilingual Resource for Gender-Neutral Language and Translation [21.461095625903504]
mGeNTEは、英語/イタリア語/ドイツ語/スペイン語のペアのデータセットである。
ジェンダー・ニュートラル翻訳(GNT)と3つの文法性言語のための言語モデリングの両方の研究を可能にする。
論文 参考訳(メタデータ) (2025-01-16T09:35:15Z) - Beyond Binary Gender: Evaluating Gender-Inclusive Machine Translation with Ambiguous Attitude Words [85.48043537327258]
既存の機械翻訳の性別バイアス評価は主に男性と女性の性別に焦点を当てている。
本研究では,AmbGIMT (Gender-Inclusive Machine Translation with Ambiguous attitude words) のベンチマークを示す。
本研究では,感情的態度スコア(EAS)に基づく性別バイアス評価手法を提案する。
論文 参考訳(メタデータ) (2024-07-23T08:13:51Z) - Multilingual Text-to-Image Generation Magnifies Gender Stereotypes and Prompt Engineering May Not Help You [64.74707085021858]
多言語モデルは、モノリンガルモデルと同様に、有意な性別バイアスに悩まされていることを示す。
多言語モデルにおけるジェンダーバイアスの研究を促進するための新しいベンチマークMAGBIGを提案する。
以上の結果から,モデルが強い性バイアスを示すだけでなく,言語によって異なる行動を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-01-29T12:02:28Z) - Gender Lost In Translation: How Bridging The Gap Between Languages
Affects Gender Bias in Zero-Shot Multilingual Translation [12.376309678270275]
並列データが利用できない言語間のギャップを埋めることは、多言語NTTの性別バイアスに影響を与える。
本研究では, 言語に依存しない隠蔽表現が, ジェンダーの保存能力に及ぼす影響について検討した。
言語に依存しない表現は、ゼロショットモデルの男性バイアスを緩和し、ブリッジ言語におけるジェンダーインフレクションのレベルが増加し、話者関連性合意に対するより公平なジェンダー保存に関するゼロショット翻訳を超越することがわかった。
論文 参考訳(メタデータ) (2023-05-26T13:51:50Z) - Analyzing Gender Representation in Multilingual Models [59.21915055702203]
実践的なケーススタディとして,ジェンダーの区別の表現に焦点をあてる。
ジェンダーの概念が、異なる言語で共有された部分空間にエンコードされる範囲について検討する。
論文 参考訳(メタデータ) (2022-04-20T00:13:01Z) - Quantifying Gender Bias Towards Politicians in Cross-Lingual Language
Models [104.41668491794974]
代名詞として政治家の名前を取り巻く言語モデルによって生成される形容詞と動詞の用法を定量化する。
死者や指定された言葉が男女の政治家と関連しているのに対し、美人や離婚といった特定の言葉が主に女性政治家に関係していることが判明した。
論文 参考訳(メタデータ) (2021-04-15T15:03:26Z) - Type B Reflexivization as an Unambiguous Testbed for Multilingual
Multi-Task Gender Bias [5.239305978984572]
我々は,B型回帰型言語の場合,性別バイアスを検出するためにマルチタスクチャレンジデータセットを構築することができることを示した。
これらの言語では「医者がマスクを取り除いた」という直訳は中音読みと不一致読みのあいまいさではない。
4つの言語と4つのNLPタスクにまたがる多言語・マルチタスク課題データセットを提案する。
論文 参考訳(メタデータ) (2020-09-24T23:47:18Z) - Gender Bias in Multilingual Embeddings and Cross-Lingual Transfer [101.58431011820755]
多言語埋め込みにおけるジェンダーバイアスとNLPアプリケーションの伝達学習への影響について検討する。
我々は、バイアス分析のための多言語データセットを作成し、多言語表現におけるバイアスの定量化方法をいくつか提案する。
論文 参考訳(メタデータ) (2020-05-02T04:34:37Z) - Multi-Dimensional Gender Bias Classification [67.65551687580552]
機械学習モデルは、性別に偏ったテキストでトレーニングする際に、社会的に望ましくないパターンを不注意に学習することができる。
本稿では,テキスト中の性バイアスを複数の実用的・意味的な次元に沿って分解する一般的な枠組みを提案する。
このきめ細かいフレームワークを用いて、8つの大規模データセットにジェンダー情報を自動的にアノテートする。
論文 参考訳(メタデータ) (2020-05-01T21:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。