論文の概要: Breaking Language Barriers or Reinforcing Bias? A Study of Gender and Racial Disparities in Multilingual Contrastive Vision Language Models
- arxiv url: http://arxiv.org/abs/2505.14160v2
- Date: Thu, 11 Sep 2025 20:26:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 14:04:02.970047
- Title: Breaking Language Barriers or Reinforcing Bias? A Study of Gender and Racial Disparities in Multilingual Contrastive Vision Language Models
- Title(参考訳): 言語障壁を打破するかバイアスを補強するか : 多言語コントラスト視覚言語モデルにおける性差と人種差の検討
- Authors: Zahraa Al Sahili, Ioannis Patras, Matthew Purver,
- Abstract要約: M-CLIP, NLLB-CLIP, CAPIVARA-CLIP, and the debiased SigLIP-2。
人種と性別の偏見を定量化し、ステレオタイプ増幅を測定する。
- 参考スコア(独自算出の注目度): 28.944990804599893
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Multilingual vision-language models (VLMs) promise universal image-text retrieval, yet their social biases remain underexplored. We perform the first systematic audit of four public multilingual CLIP variants: M-CLIP, NLLB-CLIP, CAPIVARA-CLIP, and the debiased SigLIP-2, covering ten languages that differ in resource availability and morphological gender marking. Using balanced subsets of FairFace and the PATA stereotype suite in a zero-shot setting, we quantify race and gender bias and measure stereotype amplification. Contrary to the intuition that multilinguality mitigates bias, every model exhibits stronger gender skew than its English-only baseline. CAPIVARA-CLIP shows its largest biases precisely in the low-resource languages it targets, while the shared encoder of NLLB-CLIP and SigLIP-2 transfers English gender stereotypes into gender-neutral languages; loosely coupled encoders largely avoid this leakage. Although SigLIP-2 reduces agency and communion skews, it inherits -- and in caption-sparse contexts (e.g., Xhosa) amplifies -- the English anchor's crime associations. Highly gendered languages consistently magnify all bias types, yet gender-neutral languages remain vulnerable whenever cross-lingual weight sharing imports foreign stereotypes. Aggregated metrics thus mask language-specific hot spots, underscoring the need for fine-grained, language-aware bias evaluation in future multilingual VLM research.
- Abstract(参考訳): 多言語視覚言語モデル(VLM)は、普遍的な画像テキスト検索を約束するが、それらの社会的バイアスは未探索のままである。
M-CLIP, NLLB-CLIP, CAPIVARA-CLIP, and the debiased SigLIP-2の4つの公開多言語CLIP変異体について, 資源の可利用性や形態学的特徴が異なる10言語を対象として, 初めて系統的検査を行った。
FairFaceとPATAステレオタイプスイートのバランスの取れたサブセットをゼロショット設定で使用し、人種と性別のバイアスを定量化し、ステレオタイプ増幅を測定する。
多言語性が偏見を緩和する直観とは対照的に、すべてのモデルは英語のみのベースラインよりも強いジェンダースキューを示す。
CAPIVARA-CLIPは、NLLB-CLIPとSigLIP-2の共有エンコーダは、英語のジェンダーステレオタイプを性中立言語に転送するが、疎結合エンコーダは、主にこの漏洩を避ける。
SigLIP-2はエージェンシーとコミュニオンのスキューを減らしますが、キャプションの少ない文脈(例えばXhosa)ではイングランドのアンカーの犯罪協会を増幅します。
性別の多い言語は、すべてのバイアスタイプを常に拡大するが、言語間の重み共有が外国のステレオタイプを輸入するたびに、男女中立言語は脆弱なままである。
集約されたメトリクスは、言語固有のホットスポットを隠蔽し、将来の多言語VLM研究において、きめ細かな言語対応バイアス評価の必要性を強調する。
関連論文リスト
- EuroGEST: Investigating gender stereotypes in multilingual language models [53.88459905621724]
大規模言語モデルはますます複数の言語をサポートするようになったが、ほとんどのベンチマークは英語中心のままである。
EuroGESTは、英語と29のヨーロッパ言語にまたがるLLMにおける性別ステレオタイプ推論を計測するためのデータセットである。
論文 参考訳(メタデータ) (2025-06-04T11:58:18Z) - Colombian Waitresses y Jueces canadienses: Gender and Country Biases in Occupation Recommendations from LLMs [15.783346695504344]
本研究は,多言語交叉国とジェンダーバイアスに関する最初の研究である。
25の国と4つの代名詞セットを用いて、英語、スペイン語、ドイツ語でプロンプトのベンチマークを構築した。
モデルが性別や国ごとに同性を示す場合であっても、国と性別の両方に基づく交叉的職業バイアスが持続することがわかった。
論文 参考訳(メタデータ) (2025-05-05T08:40:51Z) - mGeNTE: A Multilingual Resource for Gender-Neutral Language and Translation [21.461095625903504]
mGeNTEは、英語/イタリア語/ドイツ語/スペイン語のペアのデータセットである。
ジェンダー・ニュートラル翻訳(GNT)と3つの文法性言語のための言語モデリングの両方の研究を可能にする。
論文 参考訳(メタデータ) (2025-01-16T09:35:15Z) - Beyond Binary Gender: Evaluating Gender-Inclusive Machine Translation with Ambiguous Attitude Words [85.48043537327258]
既存の機械翻訳の性別バイアス評価は主に男性と女性の性別に焦点を当てている。
本研究では,AmbGIMT (Gender-Inclusive Machine Translation with Ambiguous attitude words) のベンチマークを示す。
本研究では,感情的態度スコア(EAS)に基づく性別バイアス評価手法を提案する。
論文 参考訳(メタデータ) (2024-07-23T08:13:51Z) - Leveraging Large Language Models to Measure Gender Representation Bias in Gendered Language Corpora [9.959039325564744]
大規模言語モデル(LLM)は、しばしば、トレーニングデータに埋め込まれた社会的バイアスを継承し、増幅する。
性バイアスとは、特定の役割や特性と特定の性別の関連性である。
ジェンダー表現バイアスは、性別の異なる個人への参照の不平等な頻度である。
論文 参考訳(メタデータ) (2024-06-19T16:30:58Z) - Multilingual Text-to-Image Generation Magnifies Gender Stereotypes and Prompt Engineering May Not Help You [64.74707085021858]
多言語モデルは、モノリンガルモデルと同様に、有意な性別バイアスに悩まされていることを示す。
多言語モデルにおけるジェンダーバイアスの研究を促進するための新しいベンチマークMAGBIGを提案する。
以上の結果から,モデルが強い性バイアスを示すだけでなく,言語によって異なる行動を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-01-29T12:02:28Z) - Gender Lost In Translation: How Bridging The Gap Between Languages
Affects Gender Bias in Zero-Shot Multilingual Translation [12.376309678270275]
並列データが利用できない言語間のギャップを埋めることは、多言語NTTの性別バイアスに影響を与える。
本研究では, 言語に依存しない隠蔽表現が, ジェンダーの保存能力に及ぼす影響について検討した。
言語に依存しない表現は、ゼロショットモデルの男性バイアスを緩和し、ブリッジ言語におけるジェンダーインフレクションのレベルが増加し、話者関連性合意に対するより公平なジェンダー保存に関するゼロショット翻訳を超越することがわかった。
論文 参考訳(メタデータ) (2023-05-26T13:51:50Z) - Analyzing Gender Representation in Multilingual Models [59.21915055702203]
実践的なケーススタディとして,ジェンダーの区別の表現に焦点をあてる。
ジェンダーの概念が、異なる言語で共有された部分空間にエンコードされる範囲について検討する。
論文 参考訳(メタデータ) (2022-04-20T00:13:01Z) - Quantifying Gender Bias Towards Politicians in Cross-Lingual Language
Models [104.41668491794974]
代名詞として政治家の名前を取り巻く言語モデルによって生成される形容詞と動詞の用法を定量化する。
死者や指定された言葉が男女の政治家と関連しているのに対し、美人や離婚といった特定の言葉が主に女性政治家に関係していることが判明した。
論文 参考訳(メタデータ) (2021-04-15T15:03:26Z) - Type B Reflexivization as an Unambiguous Testbed for Multilingual
Multi-Task Gender Bias [5.239305978984572]
我々は,B型回帰型言語の場合,性別バイアスを検出するためにマルチタスクチャレンジデータセットを構築することができることを示した。
これらの言語では「医者がマスクを取り除いた」という直訳は中音読みと不一致読みのあいまいさではない。
4つの言語と4つのNLPタスクにまたがる多言語・マルチタスク課題データセットを提案する。
論文 参考訳(メタデータ) (2020-09-24T23:47:18Z) - Gender Bias in Multilingual Embeddings and Cross-Lingual Transfer [101.58431011820755]
多言語埋め込みにおけるジェンダーバイアスとNLPアプリケーションの伝達学習への影響について検討する。
我々は、バイアス分析のための多言語データセットを作成し、多言語表現におけるバイアスの定量化方法をいくつか提案する。
論文 参考訳(メタデータ) (2020-05-02T04:34:37Z) - Multi-Dimensional Gender Bias Classification [67.65551687580552]
機械学習モデルは、性別に偏ったテキストでトレーニングする際に、社会的に望ましくないパターンを不注意に学習することができる。
本稿では,テキスト中の性バイアスを複数の実用的・意味的な次元に沿って分解する一般的な枠組みを提案する。
このきめ細かいフレームワークを用いて、8つの大規模データセットにジェンダー情報を自動的にアノテートする。
論文 参考訳(メタデータ) (2020-05-01T21:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。