論文の概要: Measuring Social Bias in Vision-Language Models with Face-Only Counterfactuals from Real Photos
- arxiv url: http://arxiv.org/abs/2601.06931v1
- Date: Sun, 11 Jan 2026 14:35:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.071818
- Title: Measuring Social Bias in Vision-Language Models with Face-Only Counterfactuals from Real Photos
- Title(参考訳): 実写真からの顔のみによる視覚言語モデルにおける社会的バイアスの測定
- Authors: Haodong Chen, Qiang Huang, Jiaqi Zhao, Qiuping Jiang, Xiaojun Chang, Jun Yu,
- Abstract要約: 現実のイメージは人種と性別を混在させ、背景や衣服などの関連要因や属性を隠蔽する。
テキストのみの対実的評価パラダイムを提案する。
我々は、人種や性別に関連する顔属性のみを編集し、他の視覚的要素を全て固定することで、反事実的変異を生成する。
- 参考スコア(独自算出の注目度): 79.03150233804458
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) are increasingly deployed in socially consequential settings, raising concerns about social bias driven by demographic cues. A central challenge in measuring such social bias is attribution under visual confounding: real-world images entangle race and gender with correlated factors such as background and clothing, obscuring attribution. We propose a \textbf{face-only counterfactual evaluation paradigm} that isolates demographic effects while preserving real-image realism. Starting from real photographs, we generate counterfactual variants by editing only facial attributes related to race and gender, keeping all other visual factors fixed. Based on this paradigm, we construct \textbf{FOCUS}, a dataset of 480 scene-matched counterfactual images across six occupations and ten demographic groups, and propose \textbf{REFLECT}, a benchmark comprising three decision-oriented tasks: two-alternative forced choice, multiple-choice socioeconomic inference, and numeric salary recommendation. Experiments on five state-of-the-art VLMs reveal that demographic disparities persist under strict visual control and vary substantially across task formulations. These findings underscore the necessity of controlled, counterfactual audits and highlight task design as a critical factor in evaluating social bias in multimodal models.
- Abstract(参考訳): VLM(Vision-Language Models)は、社会的に連続した設定で展開され、人口統計学的な方法によって引き起こされる社会的偏見への懸念が高まっている。
このような社会的偏見を測定する上での中心的な課題は、現実のイメージが人種と性別に絡み合い、背景や衣服などの関連要因が混在し、帰属を隠蔽することである。
本稿では,実像リアリズムを維持しつつ,人口動態を分離する「textbf{face-only counterfactual evaluation paradigm」を提案する。
実際の写真から、人種や性別に関連する顔の属性のみを編集し、他の視覚的要素を全て固定することで、偽の変種を生成する。
このパラダイムに基づいて、6つの職業と10の人口集団にわたる480のシーンマッチングされた反ファクト画像のデータセットである \textbf{FOCUS} を構築し、二元的強制選択、複数選択型社会経済的推論、および数値的給与推奨という3つの決定指向のタスクからなるベンチマークである \textbf{REFLECT} を提案する。
最新の5つのVLMの実験では、人口格差は厳密な視覚制御の下で持続し、タスクの定式化によって大きく異なることが示されている。
これらの知見は,マルチモーダルモデルにおける社会的偏見を評価する上で重要な要因として,制御された対実監査の必要性とタスクデザインの強調を浮き彫りにした。
関連論文リスト
- Bias in the Picture: Benchmarking VLMs with Social-Cue News Images and LLM-as-Judge Assessment [8.451522319478512]
各種コンセントから抽出された1,343枚の画像検索ペアからなるニューズ画像ベンチマークを導入する。
我々は、最先端のVLMの評価を行い、人間の検証を伴って、大きな言語モデル(LLM)を判断に用いた。
その結果, (i) 視覚的文脈は, モデル出力をオープンエンド設定で体系的に変化させる; (ii) バイアスの頻度は属性やモデルによって異なり, 特に性別や職業のリスクが高い; (iii) より高い忠実度は必ずしも低いバイアスに対応しないことがわかった。
論文 参考訳(メタデータ) (2025-09-24T00:33:58Z) - Prompting Away Stereotypes? Evaluating Bias in Text-to-Image Models for Occupations [9.58968557546246]
我々は、イメージキュレーションと評価タスクとして、表現的社会的バイアス評価の枠組みを定めている。
5つの最先端モデルを用いて、中立なベースラインプロンプトと公正な制御プロンプトを比較する。
その結果、プロンプトは人口統計学的表現を著しく変化させるが、モデル固有の効果は高い。
論文 参考訳(メタデータ) (2025-08-31T13:46:16Z) - GenderBias-\emph{VL}: Benchmarking Gender Bias in Vision Language Models via Counterfactual Probing [72.0343083866144]
本稿では,GenderBias-emphVLベンチマークを用いて,大規模視覚言語モデルにおける職業関連性バイアスの評価を行う。
ベンチマークを用いて15のオープンソースLVLMと最先端の商用APIを広範囲に評価した。
既存のLVLMでは男女差が広くみられた。
論文 参考訳(メタデータ) (2024-06-30T05:55:15Z) - SocialCounterfactuals: Probing and Mitigating Intersectional Social Biases in Vision-Language Models with Counterfactual Examples [6.084482865688909]
我々はテキスト・ツー・イメージ拡散モデルを用いて、大規模に交叉する社会的バイアスを探索する対実例を作成した。
提案手法では,安定拡散とクロスアテンション制御を用いて,対実的画像とテキストのペアのセットを生成する。
我々は、性別、人種、身体特性に関連する交叉バイアスを求めるために、171kの画像テキストペアを含む高品質なデータセットであるSocialCounterfactualsを作成した。
論文 参考訳(メタデータ) (2023-11-30T18:32:14Z) - Probing Intersectional Biases in Vision-Language Models with
Counterfactual Examples [5.870913541790421]
我々は、テキスト・ツー・イメージ拡散モデルを用いて、大規模に侵入する社会的バイアスを探索する対実例を作成する。
提案手法では,安定拡散とクロスアテンション制御を用いて,対実的画像とテキストのペアのセットを生成する。
我々は、最先端のVLMに存在する交叉社会的バイアスを明らかにするために、生成されたデータセットを用いて広範な実験を行う。
論文 参考訳(メタデータ) (2023-10-04T17:25:10Z) - VisoGender: A dataset for benchmarking gender bias in image-text pronoun
resolution [80.57383975987676]
VisoGenderは、視覚言語モデルで性別バイアスをベンチマークするための新しいデータセットである。
We focus to occupation-related biases in a hegemonic system of binary gender, inspired by Winograd and Winogender schemas。
我々は、最先端の視覚言語モデルをいくつかベンチマークし、それらが複雑な場面における二項性解消のバイアスを示すことを発見した。
論文 参考訳(メタデータ) (2023-06-21T17:59:51Z) - DALL-Eval: Probing the Reasoning Skills and Social Biases of
Text-to-Image Generation Models [73.12069620086311]
テキスト・ツー・イメージ・モデルの視覚的推論能力と社会的バイアスについて検討する。
まず,物体認識,物体カウント,空間的関係理解という3つの視覚的推論スキルを計測する。
第2に、生成した画像の性別/肌の色調分布を測定することにより、性別と肌のトーンバイアスを評価する。
論文 参考訳(メタデータ) (2022-02-08T18:36:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。