論文の概要: Cultural Counterfactuals: Evaluating Cultural Biases in Large Vision-Language Models with Counterfactual Examples
- arxiv url: http://arxiv.org/abs/2603.02370v1
- Date: Mon, 02 Mar 2026 20:19:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.537421
- Title: Cultural Counterfactuals: Evaluating Cultural Biases in Large Vision-Language Models with Counterfactual Examples
- Title(参考訳): 文化的要因: 大規模視覚言語モデルにおける文化的バイアスの評価 : 対実例による検討
- Authors: Phillip Howard, Xin Su, Kathleen C. Fraser,
- Abstract要約: 文化バイアスを測定する上で重要な課題は、個人が属するグループを決定することは、しばしば画像の文化的文脈に依存することである。
本稿では,宗教,国籍,社会経済的地位に関連する文化的バイアスを測定するために,60k近い反事実画像を含む高品質な合成データセットについて紹介する。
- 参考スコア(独自算出の注目度): 13.476728526770023
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Vision-Language Models (LVLMs) have grown increasingly powerful in recent years, but can also exhibit harmful biases. Prior studies investigating such biases have primarily focused on demographic traits related to the visual characteristics of a person depicted in an image, such as their race or gender. This has left biases related to cultural differences (e.g., religion, socioeconomic status), which cannot be readily discerned from an individual's appearance alone, relatively understudied. A key challenge in measuring cultural biases is that determining which group an individual belongs to often depends upon cultural context cues in images, and datasets annotated with cultural context cues are lacking. To address this gap, we introduce Cultural Counterfactuals: a high-quality synthetic dataset containing nearly 60k counterfactual images for measuring cultural biases related to religion, nationality, and socioeconomic status. To ensure that cultural contexts are accurately depicted, we generate our dataset using an image-editing model to place people of different demographics into real cultural context images. This enables the construction of counterfactual image sets which depict the same person in multiple different contexts, allowing for precise measurement of the impact that cultural context differences have on LVLM outputs. We demonstrate the utility of Cultural Counterfactuals for quantifying cultural biases in popular LVLMs.
- Abstract(参考訳): 近年、LVLM(Large Vision-Language Models)はますます強力になっているが、有害なバイアスを示すこともある。
このような偏見を調査する以前の研究は、主に人種や性別など、画像に描かれている人の視覚的特徴に関連する人口統計学的特徴に焦点を当てていた。
これは文化の違い(宗教、社会経済的地位など)に関する偏見を残しており、個人の外見だけでは容易に識別できない。
文化バイアスを測定する上で重要な課題は、個人が属するグループを決定することは、画像の文化的な文脈の手がかりに依存することが多く、文化的な文脈の手がかりを付加したデータセットが欠如していることである。
このギャップに対処するために、宗教、国籍、社会経済的地位に関連する文化的バイアスを測定するために、60万近い反事実画像を含む高品質な合成データセットである、カルチャー・カウンタファクト(Cultural Counterfactuals)を紹介した。
文化的な文脈を正確に表現するために、画像編集モデルを用いてデータセットを生成し、異なる人口構成の人々を実際の文化的な文脈イメージに配置する。
これにより、同一人物を複数の異なる文脈で描写する対実画像セットを構築することができ、文化的な文脈の違いがLVLM出力に与える影響を正確に測定することができる。
一般のLVLMにおける文化的偏見を定量化するための文化的カウンターファクチャリティーの有用性を実証する。
関連論文リスト
- Where Culture Fades: Revealing the Cultural Gap in Text-to-Image Generation [43.352493955825736]
現在のT2Iモデルは、多言語的なプロンプトの下で、文化的に中立な結果や英語に偏った結果をもたらすことが多い。
本稿では,培養感受性シグナルを少数の固定層内の小さなニューロン群に局在させる探索法を提案する。
論文 参考訳(メタデータ) (2025-11-21T14:40:50Z) - Culture in Action: Evaluating Text-to-Image Models through Social Activities [40.874302288116304]
テキスト・トゥ・イメージ(T2I)モデルは大規模なWebデータをトレーニングすることで印象的なフォトリアリズムを実現するが、モデルは文化的偏見を継承し、表現不足の地域を忠実に描写することができない。
本稿では,T2Iモデルの評価ベンチマークであるCULTIVateを紹介する。
文化的アライメント,幻覚,誇張された要素,多様性を測定するための4つの指標を提案する。
論文 参考訳(メタデータ) (2025-11-07T19:51:11Z) - Cross-Cultural Transfer of Commonsense Reasoning in LLMs: Evidence from the Arab World [68.19795061447044]
本稿では,アラブ世界におけるコモンセンス推論の異文化間移動について検討する。
アラブ13カ国を対象とした文化基盤のコモンセンス推論データセットを用いて,軽量アライメント手法の評価を行った。
以上の結果から,他国の文化特有例は12例に過ぎず,他国の文化特有例を平均10%向上させることができた。
論文 参考訳(メタデータ) (2025-09-23T17:24:14Z) - CAIRe: Cultural Attribution of Images by Retrieval-Augmented Evaluation [61.130639734982395]
本稿では,画像の文化的関連度を評価する新しい評価指標であるCAIReを紹介する。
本フレームワークは,イメージ内の実体と概念を知識ベースに基盤として,実情報を用いて各文化ラベルに対して独立した評価を行う。
論文 参考訳(メタデータ) (2025-06-10T17:16:23Z) - From Surveys to Narratives: Rethinking Cultural Value Adaptation in LLMs [62.9861554207279]
LLM(Large Language Models)における文化的価値の適応は大きな課題である。
これまでの作業は主に、World Values Survey (WVS)データを使用して、LLMをさまざまな文化的価値と整合させる。
我々は,文化価値適応のためのWVSベースのトレーニングについて検討し,調査データのみに頼って文化規範を実践し,事実知識に干渉することを発見した。
論文 参考訳(メタデータ) (2025-05-22T09:00:01Z) - Diffusion Models Through a Global Lens: Are They Culturally Inclusive? [15.991121392458748]
我々はCultDiffベンチマークを導入し、最先端の拡散モデルを評価する。
これらのモデルは、建築、衣服、食品の文化的なアーティファクトを生成するのに失敗することが多いことを示します。
我々は、カルトディフ-Sというニューラルネットワークによる画像画像類似度測定法を開発し、文化的アーティファクトを用いた実画像と生成画像の人間の判断を予測する。
論文 参考訳(メタデータ) (2025-02-13T03:05:42Z) - See It from My Perspective: How Language Affects Cultural Bias in Image Understanding [60.70852566256668]
視覚言語モデル(VLM)は、多くの言語における画像に関するクエリに応答することができる。
画像理解におけるVLMの西洋的偏見を特徴付け,この格差の中で言語が果たす役割について検討する。
論文 参考訳(メタデータ) (2024-06-17T15:49:51Z) - Extrinsic Evaluation of Cultural Competence in Large Language Models [53.626808086522985]
本稿では,2つのテキスト生成タスクにおける文化能力の評価に焦点をあてる。
我々は,文化,特に国籍の明示的なキューが,そのプロンプトに乱入している場合のモデル出力を評価する。
異なる国におけるアウトプットのテキスト類似性とこれらの国の文化的価値との間には弱い相関関係がある。
論文 参考訳(メタデータ) (2024-06-17T14:03:27Z) - Not All Countries Celebrate Thanksgiving: On the Cultural Dominance in
Large Language Models [89.94270049334479]
本稿では,大規模言語モデル(LLM)における文化的優位性について述べる。
LLMは、ユーザーが非英語で尋ねるときに期待する文化とは無関係な、不適切な英語文化関連の回答を提供することが多い。
論文 参考訳(メタデータ) (2023-10-19T05:38:23Z) - Culture-to-Culture Image Translation and User Evaluation [0.0]
本稿では,文化的な特徴の筆跡を変える過程として定義するイメージ「文化化」の概念を紹介する。
我々は、最先端のジェネレーティブ・アドバイサル・ネットワークに基づいて、オブジェクトのイメージをソースからターゲットの文化的領域に翻訳するためのパイプラインを定義した。
我々は,異なる文化ドメインに属する画像がイタリアの参加者に与える影響について,4つの仮説を検証するために,オンラインアンケートを通じてデータを収集した。
論文 参考訳(メタデータ) (2022-01-05T12:10:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。