論文の概要: Exposing Blindspots: Cultural Bias Evaluation in Generative Image Models
- arxiv url: http://arxiv.org/abs/2510.20042v1
- Date: Wed, 22 Oct 2025 21:42:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:16.920388
- Title: Exposing Blindspots: Cultural Bias Evaluation in Generative Image Models
- Title(参考訳): ブラインドスポットの公開:生成画像モデルにおける文化的バイアス評価
- Authors: Huichan Seo, Sieun Choi, Minki Hong, Yi Zhou, Junseo Kim, Lukman Ismaila, Naome Etori, Mehul Agarwal, Zhixuan Liu, Jihie Kim, Jean Oh,
- Abstract要約: 先行研究は、主にテキスト・トゥ・イメージ(T2I)システムにおける文化的偏見を調査してきた。
6カ国で統一的な評価でこのギャップを埋める。
クロスカントリー、クロスエラ、クロスカテゴリの評価を導出します。
- 参考スコア(独自算出の注目度): 14.992895369883504
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative image models produce striking visuals yet often misrepresent culture. Prior work has examined cultural bias mainly in text-to-image (T2I) systems, leaving image-to-image (I2I) editors underexplored. We bridge this gap with a unified evaluation across six countries, an 8-category/36-subcategory schema, and era-aware prompts, auditing both T2I generation and I2I editing under a standardized protocol that yields comparable diagnostics. Using open models with fixed settings, we derive cross-country, cross-era, and cross-category evaluations. Our framework combines standard automatic metrics, a culture-aware retrieval-augmented VQA, and expert human judgments collected from native reviewers. To enable reproducibility, we release the complete image corpus, prompts, and configurations. Our study reveals three findings: (1) under country-agnostic prompts, models default to Global-North, modern-leaning depictions that flatten cross-country distinctions; (2) iterative I2I editing erodes cultural fidelity even when conventional metrics remain flat or improve; and (3) I2I models apply superficial cues (palette shifts, generic props) rather than era-consistent, context-aware changes, often retaining source identity for Global-South targets. These results highlight that culture-sensitive edits remain unreliable in current systems. By releasing standardized data, prompts, and human evaluation protocols, we provide a reproducible, culture-centered benchmark for diagnosing and tracking cultural bias in generative image models.
- Abstract(参考訳): 生成画像モデルは印象的な視覚を生成するが、しばしば文化を誤って表現する。
先行研究は、主にテキスト・ツー・イメージ(T2I)システムにおいて、画像・ツー・イメージ(I2I)エディターを過小評価した。
我々は、このギャップを6つの国で統一された評価、八カテゴリ/36サブカテゴリスキーマ、および時代認識プロンプトで埋め、T2I世代とI2I編集の両方を、同等の診断をもたらす標準化されたプロトコルで監査する。
固定設定のオープンモデルを用いて、クロスカントリー、クロスエラ、クロスカテゴリの評価を導出する。
我々のフレームワークは、標準的な自動メトリクス、文化に配慮した検索強化VQA、およびネイティブレビュアーから収集された専門家による人間の判断を組み合わせる。
再現性を実現するために、完全なイメージコーパス、プロンプト、設定をリリースする。
本研究は,(1) 地域に依存しないプロンプトの下では,グローバルノースにデフォルトのモデル,(2) クロスカントリーの区別をフラットにする現代的な描写,(2) 従来の指標がフラットでなくても文化的忠実さを損なう反復的I2I 編集,(3) I2I モデルは,時代整合性,文脈認識的変化よりも表面的手がかり(パレットシフト,ジェネリックプロップ)を適用し,しばしばグローバルサウス目標のソースアイデンティティを保持する。
これらの結果は、現在のシステムでは、文化に敏感な編集が信頼できないことを浮き彫りにしている。
標準化されたデータ、プロンプト、人間評価プロトコルを公開することにより、生成画像モデルにおける文化的バイアスの診断と追跡のための再現可能な、文化中心のベンチマークを提供する。
関連論文リスト
- CAIRe: Cultural Attribution of Images by Retrieval-Augmented Evaluation [61.130639734982395]
本稿では,画像の文化的関連度を評価する新しい評価指標であるCAIReを紹介する。
本フレームワークは,イメージ内の実体と概念を知識ベースに基盤として,実情報を用いて各文化ラベルに対して独立した評価を行う。
論文 参考訳(メタデータ) (2025-06-10T17:16:23Z) - CulturalFrames: Assessing Cultural Expectation Alignment in Text-to-Image Models and Evaluation Metrics [23.567641319277943]
テキスト・ツー・イメージ(T2I)モデルと評価指標のアライメントを定量化する。
文化フレームは、文化的表現の厳格な評価のための新しいベンチマークである。
モデルや国全体では、平均して44%の文化的な期待が失われていることが分かっています。
論文 参考訳(メタデータ) (2025-06-10T14:21:46Z) - Deconstructing Bias: A Multifaceted Framework for Diagnosing Cultural and Compositional Inequities in Text-to-Image Generative Models [3.6335172274433414]
本稿では,CIS(Component Inclusion Score)を指標として,文化的文脈における画像生成の忠実度を評価する。
我々は、構成的脆弱性と文脈的不整合の観点からバイアスを定量化し、西洋と非西洋の文化的プロンプトの間に顕著なパフォーマンスのギャップを浮き彫りにする。
論文 参考訳(メタデータ) (2025-04-05T06:17:43Z) - Diffusion Models Through a Global Lens: Are They Culturally Inclusive? [15.991121392458748]
我々はCultDiffベンチマークを導入し、最先端の拡散モデルを評価する。
これらのモデルは、建築、衣服、食品の文化的なアーティファクトを生成するのに失敗することが多いことを示します。
我々は、カルトディフ-Sというニューラルネットワークによる画像画像類似度測定法を開発し、文化的アーティファクトを用いた実画像と生成画像の人間の判断を予測する。
論文 参考訳(メタデータ) (2025-02-13T03:05:42Z) - Vision-Language Models under Cultural and Inclusive Considerations [53.614528867159706]
視覚言語モデル(VLM)は、日常生活の画像を記述することで視覚障害者を支援する。
現在の評価データセットは、多様な文化的ユーザ背景や、このユースケースの状況を反映していない可能性がある。
我々は、字幕の好みを決定するための調査を作成し、視覚障害者によって撮影された画像を含む既存のデータセットであるVizWizをフィルタリングすることで、文化中心の評価ベンチマークを提案する。
次に,複数のVLMを評価し,その信頼性を文化的に多様な環境で視覚アシスタントとして検証した。
論文 参考訳(メタデータ) (2024-07-08T17:50:00Z) - PhyBench: A Physical Commonsense Benchmark for Evaluating Text-to-Image Models [50.33699462106502]
テキスト・トゥ・イメージ(T2I)モデルは、物理コモンセンスと整合した画像を生成するのにしばしば失敗する。
現在のT2I評価ベンチマークは、精度、バイアス、安全性などの指標に焦点を当て、モデルの内部知識の評価を無視している。
メカニクス,光学,熱力学,材料特性の4つのカテゴリに700のプロンプトを含む総合的なT2I評価データセットであるPhyBenchを紹介する。
論文 参考訳(メタデータ) (2024-06-17T17:49:01Z) - On the Cultural Gap in Text-to-Image Generation [75.69755281031951]
テキスト・トゥ・イメージ(T2I)生成における課題のひとつは、トレーニングデータに存在する文化ギャップの意図しない反映である。
クロスカルチャー画像を生成するT2Iモデルの能力を体系的に評価するベンチマークは存在しない。
本稿では,モデルが対象文化にどの程度適しているかを評価するため,包括的評価基準付きChallenging Cross-Cultural (C3)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-06T13:17:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。