論文の概要: Deconstructing Bias: A Multifaceted Framework for Diagnosing Cultural and Compositional Inequities in Text-to-Image Generative Models
- arxiv url: http://arxiv.org/abs/2505.01430v1
- Date: Sat, 05 Apr 2025 06:17:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-11 11:26:45.176089
- Title: Deconstructing Bias: A Multifaceted Framework for Diagnosing Cultural and Compositional Inequities in Text-to-Image Generative Models
- Title(参考訳): Deconstructing Bias: テキスト・画像生成モデルにおける文化的・構成的不平等の診断のための多面的枠組み
- Authors: Muna Numan Said, Aarib Zaidi, Rabia Usman, Sonia Okon, Praneeth Medepalli, Kevin Zhu, Vasu Sharma, Sean O'Brien,
- Abstract要約: 本稿では,CIS(Component Inclusion Score)を指標として,文化的文脈における画像生成の忠実度を評価する。
我々は、構成的脆弱性と文脈的不整合の観点からバイアスを定量化し、西洋と非西洋の文化的プロンプトの間に顕著なパフォーマンスのギャップを浮き彫りにする。
- 参考スコア(独自算出の注目度): 3.6335172274433414
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The transformative potential of text-to-image (T2I) models hinges on their ability to synthesize culturally diverse, photorealistic images from textual prompts. However, these models often perpetuate cultural biases embedded within their training data, leading to systemic misrepresentations. This paper benchmarks the Component Inclusion Score (CIS), a metric designed to evaluate the fidelity of image generation across cultural contexts. Through extensive analysis involving 2,400 images, we quantify biases in terms of compositional fragility and contextual misalignment, revealing significant performance gaps between Western and non-Western cultural prompts. Our findings underscore the impact of data imbalance, attention entropy, and embedding superposition on model fairness. By benchmarking models like Stable Diffusion with CIS, we provide insights into architectural and data-centric interventions for enhancing cultural inclusivity in AI-generated imagery. This work advances the field by offering a comprehensive tool for diagnosing and mitigating biases in T2I generation, advocating for more equitable AI systems.
- Abstract(参考訳): テキスト・トゥ・イメージ(T2I)モデルの変換ポテンシャルは、文化的に多様なフォトリアリスティックな画像をテキスト・プロンプトから合成する能力に依存している。
しかしながら、これらのモデルは、トレーニングデータに埋め込まれた文化的バイアスを持続させ、体系的な誤表現につながることが多い。
本稿では,CIS(Component Inclusion Score)を指標として,文化的文脈における画像生成の忠実度を評価する。
2,400枚の画像を含む広範囲な分析を通して、構成的脆弱性と文脈的不整合の観点からバイアスを定量化し、西洋と非西洋の文化的プロンプトの間に顕著なパフォーマンスのギャップを明らかにする。
本研究は,データ不均衡,注意エントロピー,埋め込み重畳がモデルフェアネスに与える影響を明らかにするものである。
安定拡散(Stable Diffusion)やCIS(Citable Diffusion)といったモデルをベンチマークすることで、AI生成画像の文化的傾きを高めるためのアーキテクチャ的およびデータ中心の介入に関する洞察を提供する。
この研究は、T2I世代におけるバイアスの診断と緩和のための包括的なツールを提供することで、この分野を前進させ、より公平なAIシステムを目指している。
関連論文リスト
- Diffusion Models Through a Global Lens: Are They Culturally Inclusive? [15.991121392458748]
我々はCultDiffベンチマークを導入し、最先端の拡散モデルを評価する。
これらのモデルは、建築、衣服、食品の文化的なアーティファクトを生成するのに失敗することが多いことを示します。
我々は、カルトディフ-Sというニューラルネットワークによる画像画像類似度測定法を開発し、文化的アーティファクトを用いた実画像と生成画像の人間の判断を予測する。
論文 参考訳(メタデータ) (2025-02-13T03:05:42Z) - FairT2I: Mitigating Social Bias in Text-to-Image Generation via Large Language Model-Assisted Detection and Attribute Rebalancing [32.01426831450348]
本稿では,T2I生成における社会的バイアスの検出と緩和に,大規模言語モデルを活用する新しいフレームワークであるFairT2Iを紹介する。
以上の結果から,FairT2Iは社会的偏見を緩和し,画像の感度特性の多様性を高めることができた。
論文 参考訳(メタデータ) (2025-02-06T07:22:57Z) - KITTEN: A Knowledge-Intensive Evaluation of Image Generation on Visual Entities [93.74881034001312]
テキスト・画像生成モデルにおける実体の忠実度に関する系統的研究を行う。
我々はランドマークの建物、航空機、植物、動物など、幅広い現実世界の視覚的実体を生成する能力に焦点をあてる。
その結果、最も高度なテキスト・画像モデルでさえ、正確な視覚的詳細を持つエンティティを生成できないことが判明した。
論文 参考訳(メタデータ) (2024-10-15T17:50:37Z) - PhyBench: A Physical Commonsense Benchmark for Evaluating Text-to-Image Models [50.33699462106502]
テキスト・トゥ・イメージ(T2I)モデルは、物理コモンセンスと整合した画像を生成するのにしばしば失敗する。
現在のT2I評価ベンチマークは、精度、バイアス、安全性などの指標に焦点を当て、モデルの内部知識の評価を無視している。
メカニクス,光学,熱力学,材料特性の4つのカテゴリに700のプロンプトを含む総合的なT2I評価データセットであるPhyBenchを紹介する。
論文 参考訳(メタデータ) (2024-06-17T17:49:01Z) - Separate-and-Enhance: Compositional Finetuning for Text2Image Diffusion
Models [58.46926334842161]
この研究は、注意力の低いアクティベーションスコアとマスクオーバーラップに関連する問題を指摘し、このような不一致の根本的な理由を照らしている。
本稿では,物体マスクの重なりを低減し,注目度を最大化する2つの新しい目的,分離損失とエンハンス損失を提案する。
提案手法は従来のテスト時間適応手法と異なり,拡張性と一般化性を高める重要なパラメータの微調整に重点を置いている。
論文 参考訳(メタデータ) (2023-12-10T22:07:42Z) - On the Cultural Gap in Text-to-Image Generation [75.69755281031951]
テキスト・トゥ・イメージ(T2I)生成における課題のひとつは、トレーニングデータに存在する文化ギャップの意図しない反映である。
クロスカルチャー画像を生成するT2Iモデルの能力を体系的に評価するベンチマークは存在しない。
本稿では,モデルが対象文化にどの程度適しているかを評価するため,包括的評価基準付きChallenging Cross-Cultural (C3)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-06T13:17:55Z) - Towards Equitable Representation in Text-to-Image Synthesis Models with
the Cross-Cultural Understanding Benchmark (CCUB) Dataset [8.006068032606182]
本稿では,小さいが文化的にキュレートされたデータセットを用いて,テキストと画像の合成を文化的に認識するプライミング手法を提案する。
実験の結果, テキストと画像の両方を用いたプライミングは, 文化的関連性の向上と, 生成画像の攻撃性低下に有効であることが示唆された。
論文 参考訳(メタデータ) (2023-01-28T03:10:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。