論文の概要: CuRe: Cultural Gaps in the Long Tail of Text-to-Image Systems
- arxiv url: http://arxiv.org/abs/2506.08071v1
- Date: Mon, 09 Jun 2025 17:54:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:40.270303
- Title: CuRe: Cultural Gaps in the Long Tail of Text-to-Image Systems
- Title(参考訳): CuRe: テキストから画像への長い道のりの文化的ギャップ
- Authors: Aniket Rege, Zinnia Nie, Mahesh Ramesh, Unmesh Raskar, Zhuoran Yu, Aditya Kusupati, Yong Jae Lee, Ramya Korlakai Vinayak,
- Abstract要約: CuReは、文化的代表性のためのベンチマークとスコアリングスイートである。
我々のデータセットは、32の文化サブカテゴリにまたがる300の文化的アーティファクトを6つの広い文化軸に分類している。
我々は,視覚的類似性,イメージテキストのアライメント,文化的多様性の人的判断に対する,得点者の階級の強い相関を経験的に観察した。
- 参考スコア(独自算出の注目度): 28.181690831408833
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Popular text-to-image (T2I) systems are trained on web-scraped data, which is heavily Amero and Euro-centric, underrepresenting the cultures of the Global South. To analyze these biases, we introduce CuRe, a novel and scalable benchmarking and scoring suite for cultural representativeness that leverages the marginal utility of attribute specification to T2I systems as a proxy for human judgments. Our CuRe benchmark dataset has a novel categorical hierarchy built from the crowdsourced Wikimedia knowledge graph, with 300 cultural artifacts across 32 cultural subcategories grouped into six broad cultural axes (food, art, fashion, architecture, celebrations, and people). Our dataset's categorical hierarchy enables CuRe scorers to evaluate T2I systems by analyzing their response to increasing the informativeness of text conditioning, enabling fine-grained cultural comparisons. We empirically observe much stronger correlations of our class of scorers to human judgments of perceptual similarity, image-text alignment, and cultural diversity across image encoders (SigLIP 2, AIMV2 and DINOv2), vision-language models (OpenCLIP, SigLIP 2, Gemini 2.0 Flash) and state-of-the-art text-to-image systems, including three variants of Stable Diffusion (1.5, XL, 3.5 Large), FLUX.1 [dev], Ideogram 2.0, and DALL-E 3. The code and dataset is open-sourced and available at https://aniketrege.github.io/cure/.
- Abstract(参考訳): 人気のテキスト・トゥ・イメージ(T2I)システムは、Ameroやユーロ中心のWebスクラッドデータに基づいて訓練されており、グローバル・サウスの文化を過小評価している。
これらのバイアスを解析するために,人的判断の代用として,属性仕様をT2Iシステムに適用した,文化的代表性のための新規でスケーラブルなベンチマークおよびスコアリングスイートであるCuReを紹介した。
私たちのCuReベンチマークデータセットには、クラウドソースのWikimediaナレッジグラフから構築された新しいカテゴリ階層があり、32の文化サブカテゴリにわたる300の文化的アーティファクトが6つの広い文化軸(食品、芸術、ファッション、建築、お祝い、人々)にグループ化されています。
データセットの分類階層により、CuReスコアラは、テキスト条件付けの伝達量の増加に対する応答を解析することにより、T2Iシステムを評価することができ、きめ細かい文化的比較が可能になる。
画像エンコーダ(SigLIP, AIMV2, DINOv2)、ビジョン言語モデル(OpenCLIP, SigLIP, Gemini 2.0 Flash)、および3種類の安定拡散(1.5, XL, 3.5 Large),FLUX.1[dev], Ideogram 2.0, DALL-E 3.3を含む最先端のテキスト・ツー・イメージシステム(DALL-E 3.3)におけるスコアのクラスと人間の知覚的類似性,画像テキストアライメント,文化多様性との相関を実証的に観察する。
コードとデータセットは、https://aniketrege.github.io/cure/.comで公開されている。
関連論文リスト
- Can we Debias Social Stereotypes in AI-Generated Images? Examining Text-to-Image Outputs and User Perceptions [6.87895735248661]
本稿では,T2I出力の社会的バイアスを評価するために,理論駆動型バイアス検出ルーブリックと社会ステレオタイプ指標(SSI)を提案する。
我々は,T2Iモデルの3つの主要なアウトプットを,地理的・職業的・形容詞的な3つのカテゴリにわたる100のクエリを用いて監査した。
迅速な改良はステレオタイプを緩和するが、コンテキストアライメントを制限することができる。
論文 参考訳(メタデータ) (2025-05-27T04:01:03Z) - RAVENEA: A Benchmark for Multimodal Retrieval-Augmented Visual Culture Understanding [79.44246283490665]
本稿では,検索による視覚文化理解の促進を目的とした新しいベンチマークであるRAVENEAを紹介する。
RAVENEAは、文化中心の視覚的質問応答(cVQA)と文化インフォームドイメージキャプション(cIC)の2つのタスクに焦点を当てている。
画像クエリ毎に7つのマルチモーダルレトリバーを訓練・評価し、14の最先端の視覚言語モデルにおける検索強化入力の下流への影響を計測する。
論文 参考訳(メタデータ) (2025-05-20T14:57:16Z) - Deconstructing Bias: A Multifaceted Framework for Diagnosing Cultural and Compositional Inequities in Text-to-Image Generative Models [3.6335172274433414]
本稿では,CIS(Component Inclusion Score)を指標として,文化的文脈における画像生成の忠実度を評価する。
我々は、構成的脆弱性と文脈的不整合の観点からバイアスを定量化し、西洋と非西洋の文化的プロンプトの間に顕著なパフォーマンスのギャップを浮き彫りにする。
論文 参考訳(メタデータ) (2025-04-05T06:17:43Z) - Seedream 2.0: A Native Chinese-English Bilingual Image Generation Foundation Model [69.09404597939744]
Seedream 2.0は、中国語と英語のバイリンガル画像生成基盤モデルである。
中国語と英語の両方でテキストプロンプトを管理し、バイリンガル画像生成とテキストレンダリングをサポートする。
テキストエンコーダとして自己開発されたバイリンガルな大規模言語モデルと統合されており、大量のデータから直接ネイティブ知識を学習することができる。
論文 参考訳(メタデータ) (2025-03-10T17:58:33Z) - What's In My Big Data? [67.04525616289949]
大規模なテキストコーパスの内容を明らかにするためのプラットフォームと16の分析セットであるWIMBD(What's In My Big Data?)を提案する。
WIMBDは2つの基本的な機能 – カウントとサーチ – を大規模に構築することで,標準的な計算ノード上で35テラバイト以上を解析することが可能になります。
これらのコーパスについて, 重複, 合成, 品質の低下など, 意外かつ未発表の発見がいくつか見出された。
論文 参考訳(メタデータ) (2023-10-31T17:59:38Z) - On the Cultural Gap in Text-to-Image Generation [75.69755281031951]
テキスト・トゥ・イメージ(T2I)生成における課題のひとつは、トレーニングデータに存在する文化ギャップの意図しない反映である。
クロスカルチャー画像を生成するT2Iモデルの能力を体系的に評価するベンチマークは存在しない。
本稿では,モデルが対象文化にどの程度適しているかを評価するため,包括的評価基準付きChallenging Cross-Cultural (C3)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-06T13:17:55Z) - Towards Equitable Representation in Text-to-Image Synthesis Models with
the Cross-Cultural Understanding Benchmark (CCUB) Dataset [8.006068032606182]
本稿では,小さいが文化的にキュレートされたデータセットを用いて,テキストと画像の合成を文化的に認識するプライミング手法を提案する。
実験の結果, テキストと画像の両方を用いたプライミングは, 文化的関連性の向上と, 生成画像の攻撃性低下に有効であることが示唆された。
論文 参考訳(メタデータ) (2023-01-28T03:10:33Z) - Minimally-Supervised Structure-Rich Text Categorization via Learning on
Text-Rich Networks [61.23408995934415]
テキストリッチネットワークから学習することで,最小限に教師付き分類を行う新しいフレームワークを提案する。
具体的には、テキスト理解のためのテキスト解析モジュールと、クラス差別的でスケーラブルなネットワーク学習のためのネットワーク学習モジュールの2つのモジュールを共同でトレーニングします。
実験の結果,1つのカテゴリに3つのシード文書しか与えられず,その精度は約92%であった。
論文 参考訳(メタデータ) (2021-02-23T04:14:34Z) - Structure-Augmented Text Representation Learning for Efficient Knowledge
Graph Completion [53.31911669146451]
人為的な知識グラフは、様々な自然言語処理タスクに重要な支援情報を提供する。
これらのグラフは通常不完全であり、自動補完を促す。
グラフ埋め込みアプローチ(例えばTransE)は、グラフ要素を密度の高い埋め込みに表現することで構造化された知識を学ぶ。
テキストエンコーディングアプローチ(KG-BERTなど)は、グラフトリプルのテキストとトリプルレベルの文脈化表現を利用する。
論文 参考訳(メタデータ) (2020-04-30T13:50:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。