論文の概要: CulturalFrames: Assessing Cultural Expectation Alignment in Text-to-Image Models and Evaluation Metrics
- arxiv url: http://arxiv.org/abs/2506.08835v1
- Date: Tue, 10 Jun 2025 14:21:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:42.573447
- Title: CulturalFrames: Assessing Cultural Expectation Alignment in Text-to-Image Models and Evaluation Metrics
- Title(参考訳): 文化フレーム:テキスト・ツー・イメージモデルと評価指標における文化的期待整合性の評価
- Authors: Shravan Nayak, Mehar Bhatia, Xiaofeng Zhang, Verena Rieser, Lisa Anne Hendricks, Sjoerd van Steenkiste, Yash Goyal, Karolina Stańczak, Aishwarya Agrawal,
- Abstract要約: 我々は、明示的および暗黙的な文化的期待の両方に関して、テキスト・ツー・イメージ(T2I)モデルと評価指標のアライメントを定量化する。
本稿では,視覚世代における文化的表現の厳密な評価を目的とした新しいベンチマークであるCulturalFramesを紹介する。
T2Iモデルは、より挑戦的な暗黙的な期待を満たさないだけでなく、より挑戦的な明示的な期待を満たさないことが分かっています。
- 参考スコア(独自算出の注目度): 23.567641319277943
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increasing ubiquity of text-to-image (T2I) models as tools for visual content generation raises concerns about their ability to accurately represent diverse cultural contexts. In this work, we present the first study to systematically quantify the alignment of T2I models and evaluation metrics with respect to both explicit as well as implicit cultural expectations. To this end, we introduce CulturalFrames, a novel benchmark designed for rigorous human evaluation of cultural representation in visual generations. Spanning 10 countries and 5 socio-cultural domains, CulturalFrames comprises 983 prompts, 3637 corresponding images generated by 4 state-of-the-art T2I models, and over 10k detailed human annotations. We find that T2I models not only fail to meet the more challenging implicit expectations but also the less challenging explicit expectations. Across models and countries, cultural expectations are missed an average of 44% of the time. Among these failures, explicit expectations are missed at a surprisingly high average rate of 68%, while implicit expectation failures are also significant, averaging 49%. Furthermore, we demonstrate that existing T2I evaluation metrics correlate poorly with human judgments of cultural alignment, irrespective of their internal reasoning. Collectively, our findings expose critical gaps, providing actionable directions for developing more culturally informed T2I models and evaluation methodologies.
- Abstract(参考訳): 視覚コンテンツ生成ツールとしてのテキスト・ツー・イメージ(T2I)モデルの普及は、さまざまな文化的文脈を正確に表現する能力に対する懸念を提起する。
本研究では,T2Iモデルと評価指標のアライメントを,明示的および暗黙的な文化的期待の両方に対して体系的に定量化する最初の研究について述べる。
そこで我々は,視覚世代における文化的表現の厳密な評価を目的とした新しいベンチマークであるCulturalFramesを紹介する。
文化フレームは10か国5か国で、983のプロンプトと4つの最先端T2Iモデルで生成された3637の対応する画像と10万以上の詳細な人間のアノテーションで構成されている。
T2Iモデルは、より挑戦的な暗黙的な期待を満たすだけでなく、より挑戦的な明示的な期待を満たすことに失敗する。
モデルや国全体では、平均して44%の文化的な期待が失われている。
これらの障害の中で、明らかな期待は驚くほど高い平均68%で失われ、暗黙的な期待障害も重要で、平均49%である。
さらに,既存のT2I評価指標は,内的理由にかかわらず,文化的アライメントの人的判断と相関が低いことを実証した。
以上の結果から,より文化的に情報を得たT2Iモデルや評価手法の開発に有効な方向性が示唆された。
関連論文リスト
- CultureVLM: Characterizing and Improving Cultural Understanding of Vision-Language Models for over 100 Countries [63.00147630084146]
視覚言語モデル(VLM)は高度な人間とAIの相互作用を持つが、文化的な理解に苦慮している。
CultureVerseは大規模なマルチモーダルベンチマークで、682の文化的概念、188の国/地域、15の文化的概念、3の質問タイプをカバーしている。
本稿では,文化理解の大幅な向上を実現するために,我々のデータセットを微調整したVLMのシリーズであるCultureVLMを提案する。
論文 参考訳(メタデータ) (2025-01-02T14:42:37Z) - Beyond Aesthetics: Cultural Competence in Text-to-Image Models [34.98692829036475]
CUBEは、テキスト・ツー・イメージ・モデルの文化的能力を評価するための最初のベンチマークである。
CUBEは、異なる地理的文化圏の8か国に関連する文化的アーティファクトをカバーしている。
CUBE-CSpaceは、文化的多様性を評価する基盤となる文化的アーティファクトのより大きなデータセットである。
論文 参考訳(メタデータ) (2024-07-09T13:50:43Z) - CulturePark: Boosting Cross-cultural Understanding in Large Language Models [63.452948673344395]
本稿では,LLMを利用した文化データ収集のためのマルチエージェント通信フレームワークであるCultureParkを紹介する。
人間の信念、規範、習慣をカプセル化した高品質な異文化対話を生成する。
我々はこれらのモデルを,コンテンツモデレーション,文化的アライメント,文化教育という3つの下流課題にまたがって評価する。
論文 参考訳(メタデータ) (2024-05-24T01:49:02Z) - Not All Countries Celebrate Thanksgiving: On the Cultural Dominance in
Large Language Models [89.94270049334479]
本稿では,大規模言語モデル(LLM)における文化的優位性について述べる。
LLMは、ユーザーが非英語で尋ねるときに期待する文化とは無関係な、不適切な英語文化関連の回答を提供することが多い。
論文 参考訳(メタデータ) (2023-10-19T05:38:23Z) - On the Cultural Gap in Text-to-Image Generation [75.69755281031951]
テキスト・トゥ・イメージ(T2I)生成における課題のひとつは、トレーニングデータに存在する文化ギャップの意図しない反映である。
クロスカルチャー画像を生成するT2Iモデルの能力を体系的に評価するベンチマークは存在しない。
本稿では,モデルが対象文化にどの程度適しているかを評価するため,包括的評価基準付きChallenging Cross-Cultural (C3)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-06T13:17:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。