論文の概要: Beyond Aesthetics: Cultural Competence in Text-to-Image Models
- arxiv url: http://arxiv.org/abs/2407.06863v2
- Date: Thu, 11 Jul 2024 17:57:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 12:07:17.709509
- Title: Beyond Aesthetics: Cultural Competence in Text-to-Image Models
- Title(参考訳): 美学を超えて: テキスト・画像モデルにおける文化的能力
- Authors: Nithish Kannen, Arif Ahmad, Marco Andreetto, Vinodkumar Prabhakaran, Utsav Prabhu, Adji Bousso Dieng, Pushpak Bhattacharyya, Shachi Dave,
- Abstract要約: CUBEは、テキスト・ツー・イメージ・モデルの文化的能力を評価するための最初のベンチマークである。
CUBEは、異なる地理的文化圏の8か国に関連する文化的アーティファクトをカバーしている。
CUBE-CSpaceは、文化的多様性を評価する基盤となる文化的アーティファクトのより大きなデータセットである。
- 参考スコア(独自算出の注目度): 34.98692829036475
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Text-to-Image (T2I) models are being increasingly adopted in diverse global communities where they create visual representations of their unique cultures. Current T2I benchmarks primarily focus on faithfulness, aesthetics, and realism of generated images, overlooking the critical dimension of cultural competence. In this work, we introduce a framework to evaluate cultural competence of T2I models along two crucial dimensions: cultural awareness and cultural diversity, and present a scalable approach using a combination of structured knowledge bases and large language models to build a large dataset of cultural artifacts to enable this evaluation. In particular, we apply this approach to build CUBE (CUltural BEnchmark for Text-to-Image models), a first-of-its-kind benchmark to evaluate cultural competence of T2I models. CUBE covers cultural artifacts associated with 8 countries across different geo-cultural regions and along 3 concepts: cuisine, landmarks, and art. CUBE consists of 1) CUBE-1K, a set of high-quality prompts that enable the evaluation of cultural awareness, and 2) CUBE-CSpace, a larger dataset of cultural artifacts that serves as grounding to evaluate cultural diversity. We also introduce cultural diversity as a novel T2I evaluation component, leveraging quality-weighted Vendi score. Our evaluations reveal significant gaps in the cultural awareness of existing models across countries and provide valuable insights into the cultural diversity of T2I outputs for under-specified prompts. Our methodology is extendable to other cultural regions and concepts, and can facilitate the development of T2I models that better cater to the global population.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)モデルは、さまざまなグローバルなコミュニティで採用され、独自の文化を視覚的に表現するようになっている。
現在のT2Iベンチマークは主に、文化的な能力の重要な側面を見越して、生成した画像の忠実さ、美学、リアリズムに焦点を当てている。
本稿では,文化意識と文化多様性という2つの重要な側面に沿って,T2Iモデルの文化的能力を評価する枠組みを導入するとともに,構造化知識ベースと大規模言語モデルを組み合わせたスケーラブルなアプローチを用いて,この評価を実現する。
特に,本手法を,T2Iモデルの文化的能力を評価するための第1級ベンチマークであるCUBE(Cutural BEnchmark for Text-to-Image Model)の構築に適用する。
CUBEは、異なる地理的文化圏の8か国、および3つの概念(料理、ランドマーク、芸術)に関連する文化的アーティファクトをカバーしている。
CUBEは
1)CUBE-1Kは、文化意識の評価を可能にする高品質なプロンプトのセットであり、
2)CUBE-CSpaceは、文化的多様性を評価するための基盤となる文化的アーティファクトのより大きなデータセットである。
品質重み付きベンディスコアを活用した新しいT2I評価コンポーネントとして,文化多様性も導入する。
本評価は,T2Iアウトプットの文化的多様性を,未指定のプロンプトに対して有意義な洞察を与えるとともに,既存モデルの文化的意識に重大なギャップを生じさせるものである。
我々の方法論は、他の文化地域や概念にも拡張可能であり、世界の人口により良いT2Iモデルの開発を促進することができる。
関連論文リスト
- Crossroads of Continents: Automated Artifact Extraction for Cultural Adaptation with Large Multimodal Models [22.92083941222383]
まず,67か国の9,935のイメージと10のコンセプトクラスを含む大規模データセットであるDale Streetを紹介した。
次に、人工物抽出タスクによるモデルの深い文化理解を評価し、異なる国に関連する18,000以上の人工物を特定する。
最後に,文化から文化へイメージを適応させるために,高度に構成可能なパイプラインであるCultureAdaptを提案する。
論文 参考訳(メタデータ) (2024-07-02T08:55:41Z) - From Local Concepts to Universals: Evaluating the Multicultural Understanding of Vision-Language Models [10.121734731147376]
視覚言語モデルの性能は、西欧文化のイメージに最適以下である。
様々なベンチマークが、モデルの文化的傾向をテストするために提案されているが、それらは限られた範囲の文化をカバーしている。
我々はGlobalRGベンチマークを導入し、普遍性を越えた検索と文化的な視覚的接地という2つの課題からなる。
論文 参考訳(メタデータ) (2024-06-28T23:28:28Z) - Extrinsic Evaluation of Cultural Competence in Large Language Models [53.626808086522985]
本稿では,2つのテキスト生成タスクにおける文化能力の評価に焦点をあてる。
我々は,文化,特に国籍の明示的なキューが,そのプロンプトに乱入している場合のモデル出力を評価する。
異なる国におけるアウトプットのテキスト類似性とこれらの国の文化的価値との間には弱い相関関係がある。
論文 参考訳(メタデータ) (2024-06-17T14:03:27Z) - CulturePark: Boosting Cross-cultural Understanding in Large Language Models [63.452948673344395]
本稿では,LLMを利用した文化データ収集のためのマルチエージェント通信フレームワークであるCultureParkを紹介する。
人間の信念、規範、習慣をカプセル化した高品質な異文化対話を生成する。
我々はこれらのモデルを,コンテンツモデレーション,文化的アライメント,文化教育という3つの下流課題にまたがって評価する。
論文 参考訳(メタデータ) (2024-05-24T01:49:02Z) - Massively Multi-Cultural Knowledge Acquisition & LM Benchmarking [48.21982147529661]
本稿では,多文化知識獲得のための新しいアプローチを提案する。
本手法は,文化トピックに関するウィキペディア文書からリンクページの広範囲なネットワークへ戦略的にナビゲートする。
私たちの仕事は、AIにおける文化的格差のギャップを深く理解し、橋渡しするための重要なステップです。
論文 参考訳(メタデータ) (2024-02-14T18:16:54Z) - Not All Countries Celebrate Thanksgiving: On the Cultural Dominance in
Large Language Models [89.94270049334479]
本稿では,大規模言語モデル(LLM)における文化的優位性について述べる。
LLMは、ユーザーが非英語で尋ねるときに期待する文化とは無関係な、不適切な英語文化関連の回答を提供することが多い。
論文 参考訳(メタデータ) (2023-10-19T05:38:23Z) - Navigating Cultural Chasms: Exploring and Unlocking the Cultural POV of
Text-To-Image Models [36.04866429768613]
本稿では,3つの階層(文化次元,文化領域,文化概念)にまたがる文化を特徴付けることによって,テキスト・トゥ・イメージ・モデルに埋め込まれた文化的知覚を探求する。
本稿では,CLIP空間を用いた内在的評価,ビジュアルクエスト・アンサー(VQA)モデルによる外在的評価,人的評価など,総合的な評価手法を提案する。
我々の実験は、TTIモデルにおける文化的エンコーディングの性質について、Do、What、What、Howおよび研究に関する洞察を提供し、異文化的な応用への道を開いた。
論文 参考訳(メタデータ) (2023-10-03T10:13:36Z) - Cultural Alignment in Large Language Models: An Explanatory Analysis Based on Hofstede's Cultural Dimensions [10.415002561977655]
本研究は,ホフステデの文化次元の枠組みを用いて文化的アライメントを定量化する文化アライメントテスト (Hoftede's CAT) を提案する。
我々は、米国、中国、アラブ諸国といった地域の文化的側面に対して、大規模言語モデル(LLM)を定量的に評価する。
その結果, LLMの文化的アライメントを定量化し, 説明的文化的次元におけるLCMの差異を明らかにすることができた。
論文 参考訳(メタデータ) (2023-08-25T14:50:13Z) - On the Cultural Gap in Text-to-Image Generation [75.69755281031951]
テキスト・トゥ・イメージ(T2I)生成における課題のひとつは、トレーニングデータに存在する文化ギャップの意図しない反映である。
クロスカルチャー画像を生成するT2Iモデルの能力を体系的に評価するベンチマークは存在しない。
本稿では,モデルが対象文化にどの程度適しているかを評価するため,包括的評価基準付きChallenging Cross-Cultural (C3)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-06T13:17:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。