論文の概要: Navigating Cultural Chasms: Exploring and Unlocking the Cultural POV of
Text-To-Image Models
- arxiv url: http://arxiv.org/abs/2310.01929v2
- Date: Wed, 29 Nov 2023 15:11:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 00:39:38.237309
- Title: Navigating Cultural Chasms: Exploring and Unlocking the Cultural POV of
Text-To-Image Models
- Title(参考訳): 文化キャズムのナビゲート:テキストから画像へのモデルの文化ポブの探索と解錠
- Authors: Mor Ventura and Eyal Ben-David and Anna Korhonen and Roi Reichart
- Abstract要約: 本稿では,3つの階層(文化次元,文化領域,文化概念)にまたがる文化を特徴付けることによって,テキスト・トゥ・イメージ・モデルに埋め込まれた文化的知覚を探求する。
本稿では,CLIP空間を用いた内在的評価,ビジュアルクエスト・アンサー(VQA)モデルによる外在的評価,人的評価など,総合的な評価手法を提案する。
我々の実験は、TTIモデルにおける文化的エンコーディングの性質について、Do、What、What、Howおよび研究に関する洞察を提供し、異文化的な応用への道を開いた。
- 参考スコア(独自算出の注目度): 36.04866429768613
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-To-Image (TTI) models, such as DALL-E and StableDiffusion, have
demonstrated remarkable prompt-based image generation capabilities.
Multilingual encoders may have a substantial impact on the cultural agency of
these models, as language is a conduit of culture. In this study, we explore
the cultural perception embedded in TTI models by characterizing culture across
three hierarchical tiers: cultural dimensions, cultural domains, and cultural
concepts. Based on this ontology, we derive prompt templates to unlock the
cultural knowledge in TTI models, and propose a comprehensive suite of
evaluation techniques, including intrinsic evaluations using the CLIP space,
extrinsic evaluations with a Visual-Question-Answer (VQA) model and human
assessments, to evaluate the cultural content of TTI-generated images. To
bolster our research, we introduce the CulText2I dataset, derived from four
diverse TTI models and spanning ten languages. Our experiments provide insights
regarding Do, What, Which and How research questions about the nature of
cultural encoding in TTI models, paving the way for cross-cultural applications
of these models.
- Abstract(参考訳): DALL-E や StableDiffusion のようなテキスト・ツー・イメージ(TTI)モデルは、顕著なプロンプトベースの画像生成能力を示している。
多言語エンコーダは、言語が文化の導管であるため、これらのモデルの文化機関に大きな影響を与える可能性がある。
本研究では,文化次元,文化領域,文化概念の3階層にまたがる文化を特徴付けることで,ttiモデルに埋め込まれた文化知覚について検討する。
このオントロジーに基づいて,TTIモデルにおける文化的知識を解き放つためのテンプレートを導き,CLIP空間を用いた内在的評価,ビジュアルクエスト・アンサー(VQA)モデルによる外在的評価,人的評価などの総合的評価手法を提案し,TTI生成画像の文化的内容を評価する。
そこで本研究では、4つの異なるttiモデルから派生し、10言語にまたがるcultext2iデータセットを紹介する。
実験は, ttiモデルにおける文化エンコーディングの性質について, do, what, how, and research questions on the nature of cultural encoding in tti model, paving to cross-cultural applications of these model に関する知見を提供する。
関連論文リスト
- CROPE: Evaluating In-Context Adaptation of Vision and Language Models to Culture-Specific Concepts [45.77570690529597]
文化固有の概念の知識を探索するための視覚的質問応答ベンチマークであるCROPEを紹介する。
いくつかの最先端のオープンビジョンと言語モデルの評価は、文化固有の概念と共通の概念の相違が大きいことを示す。
文脈知識を用いた実験は、モデルがマルチモーダル情報を効果的に活用し、文化固有の概念を描写に結びつけるのに苦労していることを示している。
論文 参考訳(メタデータ) (2024-10-20T17:31:19Z) - Beyond Aesthetics: Cultural Competence in Text-to-Image Models [34.98692829036475]
CUBEは、テキスト・ツー・イメージ・モデルの文化的能力を評価するための最初のベンチマークである。
CUBEは、異なる地理的文化圏の8か国に関連する文化的アーティファクトをカバーしている。
CUBE-CSpaceは、文化的多様性を評価する基盤となる文化的アーティファクトのより大きなデータセットである。
論文 参考訳(メタデータ) (2024-07-09T13:50:43Z) - From Local Concepts to Universals: Evaluating the Multicultural Understanding of Vision-Language Models [10.121734731147376]
視覚言語モデルの性能は、西欧文化のイメージに最適以下である。
様々なベンチマークが、モデルの文化的傾向をテストするために提案されているが、それらは限られた範囲の文化をカバーしている。
我々はGlobalRGベンチマークを導入し、普遍性を越えた検索と文化的な視覚的接地という2つの課題からなる。
論文 参考訳(メタデータ) (2024-06-28T23:28:28Z) - Extrinsic Evaluation of Cultural Competence in Large Language Models [53.626808086522985]
本稿では,2つのテキスト生成タスクにおける文化能力の評価に焦点をあてる。
我々は,文化,特に国籍の明示的なキューが,そのプロンプトに乱入している場合のモデル出力を評価する。
異なる国におけるアウトプットのテキスト類似性とこれらの国の文化的価値との間には弱い相関関係がある。
論文 参考訳(メタデータ) (2024-06-17T14:03:27Z) - CulturePark: Boosting Cross-cultural Understanding in Large Language Models [63.452948673344395]
本稿では,LLMを利用した文化データ収集のためのマルチエージェント通信フレームワークであるCultureParkを紹介する。
人間の信念、規範、習慣をカプセル化した高品質な異文化対話を生成する。
我々はこれらのモデルを,コンテンツモデレーション,文化的アライメント,文化教育という3つの下流課題にまたがって評価する。
論文 参考訳(メタデータ) (2024-05-24T01:49:02Z) - CIVICS: Building a Dataset for Examining Culturally-Informed Values in Large Language Models [59.22460740026037]
大規模言語モデル(LLM)の社会的・文化的変動を評価するためのデータセット「CIVICS:文化インフォームド・バリュース・インクルーシブ・コーパス・フォー・ソシエティ・インパクト」
我々は、LGBTQIの権利、社会福祉、移民、障害権利、代理など、特定の社会的に敏感なトピックに対処する、手作りの多言語プロンプトのデータセットを作成します。
論文 参考訳(メタデータ) (2024-05-22T20:19:10Z) - Massively Multi-Cultural Knowledge Acquisition & LM Benchmarking [48.21982147529661]
本稿では,多文化知識獲得のための新しいアプローチを提案する。
本手法は,文化トピックに関するウィキペディア文書からリンクページの広範囲なネットワークへ戦略的にナビゲートする。
私たちの仕事は、AIにおける文化的格差のギャップを深く理解し、橋渡しするための重要なステップです。
論文 参考訳(メタデータ) (2024-02-14T18:16:54Z) - Cultural Alignment in Large Language Models: An Explanatory Analysis Based on Hofstede's Cultural Dimensions [10.415002561977655]
本研究は,ホフステデの文化次元の枠組みを用いて文化的アライメントを定量化する文化アライメントテスト (Hoftede's CAT) を提案する。
我々は、米国、中国、アラブ諸国といった地域の文化的側面に対して、大規模言語モデル(LLM)を定量的に評価する。
その結果, LLMの文化的アライメントを定量化し, 説明的文化的次元におけるLCMの差異を明らかにすることができた。
論文 参考訳(メタデータ) (2023-08-25T14:50:13Z) - On the Cultural Gap in Text-to-Image Generation [75.69755281031951]
テキスト・トゥ・イメージ(T2I)生成における課題のひとつは、トレーニングデータに存在する文化ギャップの意図しない反映である。
クロスカルチャー画像を生成するT2Iモデルの能力を体系的に評価するベンチマークは存在しない。
本稿では,モデルが対象文化にどの程度適しているかを評価するため,包括的評価基準付きChallenging Cross-Cultural (C3)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-06T13:17:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。