論文の概要: Navigating Cultural Chasms: Exploring and Unlocking the Cultural POV of
Text-To-Image Models
- arxiv url: http://arxiv.org/abs/2310.01929v1
- Date: Tue, 3 Oct 2023 10:13:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 15:00:00.188233
- Title: Navigating Cultural Chasms: Exploring and Unlocking the Cultural POV of
Text-To-Image Models
- Title(参考訳): 文化キャズムのナビゲート:テキストから画像へのモデルの文化ポブの探索と解錠
- Authors: Mor Ventura and Eyal Ben-David and Anna Korhonen and Roi Reichart
- Abstract要約: 本研究では,3つの階層(文化次元,文化領域,文化概念)にまたがる文化を特徴付けることによって,テキスト・トゥ・イメージ・モデルに埋め込まれた文化的知覚について検討する。
我々の実験は、これらのモデルの文化的認識、文化的区別、文化的特徴の解き放つことへの洞察を明らかにし、文化横断的な応用の可能性を公開する。
- 参考スコア(独自算出の注目度): 36.04866429768613
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-To-Image (TTI) models, exemplified by DALL-E and StableDiffusion, have
recently gained prominence for their remarkable zero-shot capabilities in
generating images guided by textual prompts. Language, as a conduit of culture,
plays a pivotal role in these models' multilingual capabilities, which in turn
shape their cultural agency. In this study, we explore the cultural perception
embedded in TTI models by characterizing culture across three hierarchical
tiers: cultural dimensions, cultural domains, and cultural concepts. We propose
a comprehensive suite of evaluation techniques, including intrinsic evaluations
using the CLIP space, extrinsic evaluations with a Visual-Question-Answer (VQA)
model, and human assessments, to discern TTI cultural perceptions. To
facilitate our research, we introduce the CulText2I dataset, derived from four
diverse TTI models and spanning ten languages. Our experiments reveal insights
into these models' cultural awareness, cultural distinctions, and the unlocking
of cultural features, releasing the potential for cross-cultural applications.
- Abstract(参考訳): DALL-EとStableDiffusionによって実証されたテキスト・ツー・イメージ(TTI)モデルは、最近、テキスト・プロンプトでガイドされた画像を生成する際、顕著なゼロショット能力で有名になった。
言語は、文化の導管として、これらのモデルの多言語能力において重要な役割を担い、それによって文化機関を形成する。
本研究では,文化次元,文化領域,文化概念の3階層にまたがる文化を特徴付けることで,ttiモデルに埋め込まれた文化知覚について検討する。
本稿では,映像空間を用いた内在的評価,視覚問答(vqa)モデルを用いた超臨場感評価,格子文化知覚の識別のための人間評価など,総合的な評価手法を提案する。
そこで本研究では,4つのTTIモデルから派生したCulText2Iデータセットについて紹介する。
我々の実験は、これらのモデルの文化的認識、文化的区別、文化的特徴の解き放つことへの洞察を明らかにし、文化横断的な応用の可能性を公開する。
関連論文リスト
- CROPE: Evaluating In-Context Adaptation of Vision and Language Models to Culture-Specific Concepts [45.77570690529597]
文化固有の概念の知識を探索するための視覚的質問応答ベンチマークであるCROPEを紹介する。
いくつかの最先端のオープンビジョンと言語モデルの評価は、文化固有の概念と共通の概念の相違が大きいことを示す。
文脈知識を用いた実験は、モデルがマルチモーダル情報を効果的に活用し、文化固有の概念を描写に結びつけるのに苦労していることを示している。
論文 参考訳(メタデータ) (2024-10-20T17:31:19Z) - Beyond Aesthetics: Cultural Competence in Text-to-Image Models [34.98692829036475]
CUBEは、テキスト・ツー・イメージ・モデルの文化的能力を評価するための最初のベンチマークである。
CUBEは、異なる地理的文化圏の8か国に関連する文化的アーティファクトをカバーしている。
CUBE-CSpaceは、文化的多様性を評価する基盤となる文化的アーティファクトのより大きなデータセットである。
論文 参考訳(メタデータ) (2024-07-09T13:50:43Z) - From Local Concepts to Universals: Evaluating the Multicultural Understanding of Vision-Language Models [10.121734731147376]
視覚言語モデルの性能は、西欧文化のイメージに最適以下である。
様々なベンチマークが、モデルの文化的傾向をテストするために提案されているが、それらは限られた範囲の文化をカバーしている。
我々はGlobalRGベンチマークを導入し、普遍性を越えた検索と文化的な視覚的接地という2つの課題からなる。
論文 参考訳(メタデータ) (2024-06-28T23:28:28Z) - Extrinsic Evaluation of Cultural Competence in Large Language Models [53.626808086522985]
本稿では,2つのテキスト生成タスクにおける文化能力の評価に焦点をあてる。
我々は,文化,特に国籍の明示的なキューが,そのプロンプトに乱入している場合のモデル出力を評価する。
異なる国におけるアウトプットのテキスト類似性とこれらの国の文化的価値との間には弱い相関関係がある。
論文 参考訳(メタデータ) (2024-06-17T14:03:27Z) - CulturePark: Boosting Cross-cultural Understanding in Large Language Models [63.452948673344395]
本稿では,LLMを利用した文化データ収集のためのマルチエージェント通信フレームワークであるCultureParkを紹介する。
人間の信念、規範、習慣をカプセル化した高品質な異文化対話を生成する。
我々はこれらのモデルを,コンテンツモデレーション,文化的アライメント,文化教育という3つの下流課題にまたがって評価する。
論文 参考訳(メタデータ) (2024-05-24T01:49:02Z) - CIVICS: Building a Dataset for Examining Culturally-Informed Values in Large Language Models [59.22460740026037]
大規模言語モデル(LLM)の社会的・文化的変動を評価するためのデータセット「CIVICS:文化インフォームド・バリュース・インクルーシブ・コーパス・フォー・ソシエティ・インパクト」
我々は、LGBTQIの権利、社会福祉、移民、障害権利、代理など、特定の社会的に敏感なトピックに対処する、手作りの多言語プロンプトのデータセットを作成します。
論文 参考訳(メタデータ) (2024-05-22T20:19:10Z) - Massively Multi-Cultural Knowledge Acquisition & LM Benchmarking [48.21982147529661]
本稿では,多文化知識獲得のための新しいアプローチを提案する。
本手法は,文化トピックに関するウィキペディア文書からリンクページの広範囲なネットワークへ戦略的にナビゲートする。
私たちの仕事は、AIにおける文化的格差のギャップを深く理解し、橋渡しするための重要なステップです。
論文 参考訳(メタデータ) (2024-02-14T18:16:54Z) - Cultural Alignment in Large Language Models: An Explanatory Analysis Based on Hofstede's Cultural Dimensions [10.415002561977655]
本研究は,ホフステデの文化次元の枠組みを用いて文化的アライメントを定量化する文化アライメントテスト (Hoftede's CAT) を提案する。
我々は、米国、中国、アラブ諸国といった地域の文化的側面に対して、大規模言語モデル(LLM)を定量的に評価する。
その結果, LLMの文化的アライメントを定量化し, 説明的文化的次元におけるLCMの差異を明らかにすることができた。
論文 参考訳(メタデータ) (2023-08-25T14:50:13Z) - On the Cultural Gap in Text-to-Image Generation [75.69755281031951]
テキスト・トゥ・イメージ(T2I)生成における課題のひとつは、トレーニングデータに存在する文化ギャップの意図しない反映である。
クロスカルチャー画像を生成するT2Iモデルの能力を体系的に評価するベンチマークは存在しない。
本稿では,モデルが対象文化にどの程度適しているかを評価するため,包括的評価基準付きChallenging Cross-Cultural (C3)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-06T13:17:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。