論文の概要: Navigating Cultural Chasms: Exploring and Unlocking the Cultural POV of
Text-To-Image Models
- arxiv url: http://arxiv.org/abs/2310.01929v1
- Date: Tue, 3 Oct 2023 10:13:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 15:00:00.188233
- Title: Navigating Cultural Chasms: Exploring and Unlocking the Cultural POV of
Text-To-Image Models
- Title(参考訳): 文化キャズムのナビゲート:テキストから画像へのモデルの文化ポブの探索と解錠
- Authors: Mor Ventura and Eyal Ben-David and Anna Korhonen and Roi Reichart
- Abstract要約: 本研究では,3つの階層(文化次元,文化領域,文化概念)にまたがる文化を特徴付けることによって,テキスト・トゥ・イメージ・モデルに埋め込まれた文化的知覚について検討する。
我々の実験は、これらのモデルの文化的認識、文化的区別、文化的特徴の解き放つことへの洞察を明らかにし、文化横断的な応用の可能性を公開する。
- 参考スコア(独自算出の注目度): 36.04866429768613
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-To-Image (TTI) models, exemplified by DALL-E and StableDiffusion, have
recently gained prominence for their remarkable zero-shot capabilities in
generating images guided by textual prompts. Language, as a conduit of culture,
plays a pivotal role in these models' multilingual capabilities, which in turn
shape their cultural agency. In this study, we explore the cultural perception
embedded in TTI models by characterizing culture across three hierarchical
tiers: cultural dimensions, cultural domains, and cultural concepts. We propose
a comprehensive suite of evaluation techniques, including intrinsic evaluations
using the CLIP space, extrinsic evaluations with a Visual-Question-Answer (VQA)
model, and human assessments, to discern TTI cultural perceptions. To
facilitate our research, we introduce the CulText2I dataset, derived from four
diverse TTI models and spanning ten languages. Our experiments reveal insights
into these models' cultural awareness, cultural distinctions, and the unlocking
of cultural features, releasing the potential for cross-cultural applications.
- Abstract(参考訳): DALL-EとStableDiffusionによって実証されたテキスト・ツー・イメージ(TTI)モデルは、最近、テキスト・プロンプトでガイドされた画像を生成する際、顕著なゼロショット能力で有名になった。
言語は、文化の導管として、これらのモデルの多言語能力において重要な役割を担い、それによって文化機関を形成する。
本研究では,文化次元,文化領域,文化概念の3階層にまたがる文化を特徴付けることで,ttiモデルに埋め込まれた文化知覚について検討する。
本稿では,映像空間を用いた内在的評価,視覚問答(vqa)モデルを用いた超臨場感評価,格子文化知覚の識別のための人間評価など,総合的な評価手法を提案する。
そこで本研究では,4つのTTIモデルから派生したCulText2Iデータセットについて紹介する。
我々の実験は、これらのモデルの文化的認識、文化的区別、文化的特徴の解き放つことへの洞察を明らかにし、文化横断的な応用の可能性を公開する。
関連論文リスト
- What You Use is What You Get: Unforced Errors in Studying Cultural Aspects in Agile Software Development [2.9418191027447906]
文化的特徴の影響を調べることは、多面的な文化概念のために困難である。
文化的・社会的側面は、実際にの使用が成功する上で非常に重要である。
論文 参考訳(メタデータ) (2024-04-25T20:08:37Z) - CultureBank: An Online Community-Driven Knowledge Base Towards Culturally Aware Language Technologies [53.2331634010413]
CultureBankは、ユーザの自己物語に基づいて構築された知識ベースである。
TikTokから12K、Redditから1Kの文化的記述が含まれている。
今後の文化的に意識された言語技術に対する推奨事項を提示する。
論文 参考訳(メタデータ) (2024-04-23T17:16:08Z) - CULTURE-GEN: Revealing Global Cultural Perception in Language Models through Natural Language Prompting [68.37589899302161]
110か国・地域での3つのSOTAモデルの文化認識を,文化条件付き世代を通して8つの文化関連トピックについて明らかにした。
文化条件付き世代は、デフォルトの文化と区別される余分な文化を区別する言語的な「マーカー」から成り立っていることが判明した。
論文 参考訳(メタデータ) (2024-04-16T00:50:43Z) - Massively Multi-Cultural Knowledge Acquisition & LM Benchmarking [48.21982147529661]
本稿では,多文化知識獲得のための新しいアプローチを提案する。
本手法は,文化トピックに関するウィキペディア文書からリンクページの広範囲なネットワークへ戦略的にナビゲートする。
私たちの仕事は、AIにおける文化的格差のギャップを深く理解し、橋渡しするための重要なステップです。
論文 参考訳(メタデータ) (2024-02-14T18:16:54Z) - Not All Countries Celebrate Thanksgiving: On the Cultural Dominance in
Large Language Models [89.94270049334479]
本稿では,大規模言語モデル(LLM)における文化的優位性について述べる。
LLMは、ユーザーが非英語で尋ねるときに期待する文化とは無関係な、不適切な英語文化関連の回答を提供することが多い。
論文 参考訳(メタデータ) (2023-10-19T05:38:23Z) - Cultural Alignment in Large Language Models: An Explanatory Analysis Based on Hofstede's Cultural Dimensions [10.415002561977655]
本研究は,ホフステデの文化次元の枠組みを用いて文化的アライメントを定量化する文化アライメントテスト (Hoftede's CAT) を提案する。
我々は、米国、中国、アラブ諸国といった地域の文化的側面に対して、大規模言語モデル(LLM)を定量的に評価する。
その結果, LLMの文化的アライメントを定量化し, 説明的文化的次元におけるLCMの差異を明らかにすることができた。
論文 参考訳(メタデータ) (2023-08-25T14:50:13Z) - On the Cultural Gap in Text-to-Image Generation [75.69755281031951]
テキスト・トゥ・イメージ(T2I)生成における課題のひとつは、トレーニングデータに存在する文化ギャップの意図しない反映である。
クロスカルチャー画像を生成するT2Iモデルの能力を体系的に評価するベンチマークは存在しない。
本稿では,モデルが対象文化にどの程度適しているかを評価するため,包括的評価基準付きChallenging Cross-Cultural (C3)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-06T13:17:55Z) - EnCBP: A New Benchmark Dataset for Finer-Grained Cultural Background
Prediction in English [25.38572483508948]
文化的背景を持つ自然言語処理モデルを拡張した。
英語を話す5カ国と米国の4州で、言語表現に顕著な違いがあることが示されている。
本研究は,多種多様なNLPタスクに対する文化的背景モデリングの重要性を裏付け,文化関連研究におけるEnCBPの適用性を示すものである。
論文 参考訳(メタデータ) (2022-03-28T04:57:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。