論文の概要: Navigating Cultural Chasms: Exploring and Unlocking the Cultural POV of
Text-To-Image Models
- arxiv url: http://arxiv.org/abs/2310.01929v2
- Date: Wed, 29 Nov 2023 15:11:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 00:39:38.237309
- Title: Navigating Cultural Chasms: Exploring and Unlocking the Cultural POV of
Text-To-Image Models
- Title(参考訳): 文化キャズムのナビゲート:テキストから画像へのモデルの文化ポブの探索と解錠
- Authors: Mor Ventura and Eyal Ben-David and Anna Korhonen and Roi Reichart
- Abstract要約: 本稿では,3つの階層(文化次元,文化領域,文化概念)にまたがる文化を特徴付けることによって,テキスト・トゥ・イメージ・モデルに埋め込まれた文化的知覚を探求する。
本稿では,CLIP空間を用いた内在的評価,ビジュアルクエスト・アンサー(VQA)モデルによる外在的評価,人的評価など,総合的な評価手法を提案する。
我々の実験は、TTIモデルにおける文化的エンコーディングの性質について、Do、What、What、Howおよび研究に関する洞察を提供し、異文化的な応用への道を開いた。
- 参考スコア(独自算出の注目度): 36.04866429768613
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-To-Image (TTI) models, such as DALL-E and StableDiffusion, have
demonstrated remarkable prompt-based image generation capabilities.
Multilingual encoders may have a substantial impact on the cultural agency of
these models, as language is a conduit of culture. In this study, we explore
the cultural perception embedded in TTI models by characterizing culture across
three hierarchical tiers: cultural dimensions, cultural domains, and cultural
concepts. Based on this ontology, we derive prompt templates to unlock the
cultural knowledge in TTI models, and propose a comprehensive suite of
evaluation techniques, including intrinsic evaluations using the CLIP space,
extrinsic evaluations with a Visual-Question-Answer (VQA) model and human
assessments, to evaluate the cultural content of TTI-generated images. To
bolster our research, we introduce the CulText2I dataset, derived from four
diverse TTI models and spanning ten languages. Our experiments provide insights
regarding Do, What, Which and How research questions about the nature of
cultural encoding in TTI models, paving the way for cross-cultural applications
of these models.
- Abstract(参考訳): DALL-E や StableDiffusion のようなテキスト・ツー・イメージ(TTI)モデルは、顕著なプロンプトベースの画像生成能力を示している。
多言語エンコーダは、言語が文化の導管であるため、これらのモデルの文化機関に大きな影響を与える可能性がある。
本研究では,文化次元,文化領域,文化概念の3階層にまたがる文化を特徴付けることで,ttiモデルに埋め込まれた文化知覚について検討する。
このオントロジーに基づいて,TTIモデルにおける文化的知識を解き放つためのテンプレートを導き,CLIP空間を用いた内在的評価,ビジュアルクエスト・アンサー(VQA)モデルによる外在的評価,人的評価などの総合的評価手法を提案し,TTI生成画像の文化的内容を評価する。
そこで本研究では、4つの異なるttiモデルから派生し、10言語にまたがるcultext2iデータセットを紹介する。
実験は, ttiモデルにおける文化エンコーディングの性質について, do, what, how, and research questions on the nature of cultural encoding in tti model, paving to cross-cultural applications of these model に関する知見を提供する。
関連論文リスト
- Massively Multi-Cultural Knowledge Acquisition & LM Benchmarking [48.21982147529661]
本稿では,多文化知識獲得のための新しいアプローチを提案する。
本手法は,文化トピックに関するウィキペディア文書からリンクページの広範囲なネットワークへ戦略的にナビゲートする。
私たちの仕事は、AIにおける文化的格差のギャップを深く理解し、橋渡しするための重要なステップです。
論文 参考訳(メタデータ) (2024-02-14T18:16:54Z) - CDEval: A Benchmark for Measuring the Cultural Dimensions of Large
Language Models [43.98598363461303]
CDEvalは、大規模言語モデルの文化的側面を評価するためのベンチマークである。
GPT-4の自動生成と人間による検証の両方を取り入れて構築され、7つの領域にわたる6つの文化的次元をカバーする。
論文 参考訳(メタデータ) (2023-11-28T02:01:25Z) - Auditing and Mitigating Cultural Bias in LLMs [1.024113475677323]
GPT-4,3.5,3は、英語とプロテスタントのヨーロッパ諸国に類似した文化的価値を示す。
生成的AIの文化的偏見を回避するため,文化マッチングと進行中の文化監査を併用することを提案する。
論文 参考訳(メタデータ) (2023-11-23T16:45:56Z) - Not All Countries Celebrate Thanksgiving: On the Cultural Dominance in
Large Language Models [89.94270049334479]
本稿では,大規模言語モデル(LLM)における文化的優位性について述べる。
LLMは、ユーザーが非英語で尋ねるときに期待する文化とは無関係な、不適切な英語文化関連の回答を提供することが多い。
論文 参考訳(メタデータ) (2023-10-19T05:38:23Z) - Cultural Alignment in Large Language Models: An Explanatory Analysis
Based on Hofstede's Cultural Dimensions [11.17369336069962]
提案された文化的アライメントテスト(CAT)は、ホフステデの文化的次元の枠組みを用いて文化的アライメントを定量化する。
我々は、各国の多様な文化にまたがる最先端の大規模言語モデル(LLM)に埋め込まれた文化的価値を評価するために、我々のアプローチを適用した。
論文 参考訳(メタデータ) (2023-08-25T14:50:13Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - On the Cultural Gap in Text-to-Image Generation [75.69755281031951]
テキスト・トゥ・イメージ(T2I)生成における課題のひとつは、トレーニングデータに存在する文化ギャップの意図しない反映である。
クロスカルチャー画像を生成するT2Iモデルの能力を体系的に評価するベンチマークは存在しない。
本稿では,モデルが対象文化にどの程度適しているかを評価するため,包括的評価基準付きChallenging Cross-Cultural (C3)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-06T13:17:55Z) - EnCBP: A New Benchmark Dataset for Finer-Grained Cultural Background
Prediction in English [25.38572483508948]
文化的背景を持つ自然言語処理モデルを拡張した。
英語を話す5カ国と米国の4州で、言語表現に顕著な違いがあることが示されている。
本研究は,多種多様なNLPタスクに対する文化的背景モデリングの重要性を裏付け,文化関連研究におけるEnCBPの適用性を示すものである。
論文 参考訳(メタデータ) (2022-03-28T04:57:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。