論文の概要: On the Cultural Gap in Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2307.02971v1
- Date: Thu, 6 Jul 2023 13:17:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-07-07 14:06:53.841492
- Title: On the Cultural Gap in Text-to-Image Generation
- Title(参考訳): テキスト対画像生成における文化的ギャップについて
- Authors: Bingshuai Liu, Longyue Wang, Chenyang Lyu, Yong Zhang, Jinsong Su,
Shuming Shi, Zhaopeng Tu
- Abstract要約: テキスト・トゥ・イメージ(T2I)生成における課題のひとつは、トレーニングデータに存在する文化ギャップの意図しない反映である。
クロスカルチャー画像を生成するT2Iモデルの能力を体系的に評価するベンチマークは存在しない。
本稿では,モデルが対象文化にどの程度適しているかを評価するため,包括的評価基準付きChallenging Cross-Cultural (C3)ベンチマークを提案する。
- 参考スコア(独自算出の注目度): 75.69755281031951
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One challenge in text-to-image (T2I) generation is the inadvertent reflection
of culture gaps present in the training data, which signifies the disparity in
generated image quality when the cultural elements of the input text are rarely
collected in the training set. Although various T2I models have shown
impressive but arbitrary examples, there is no benchmark to systematically
evaluate a T2I model's ability to generate cross-cultural images. To bridge the
gap, we propose a Challenging Cross-Cultural (C3) benchmark with comprehensive
evaluation criteria, which can assess how well-suited a model is to a target
culture. By analyzing the flawed images generated by the Stable Diffusion model
on the C3 benchmark, we find that the model often fails to generate certain
cultural objects. Accordingly, we propose a novel multi-modal metric that
considers object-text alignment to filter the fine-tuning data in the target
culture, which is used to fine-tune a T2I model to improve cross-cultural
generation. Experimental results show that our multi-modal metric provides
stronger data selection performance on the C3 benchmark than existing metrics,
in which the object-text alignment is crucial. We release the benchmark, data,
code, and generated images to facilitate future research on culturally diverse
T2I generation (https://github.com/longyuewangdcu/C3-Bench).
- Abstract(参考訳): テキスト・トゥ・イメージ(T2I)生成における課題の1つは、トレーニングデータに存在する文化ギャップの意図しない反映であり、入力テキストの文化的要素がトレーニングセットにほとんど収集されない場合に生成された画像品質の相違を示す。
様々なT2Iモデルは印象的だが任意の例を示しているが、T2Iモデルが異文化間画像を生成する能力を体系的に評価するベンチマークは存在しない。
このギャップを埋めるために、モデルが対象文化にどの程度適しているかを評価するための総合的な評価基準を備えたChallenging Cross-Cultural (C3)ベンチマークを提案する。
C3ベンチマークで安定拡散モデルによって生成された欠陥画像を解析することにより、そのモデルが特定の文化オブジェクトを生成するのに失敗することが多いことが分かる。
そこで本稿では,t2iモデルを微調整して異文化生成を改善するために,対象文化の微調整データをフィルタするために,オブジェクト・テキストアライメントを考慮した新しいマルチモーダル・メトリックを提案する。
実験結果から,我々のマルチモーダル・メトリックは既存の指標よりもC3ベンチマーク上でより強力なデータ選択性能を提供することが示された。
このベンチマーク、データ、コード、生成した画像は、文化的に多様なT2I世代(https://github.com/longyuewangdcu/C3-Bench.com)の今後の研究を促進する。
関連論文リスト
- CAIRe: Cultural Attribution of Images by Retrieval-Augmented Evaluation [61.130639734982395]
本稿では,画像の文化的関連度を評価する新しい評価指標であるCAIReを紹介する。
本フレームワークは,イメージ内の実体と概念を知識ベースに基盤として,実情報を用いて各文化ラベルに対して独立した評価を行う。
論文 参考訳(メタデータ) (2025-06-10T17:16:23Z) - CulturalFrames: Assessing Cultural Expectation Alignment in Text-to-Image Models and Evaluation Metrics [23.567641319277943]
我々は、明示的および暗黙的な文化的期待の両方に関して、テキスト・ツー・イメージ(T2I)モデルと評価指標のアライメントを定量化する。
本稿では,視覚世代における文化的表現の厳密な評価を目的とした新しいベンチマークであるCulturalFramesを紹介する。
T2Iモデルは、より挑戦的な暗黙的な期待を満たさないだけでなく、より挑戦的な明示的な期待を満たさないことが分かっています。
論文 参考訳(メタデータ) (2025-06-10T14:21:46Z) - CuRe: Cultural Gaps in the Long Tail of Text-to-Image Systems [28.181690831408833]
CuReは、文化的代表性のためのベンチマークとスコアリングスイートである。
我々のデータセットは、32の文化サブカテゴリにまたがる300の文化的アーティファクトを6つの広い文化軸に分類している。
我々は,視覚的類似性,イメージテキストのアライメント,文化的多様性の人的判断に対する,得点者の階級の強い相関を経験的に観察した。
論文 参考訳(メタデータ) (2025-06-09T17:54:41Z) - CRAFT: Cultural Russian-Oriented Dataset Adaptation for Focused Text-to-Image Generation [3.566419648777424]
文化規範の概念を考察し,現代画像生成モデルによる理解の重要性を認識した。
本稿では,文化コードに基づくデータセット作成に必要なデータを収集・処理する手法を提案する。
人的評価の結果は、モデルにおけるロシア文化の認知度の増加を示す。
論文 参考訳(メタデータ) (2025-05-07T23:29:28Z) - Deconstructing Bias: A Multifaceted Framework for Diagnosing Cultural and Compositional Inequities in Text-to-Image Generative Models [3.6335172274433414]
本稿では,CIS(Component Inclusion Score)を指標として,文化的文脈における画像生成の忠実度を評価する。
我々は、構成的脆弱性と文脈的不整合の観点からバイアスを定量化し、西洋と非西洋の文化的プロンプトの間に顕著なパフォーマンスのギャップを浮き彫りにする。
論文 参考訳(メタデータ) (2025-04-05T06:17:43Z) - EvalMuse-40K: A Reliable and Fine-Grained Benchmark with Comprehensive Human Annotations for Text-to-Image Generation Model Evaluation [29.176750442205325]
本研究では,EvalMuse-40Kベンチマークにコントリビュートし,画像テキストアライメントに関連するタスクに対して,微粒な人間のアノテーションを用いた40K画像テキストペアを収集する。
本稿では,T2Iモデルの画像テキストアライメント機能を評価するための2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2024-12-24T04:08:25Z) - Image Regeneration: Evaluating Text-to-Image Model via Generating Identical Image with Multimodal Large Language Models [54.052963634384945]
画像再生タスクを導入し,テキスト・ツー・イメージ・モデルの評価を行う。
我々はGPT4Vを用いて参照画像とT2Iモデルのテキスト入力のギャップを埋める。
また、生成した画像の品質を高めるために、ImageRepainterフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-14T13:52:43Z) - Beyond Aesthetics: Cultural Competence in Text-to-Image Models [34.98692829036475]
CUBEは、テキスト・ツー・イメージ・モデルの文化的能力を評価するための最初のベンチマークである。
CUBEは、異なる地理的文化圏の8か国に関連する文化的アーティファクトをカバーしている。
CUBE-CSpaceは、文化的多様性を評価する基盤となる文化的アーティファクトのより大きなデータセットである。
論文 参考訳(メタデータ) (2024-07-09T13:50:43Z) - Refining Text-to-Image Generation: Towards Accurate Training-Free Glyph-Enhanced Image Generation [5.55027585813848]
視覚テキストを生成する能力は重要であり、学術的関心と幅広い実践的応用の両方を提供する。
我々はLenCom-Evalというベンチマークを導入し、Lengthy と Complex Visual Text を用いて画像を生成するモデルの性能をテストする。
ここでは,CLIPSスコア,OCR精度,リコール,F1スコア,精度,距離スコアの編集など,様々な評価指標に対する顕著な改善点を示す。
論文 参考訳(メタデータ) (2024-03-25T04:54:49Z) - Lost in Translation? Translation Errors and Challenges for Fair Assessment of Text-to-Image Models on Multilingual Concepts [107.32683485639654]
テキスト・トゥ・イメージ(T2I)モデルの多言語能力のベンチマークは、テスト言語で生成された画像と概念集合上の期待画像分布を比較した。
このようなベンチマークの一つである"Conceptual Coverage Across Languages" (CoCo-CroLa)は、7つの言語に翻訳された概念リストから画像を生成するように促すことで、T2Iモデルの具体的な名詞の在庫を評価する。
このベンチマークは、スペイン語、日本語、中国語の様々な重大度の翻訳誤りを含むことがわかった。
論文 参考訳(メタデータ) (2024-03-17T05:05:11Z) - SELMA: Learning and Merging Skill-Specific Text-to-Image Experts with
Auto-Generated Data [73.23388142296535]
SELMAは、自動生成されたマルチスキル画像テキストデータセット上での微調整モデルにより、T2Iモデルの忠実度を向上させる。
SELMAは、複数のベンチマーク上での最先端T2I拡散モデルのセマンティックアライメントとテキスト忠実性を大幅に改善することを示す。
また、SELMAを介して自動コンパイルされた画像テキストペアによる微調整は、地上の真理データによる微調整に匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-03-11T17:35:33Z) - SCoFT: Self-Contrastive Fine-Tuning for Equitable Image Generation [15.02702600793921]
本稿では,モデルの既知のバイアスを自己改善に活用する,自己コントラストファインタニング(SCoFT)手法を提案する。
SCoFTは、小さなデータセットのオーバーフィッティングを防止し、データから高レベルの情報のみをエンコードし、事前訓練されたモデルでエンコードされた誤った表現から生成されたディストリビューションをシフトするように設計されている。
論文 参考訳(メタデータ) (2024-01-16T02:10:13Z) - Paragraph-to-Image Generation with Information-Enriched Diffusion Model [67.9265336953134]
パラディフュージョン(英: ParaDiffusion)は、パラディフュージョンモデルである。
これは、大きな言語モデルの広範囲な意味理解能力を画像生成のタスクに移すことを念頭に置いている。
コードとデータセットは、長文アライメントに関するコミュニティの研究を促進するためにリリースされます。
論文 参考訳(メタデータ) (2023-11-24T05:17:01Z) - Navigating Cultural Chasms: Exploring and Unlocking the Cultural POV of Text-To-Image Models [32.99865895211158]
テキスト・トゥ・イメージ(TTI)モデルに埋め込まれた文化的知覚を,3層にまたがる文化を特徴付けることによって探求する。
本稿では,CLIP空間を用いた本質的な評価を含む総合的な評価手法を提案する。
我々の研究を促進するために、CulText2Iデータセットを導入しました。
論文 参考訳(メタデータ) (2023-10-03T10:13:36Z) - Visual Programming for Text-to-Image Generation and Evaluation [73.12069620086311]
テキスト・トゥ・イメージ(T2I)生成と評価のための2つの新しい解釈可能・説明可能なビジュアル・プログラミング・フレームワークを提案する。
まず,T2I生成をオブジェクト/カウント生成,レイアウト生成,画像生成という3つのステップに分解する,解釈可能なステップバイステップT2I生成フレームワークであるVPGenを紹介する。
第2に、視覚プログラミングに基づくT2I生成のための解釈可能かつ説明可能な評価フレームワークであるVPEvalを紹介する。
論文 参考訳(メタデータ) (2023-05-24T16:42:17Z) - Towards Equitable Representation in Text-to-Image Synthesis Models with
the Cross-Cultural Understanding Benchmark (CCUB) Dataset [8.006068032606182]
本稿では,小さいが文化的にキュレートされたデータセットを用いて,テキストと画像の合成を文化的に認識するプライミング手法を提案する。
実験の結果, テキストと画像の両方を用いたプライミングは, 文化的関連性の向上と, 生成画像の攻撃性低下に有効であることが示唆された。
論文 参考訳(メタデータ) (2023-01-28T03:10:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。