論文の概要: On the Cultural Gap in Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2307.02971v1
- Date: Thu, 6 Jul 2023 13:17:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-07 14:06:53.841492
- Title: On the Cultural Gap in Text-to-Image Generation
- Title(参考訳): テキスト対画像生成における文化的ギャップについて
- Authors: Bingshuai Liu, Longyue Wang, Chenyang Lyu, Yong Zhang, Jinsong Su,
Shuming Shi, Zhaopeng Tu
- Abstract要約: テキスト・トゥ・イメージ(T2I)生成における課題のひとつは、トレーニングデータに存在する文化ギャップの意図しない反映である。
クロスカルチャー画像を生成するT2Iモデルの能力を体系的に評価するベンチマークは存在しない。
本稿では,モデルが対象文化にどの程度適しているかを評価するため,包括的評価基準付きChallenging Cross-Cultural (C3)ベンチマークを提案する。
- 参考スコア(独自算出の注目度): 75.69755281031951
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One challenge in text-to-image (T2I) generation is the inadvertent reflection
of culture gaps present in the training data, which signifies the disparity in
generated image quality when the cultural elements of the input text are rarely
collected in the training set. Although various T2I models have shown
impressive but arbitrary examples, there is no benchmark to systematically
evaluate a T2I model's ability to generate cross-cultural images. To bridge the
gap, we propose a Challenging Cross-Cultural (C3) benchmark with comprehensive
evaluation criteria, which can assess how well-suited a model is to a target
culture. By analyzing the flawed images generated by the Stable Diffusion model
on the C3 benchmark, we find that the model often fails to generate certain
cultural objects. Accordingly, we propose a novel multi-modal metric that
considers object-text alignment to filter the fine-tuning data in the target
culture, which is used to fine-tune a T2I model to improve cross-cultural
generation. Experimental results show that our multi-modal metric provides
stronger data selection performance on the C3 benchmark than existing metrics,
in which the object-text alignment is crucial. We release the benchmark, data,
code, and generated images to facilitate future research on culturally diverse
T2I generation (https://github.com/longyuewangdcu/C3-Bench).
- Abstract(参考訳): テキスト・トゥ・イメージ(T2I)生成における課題の1つは、トレーニングデータに存在する文化ギャップの意図しない反映であり、入力テキストの文化的要素がトレーニングセットにほとんど収集されない場合に生成された画像品質の相違を示す。
様々なT2Iモデルは印象的だが任意の例を示しているが、T2Iモデルが異文化間画像を生成する能力を体系的に評価するベンチマークは存在しない。
このギャップを埋めるために、モデルが対象文化にどの程度適しているかを評価するための総合的な評価基準を備えたChallenging Cross-Cultural (C3)ベンチマークを提案する。
C3ベンチマークで安定拡散モデルによって生成された欠陥画像を解析することにより、そのモデルが特定の文化オブジェクトを生成するのに失敗することが多いことが分かる。
そこで本稿では,t2iモデルを微調整して異文化生成を改善するために,対象文化の微調整データをフィルタするために,オブジェクト・テキストアライメントを考慮した新しいマルチモーダル・メトリックを提案する。
実験結果から,我々のマルチモーダル・メトリックは既存の指標よりもC3ベンチマーク上でより強力なデータ選択性能を提供することが示された。
このベンチマーク、データ、コード、生成した画像は、文化的に多様なT2I世代(https://github.com/longyuewangdcu/C3-Bench.com)の今後の研究を促進する。
関連論文リスト
- SELMA: Learning and Merging Skill-Specific Text-to-Image Experts with
Auto-Generated Data [73.23388142296535]
SELMAは、自動生成されたマルチスキル画像テキストデータセット上での微調整モデルにより、T2Iモデルの忠実度を向上させる。
SELMAは、複数のベンチマーク上での最先端T2I拡散モデルのセマンティックアライメントとテキスト忠実性を大幅に改善することを示す。
また、SELMAを介して自動コンパイルされた画像テキストペアによる微調整は、地上の真理データによる微調整に匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-03-11T17:35:33Z) - SCoFT: Self-Contrastive Fine-Tuning for Equitable Image Generation [15.02702600793921]
本稿では,モデルの既知のバイアスを自己改善に活用する,自己コントラストファインタニング(SCoFT)手法を提案する。
SCoFTは、小さなデータセットのオーバーフィッティングを防止し、データから高レベルの情報のみをエンコードし、事前訓練されたモデルでエンコードされた誤った表現から生成されたディストリビューションをシフトするように設計されている。
論文 参考訳(メタデータ) (2024-01-16T02:10:13Z) - Paragraph-to-Image Generation with Information-Enriched Diffusion Model [67.9265336953134]
パラディフュージョン(英: ParaDiffusion)は、パラディフュージョンモデルである。
これは、大きな言語モデルの広範囲な意味理解能力を画像生成のタスクに移すことを念頭に置いている。
コードとデータセットは、長文アライメントに関するコミュニティの研究を促進するためにリリースされます。
論文 参考訳(メタデータ) (2023-11-24T05:17:01Z) - Navigating Cultural Chasms: Exploring and Unlocking the Cultural POV of
Text-To-Image Models [36.04866429768613]
本稿では,3つの階層(文化次元,文化領域,文化概念)にまたがる文化を特徴付けることによって,テキスト・トゥ・イメージ・モデルに埋め込まれた文化的知覚を探求する。
本稿では,CLIP空間を用いた内在的評価,ビジュアルクエスト・アンサー(VQA)モデルによる外在的評価,人的評価など,総合的な評価手法を提案する。
我々の実験は、TTIモデルにおける文化的エンコーディングの性質について、Do、What、What、Howおよび研究に関する洞察を提供し、異文化的な応用への道を開いた。
論文 参考訳(メタデータ) (2023-10-03T10:13:36Z) - Visual Programming for Text-to-Image Generation and Evaluation [73.12069620086311]
テキスト・トゥ・イメージ(T2I)生成と評価のための2つの新しい解釈可能・説明可能なビジュアル・プログラミング・フレームワークを提案する。
まず,T2I生成をオブジェクト/カウント生成,レイアウト生成,画像生成という3つのステップに分解する,解釈可能なステップバイステップT2I生成フレームワークであるVPGenを紹介する。
第2に、視覚プログラミングに基づくT2I生成のための解釈可能かつ説明可能な評価フレームワークであるVPEvalを紹介する。
論文 参考訳(メタデータ) (2023-05-24T16:42:17Z) - Towards Equitable Representation in Text-to-Image Synthesis Models with
the Cross-Cultural Understanding Benchmark (CCUB) Dataset [8.006068032606182]
本稿では,小さいが文化的にキュレートされたデータセットを用いて,テキストと画像の合成を文化的に認識するプライミング手法を提案する。
実験の結果, テキストと画像の両方を用いたプライミングは, 文化的関連性の向上と, 生成画像の攻撃性低下に有効であることが示唆された。
論文 参考訳(メタデータ) (2023-01-28T03:10:33Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - DYPLOC: Dynamic Planning of Content Using Mixed Language Models for Text
Generation [10.477090501569284]
本稿では,少なくとも2つの課題に直面する長文意見テキスト生成の課題について検討する。
既存のニューラルジェネレーションモデルはコヒーレンスに欠けており、効率的なコンテンツプランニングが必要である。
DYPLOCは、混合言語モデルの新しい設計に基づいて出力を生成しながら、コンテンツの動的計画を行う生成フレームワークである。
論文 参考訳(メタデータ) (2021-06-01T20:56:10Z) - Towards Trustworthy Deception Detection: Benchmarking Model Robustness
across Domains, Modalities, and Languages [10.131671217810581]
我々は、ドメイン外データ、モダリティ特化特徴、および英語以外の言語に対するモデルロバスト性を評価する。
我々は、追加の画像コンテンツを入力として、ELMo埋め込みはBERTまたはGLoVeと比較して大幅に少ないエラーをもたらすことを発見しました。
論文 参考訳(メタデータ) (2021-04-23T18:05:52Z) - Learning Contextual Representations for Semantic Parsing with
Generation-Augmented Pre-Training [86.91380874390778]
本稿では,生成モデルを活用して事前学習データを生成することで,自然言語発話と表スキーマの表現を共同で学習するGAPを提案する。
実験結果に基づいて、GAP MODELを利用するニューラルセマンティクスは、SPIDERとCRITERIA-to-generationベンチマークの両方で最新の結果を得る。
論文 参考訳(メタデータ) (2020-12-18T15:53:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。