論文の概要: Taiyi-Diffusion-XL: Advancing Bilingual Text-to-Image Generation with Large Vision-Language Model Support
- arxiv url: http://arxiv.org/abs/2401.14688v3
- Date: Tue, 18 Jun 2024 03:17:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-20 04:34:53.954446
- Title: Taiyi-Diffusion-XL: Advancing Bilingual Text-to-Image Generation with Large Vision-Language Model Support
- Title(参考訳): Taiyi-Diffusion-XL:視覚言語モデルによるバイリンガルテキスト画像生成の高速化
- Authors: Xiaojun Wu, Dixiang Zhang, Ruyi Gan, Junyu Lu, Ziwei Wu, Renliang Sun, Jiaxing Zhang, Pingjian Zhang, Yan Song,
- Abstract要約: 中国語と英語のバイリンガル・テキスト・ツー・イメージ・モデルであるTaiyi-Diffusion-XLを提案する。
CLIPとStable-Diffusion-XLの能力をバイリンガル連続事前学習のプロセスにより拡張する。
両言語画像テキスト検索においてCLIPモデルが優れていることを示す実験結果を得た。
- 参考スコア(独自算出の注目度): 35.17427411750043
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent advancements in text-to-image models have significantly enhanced image generation capabilities, yet a notable gap of open-source models persists in bilingual or Chinese language support. To address this need, we present Taiyi-Diffusion-XL, a new Chinese and English bilingual text-to-image model which is developed by extending the capabilities of CLIP and Stable-Diffusion-XL through a process of bilingual continuous pre-training. This approach includes the efficient expansion of vocabulary by integrating the most frequently used Chinese characters into CLIP's tokenizer and embedding layers, coupled with an absolute position encoding expansion. Additionally, we enrich text prompts by large vision-language model, leading to better images captions and possess higher visual quality. These enhancements are subsequently applied to downstream text-to-image models. Our empirical results indicate that the developed CLIP model excels in bilingual image-text retrieval.Furthermore, the bilingual image generation capabilities of Taiyi-Diffusion-XL surpass previous models. This research leads to the development and open-sourcing of the Taiyi-Diffusion-XL model, representing a notable advancement in the field of image generation, particularly for Chinese language applications. This contribution is a step forward in addressing the need for more diverse language support in multimodal research. The model and demonstration are made publicly available at \href{https://huggingface.co/IDEA-CCNL/Taiyi-Stable-Diffusion-XL-3.5B/}, fostering further research and collaboration in this domain.
- Abstract(参考訳): 近年のテキスト画像モデルの進歩は画像生成能力を大幅に向上させたが、バイリンガルや中国語のサポートにおいて、オープンソースモデルの顕著なギャップは持続している。
このニーズに対処するために、中国語と英語の新しいバイリンガルテキスト・トゥ・イメージモデルであるTaiyi-Diffusion-XL を、バイリンガル連続事前学習のプロセスを通じてCLIPとStable-Diffusion-XLの能力を拡張して開発する。
このアプローチは、最も頻繁に使われる漢字をCLIPのトークン化器と埋め込み層に統合し、絶対位置エンコーディング拡張と組み合わせることで、語彙の効率的な拡張を含む。
さらに、大きな視覚言語モデルによるテキストプロンプトを豊かにし、画像キャプションが向上し、視覚的品質が向上する。
これらの拡張はその後、下流のテキスト・ツー・イメージ・モデルに適用される。
実験の結果,開発されたCLIPモデルはバイリンガル画像テキスト検索に優れており,また,タイ・ディフュージョンXLのバイリンガル画像生成能力は過去のモデルより優れていた。
この研究はタイイ拡散XLモデルの開発とオープンソース化につながり、特に中国語における画像生成の分野における顕著な進歩を示している。
この貢献は、マルチモーダル研究におけるより多様な言語サポートの必要性に対処するための一歩である。
モデルとデモは \href{https://huggingface.co/IDEA-CCNL/Taiyi-Stable-Diffusion-XL-3.5B/} で公開されている。
関連論文リスト
- AnyTrans: Translate AnyText in the Image with Large Scale Models [88.5887934499388]
本稿では、画像中のタスク翻訳AnyText(TATI)のためのオール・エンコンパス・フレームワークであるAnyTransを紹介する。
我々のフレームワークは、翻訳中にテキスト要素と視覚要素の両方から文脈的手がかりを取り入れている。
6つの言語対の多言語テキスト画像翻訳データからなるMTIT6というテストデータセットを精巧にコンパイルした。
論文 参考訳(メタデータ) (2024-06-17T11:37:48Z) - Bridging Different Language Models and Generative Vision Models for
Text-to-Image Generation [12.024554708901514]
テキスト・ツー・イメージ生成のための多種多様な事前学習言語モデルと生成視覚モデルの統合を可能にするパイプラインであるLaVi-Bridgeを提案する。
私たちのパイプラインは、様々な言語モデルと生成視覚モデルと互換性があり、異なる構造を収容しています。
論文 参考訳(メタデータ) (2024-03-12T17:50:11Z) - Paragraph-to-Image Generation with Information-Enriched Diffusion Model [67.9265336953134]
パラディフュージョン(英: ParaDiffusion)は、パラディフュージョンモデルである。
これは、大きな言語モデルの広範囲な意味理解能力を画像生成のタスクに移すことを念頭に置いている。
コードとデータセットは、長文アライメントに関するコミュニティの研究を促進するためにリリースされます。
論文 参考訳(メタデータ) (2023-11-24T05:17:01Z) - Large Multilingual Models Pivot Zero-Shot Multimodal Learning across Languages [76.35234803589412]
MPMは、英語以外の言語で大規模なマルチモーダルモデルを訓練するための効果的な訓練パラダイムである。
画像・テキスト・テキスト・画像生成における大規模なマルチモーダルモデルVisCPMを構築し,中国語の最先端(オープンソース)性能を実現する。
論文 参考訳(メタデータ) (2023-08-23T09:55:41Z) - AltDiffusion: A Multilingual Text-to-Image Diffusion Model [4.534546889526814]
18の異なる言語をサポートする新しい多言語T2I拡散モデルAltDiffusionを提案する。
具体的には,知識蒸留に基づいて,まず多言語テキストエンコーダを訓練する。
次に、事前訓練された英語のみの拡散モデルにプラグインし、2段階のスキーマでモデルを訓練し、多言語機能を強化する。
論文 参考訳(メタデータ) (2023-08-19T11:52:12Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - Photorealistic Text-to-Image Diffusion Models with Deep Language
Understanding [53.170767750244366]
Imagenは、前例のないフォトリアリズムと深い言語理解を備えたテキスト間拡散モデルである。
テキスト・ツー・イメージ・モデルをより深く評価するために,テキスト・ツー・イメージ・モデルの総合的かつ挑戦的なベンチマークであるDrawBenchを紹介した。
論文 参考訳(メタデータ) (2022-05-23T17:42:53Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。