論文の概要: AltDiffusion: A Multilingual Text-to-Image Diffusion Model
- arxiv url: http://arxiv.org/abs/2308.09991v2
- Date: Wed, 23 Aug 2023 05:19:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-24 11:23:16.529320
- Title: AltDiffusion: A Multilingual Text-to-Image Diffusion Model
- Title(参考訳): AltDiffusion: 多言語テキスト・画像拡散モデル
- Authors: Fulong Ye, Guang Liu, Xinya Wu, Ledell Wu
- Abstract要約: 18の異なる言語をサポートする新しい多言語T2I拡散モデルAltDiffusionを提案する。
具体的には,知識蒸留に基づいて,まず多言語テキストエンコーダを訓練する。
次に、事前訓練された英語のみの拡散モデルにプラグインし、2段階のスキーマでモデルを訓練し、多言語機能を強化する。
- 参考スコア(独自算出の注目度): 4.534546889526814
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Text-to-Image(T2I) diffusion models have shown a remarkable capability
to produce photorealistic and diverse images based on text inputs. However,
existing works only support limited language input, e.g., English, Chinese, and
Japanese, leaving users beyond these languages underserved and blocking the
global expansion of T2I models. Therefore, this paper presents AltDiffusion, a
novel multilingual T2I diffusion model that supports eighteen different
languages. Specifically, we first train a multilingual text encoder based on
the knowledge distillation. Then we plug it into a pretrained English-only
diffusion model and train the model with a two-stage schema to enhance the
multilingual capability, including concept alignment and quality improvement
stage on a large-scale multilingual dataset. Furthermore, we introduce a new
benchmark, which includes Multilingual-General-18(MG-18) and
Multilingual-Cultural-18(MC-18) datasets, to evaluate the capabilities of T2I
diffusion models for generating high-quality images and capturing
culture-specific concepts in different languages. Experimental results on both
MG-18 and MC-18 demonstrate that AltDiffusion outperforms current
state-of-the-art T2I models, e.g., Stable Diffusion in multilingual
understanding, especially with respect to culture-specific concepts, while
still having comparable capability for generating high-quality images. All
source code and checkpoints could be found in
https://github.com/superhero-7/AltDiffuson.
- Abstract(参考訳): 大規模テキスト・ツー・イメージ(T2I)拡散モデルでは,テキスト入力に基づいて,フォトリアリスティックで多様な画像を生成することができる。
しかし、既存の作品では英語、中国語、日本語などの限られた言語入力しかサポートしておらず、t2iモデルのグローバルな拡張を妨げている。
そこで本研究では,18言語をサポートする新しい多言語T2I拡散モデルAltDiffusionを提案する。
具体的には,まず知識蒸留に基づいて多言語テキストエンコーダを訓練する。
次に,事前学習された英語のみの拡散モデルに接続し,2段階のスキーマでモデルを訓練し,概念アライメントや品質改善ステージを含む多言語能力を向上させる。
さらに,多言語一般18(MG-18)および多言語文化18(MC-18)データセットを含む新しいベンチマークを導入し,高品質な画像を生成し,異なる言語で文化固有の概念を捉えるためのT2I拡散モデルの有効性を評価する。
mg-18 と mc-18 の両方の実験結果は、altdiffusion が現在の最先端の t2i モデル、例えば、多言語理解における安定な拡散、特に文化特有の概念において、高品質の画像を生成するのに匹敵する能力を持っていることを証明している。
すべてのソースコードとチェックポイントはhttps://github.com/superhero-7/AltDiffusonで確認できる。
関連論文リスト
- Taiyi-Diffusion-XL: Advancing Bilingual Text-to-Image Generation with Large Vision-Language Model Support [35.17427411750043]
中国語と英語のバイリンガル・テキスト・ツー・イメージ・モデルであるTaiyi-Diffusion-XLを提案する。
CLIPとStable-Diffusion-XLの能力をバイリンガル連続事前学習のプロセスにより拡張する。
両言語画像テキスト検索においてCLIPモデルが優れていることを示す実験結果を得た。
論文 参考訳(メタデータ) (2024-01-26T07:17:50Z) - DreamDistribution: Prompt Distribution Learning for Text-to-Image
Diffusion Models [53.17454737232668]
本稿では,事前学習したT2I拡散モデルを用いて,ソフトプロンプトの集合を学習する解を提案する。
これらのプロンプトは、テキストガイドによる編集機能と、複数のディストリビューション間の変動と混合を制御する柔軟性を提供する。
また,テキスト・トゥ・3Dなどの他のタスクに対して,学習したプロンプト分布の適応性を示す。
論文 参考訳(メタデータ) (2023-12-21T12:11:00Z) - TextDiffuser-2: Unleashing the Power of Language Models for Text
Rendering [118.30923824681642]
TextDiffuser-2は、テキストレンダリングのための言語モデルのパワーを解き放つことを目的としている。
拡散モデル内の言語モデルを用いて,行レベルでの位置とテキストを符号化する。
我々は広範な実験を行い、GPT-4Vと同様に、ヒトの参加者を含むユーザスタディを取り入れた。
論文 参考訳(メタデータ) (2023-11-28T04:02:40Z) - Towards Practical and Efficient Image-to-Speech Captioning with
Vision-Language Pre-training and Multi-modal Tokens [87.52235889917223]
我々は、提案したIm2Spの出力を離散化音声単位、すなわち自己教師付き音声モデルの定量化音声特徴として設定した。
ビジョン言語による事前学習戦略により、広く使われている2つのベンチマークデータベース上で、最先端のIm2Spのパフォーマンスを新たに設定した。
論文 参考訳(メタデータ) (2023-09-15T16:48:34Z) - Large Multilingual Models Pivot Zero-Shot Multimodal Learning across Languages [76.35234803589412]
MPMは、英語以外の言語で大規模なマルチモーダルモデルを訓練するための効果的な訓練パラダイムである。
画像・テキスト・テキスト・画像生成における大規模なマルチモーダルモデルVisCPMを構築し,中国語の最先端(オープンソース)性能を実現する。
論文 参考訳(メタデータ) (2023-08-23T09:55:41Z) - LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image
Diffusion Models with Large Language Models [62.75006608940132]
本研究は,テキストから画像への拡散モデルにおいて,迅速な理解能力を高めることを提案する。
提案手法は,新たな2段階プロセスにおいて,事前訓練された大規模言語モデルを用いてグラウンドド生成を行う。
提案手法は,画像の正確な生成において,ベース拡散モデルといくつかの強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2023-05-23T03:59:06Z) - Distilling a Pretrained Language Model to a Multilingual ASR Model [3.4012007729454816]
教師のテキストモデルに埋め込まれた豊富な知識を学生の音声モデルに蒸留する。
我々は,100時間未満の音声データを持つCommonVoiceデータセットの低リソース言語20言語に対して,本手法の優位性を示す。
論文 参考訳(メタデータ) (2022-06-25T12:36:11Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。