論文の概要: ERNIE-ViLG 2.0: Improving Text-to-Image Diffusion Model with
Knowledge-Enhanced Mixture-of-Denoising-Experts
- arxiv url: http://arxiv.org/abs/2210.15257v2
- Date: Tue, 28 Mar 2023 03:31:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 19:25:58.799684
- Title: ERNIE-ViLG 2.0: Improving Text-to-Image Diffusion Model with
Knowledge-Enhanced Mixture-of-Denoising-Experts
- Title(参考訳): ERNIE-ViLG 2.0:知識強化型混合型画像拡散モデルの改良
- Authors: Zhida Feng, Zhenyu Zhang, Xintong Yu, Yewei Fang, Lanxin Li, Xuyi
Chen, Yuxiang Lu, Jiaxiang Liu, Weichong Yin, Shikun Feng, Yu Sun, Li Chen,
Hao Tian, Hua Wu, Haifeng Wang
- Abstract要約: ERNIE-ViLG 2.0は中国の大規模なテキスト・画像拡散モデルである。
シーン内の重要な要素について、きめ細かいテキストと視覚的な知識が組み込まれている。
画像の忠実度や画像テキストのアライメントという点で、最近のモデルよりも大幅に優れています。
- 参考スコア(独自算出の注目度): 45.0153019395988
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress in diffusion models has revolutionized the popular technology
of text-to-image generation. While existing approaches could produce
photorealistic high-resolution images with text conditions, there are still
several open problems to be solved, which limits the further improvement of
image fidelity and text relevancy. In this paper, we propose ERNIE-ViLG 2.0, a
large-scale Chinese text-to-image diffusion model, to progressively upgrade the
quality of generated images by: (1) incorporating fine-grained textual and
visual knowledge of key elements in the scene, and (2) utilizing different
denoising experts at different denoising stages. With the proposed mechanisms,
ERNIE-ViLG 2.0 not only achieves a new state-of-the-art on MS-COCO with
zero-shot FID score of 6.75, but also significantly outperforms recent models
in terms of image fidelity and image-text alignment, with side-by-side human
evaluation on the bilingual prompt set ViLG-300.
- Abstract(参考訳): 拡散モデルの最近の進歩は、テキスト・画像生成の一般的な技術に革命をもたらした。
既存のアプローチでは、テキスト条件でフォトリアリスティックな高解像度画像を生成することができるが、解決すべき未解決の問題がいくつかあるため、画像の忠実度とテキスト関連性のさらなる改善が制限されている。
本稿では,(1)シーンにおける重要要素の細かなテキスト的,視覚的な知識を組み込んだ画像の品質向上と,(2)異なるデノベーション段階における異なるデノベーション専門家の活用により,生成画像の品質を段階的に向上させる,大規模中国語テキスト間拡散モデルであるernie-vilg 2.0を提案する。
提案したメカニズムにより,ERNIE-ViLG 2.0 はゼロショット FID スコア 6.75 の MS-COCO 上で新たな最先端技術を達成するだけでなく,画像の忠実度や画像テキストのアライメントにおいて,バイリンガルプロンプトセット ViLG-300 を並べて評価することで,最近のモデルよりも大幅に優れていた。
関連論文リスト
- Text Image Generation for Low-Resource Languages with Dual Translation Learning [0.0]
本研究では,高リソース言語からの実際のテキスト画像のスタイルをエミュレートすることで,低リソース言語でテキスト画像を生成する手法を提案する。
このモデルのトレーニングには、2つの翻訳タスクが含まれており、平易なテキストイメージを合成または実際のテキストイメージに変換する。
生成したテキスト画像の精度と多様性を高めるために,2つのガイダンス手法を導入する。
論文 参考訳(メタデータ) (2024-09-26T11:23:59Z) - FBSDiff: Plug-and-Play Frequency Band Substitution of Diffusion Features for Highly Controllable Text-Driven Image Translation [19.65838242227773]
本稿では,大規模テキスト・ツー・イメージ(T2I)拡散モデルとイメージ・ツー・イメージ(I2I)パラダイムをプラグ・アンド・プレイ方式で適用する,新しい,簡潔かつ効率的なアプローチを提案する。
本手法は,周波数帯域のタイプや帯域幅を調整するだけで,参照画像の導出係数と導出強度の両方を柔軟に制御できる。
論文 参考訳(メタデータ) (2024-08-02T04:13:38Z) - Visual Text Generation in the Wild [67.37458807253064]
野生で高品質なテキスト画像を生成する視覚テキスト生成装置(SceneVTG)を提案する。
提案したSceneVTGは、従来のレンダリングに基づく手法と最近の拡散に基づく手法を、忠実さと理性の観点から大きく上回っている。
生成された画像は、テキスト検出とテキスト認識を含むタスクに優れたユーティリティを提供する。
論文 参考訳(メタデータ) (2024-07-19T09:08:20Z) - ARTIST: Improving the Generation of Text-rich Images with Disentangled Diffusion Models [52.23899502520261]
テキスト構造学習に焦点を当てたARTISTという新しいフレームワークを提案する。
我々は、事前訓練されたテキスト構造モデルからテキスト構造情報を同化できるように、視覚拡散モデルを微調整する。
MARIO-Evalベンチマークの実証結果は,提案手法の有効性を裏付けるものであり,様々な指標において最大15%の改善が見られた。
論文 参考訳(メタデータ) (2024-06-17T19:31:24Z) - Refining Text-to-Image Generation: Towards Accurate Training-Free Glyph-Enhanced Image Generation [5.55027585813848]
視覚テキストを生成する能力は重要であり、学術的関心と幅広い実践的応用の両方を提供する。
我々はLenCom-Evalというベンチマークを導入し、Lengthy と Complex Visual Text を用いて画像を生成するモデルの性能をテストする。
ここでは,CLIPSスコア,OCR精度,リコール,F1スコア,精度,距離スコアの編集など,様々な評価指標に対する顕著な改善点を示す。
論文 参考訳(メタデータ) (2024-03-25T04:54:49Z) - DiffuVST: Narrating Fictional Scenes with Global-History-Guided
Denoising Models [6.668241588219693]
ビジュアルなストーリーテリングは、現実のイメージを超えてますます求められている。
一般的に自己回帰デコーダを使用する現在の技術は、推論速度が低く、合成シーンには適していない。
本稿では,一連の視覚的記述を単一条件記述プロセスとしてモデル化する拡散型システムDiffuVSTを提案する。
論文 参考訳(メタデータ) (2023-12-12T08:40:38Z) - Paragraph-to-Image Generation with Information-Enriched Diffusion Model [67.9265336953134]
パラディフュージョン(英: ParaDiffusion)は、パラディフュージョンモデルである。
これは、大きな言語モデルの広範囲な意味理解能力を画像生成のタスクに移すことを念頭に置いている。
コードとデータセットは、長文アライメントに関するコミュニティの研究を促進するためにリリースされます。
論文 参考訳(メタデータ) (2023-11-24T05:17:01Z) - Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。
PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。
PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文 参考訳(メタデータ) (2022-06-22T01:11:29Z) - Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors [58.71128866226768]
近年のテキスト・ツー・イメージ生成手法は、生成した画像の忠実度とテキスト関連性を漸進的に改善している。
i)シーンの形式でテキストを補完する単純な制御機構を実現することで,これらのギャップに対処する新しいテキスト・ツー・イメージ手法を提案する。
このモデルにより,512×512ピクセルの解像度で高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-03-24T15:44:50Z) - ERNIE-ViLG: Unified Generative Pre-training for Bidirectional
Vision-Language Generation [22.47279425592133]
ERNIE-ViLGは,双方向画像テキスト生成のための統合型事前学習フレームワークである。
テキスト・ツー・イメージ生成プロセスにおいて,視覚的シーケンス生成器と画像再構成器を協調的に学習するエンドツーエンド・トレーニング手法を提案する。
我々は,1億4500万(中国語)の画像テキストペアからなる大規模データセット上で,10ビリオンパラメータERNIE-ViLGモデルをトレーニングする。
論文 参考訳(メタデータ) (2021-12-31T03:53:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。