Fugu-MT 論文翻訳(概要): ERNIE-ViLG 2.0: Improving Text-to-Image Diffusion Model with Knowledge-Enhanced Mixture-of-Denoising-Experts

論文の概要: ERNIE-ViLG 2.0: Improving Text-to-Image Diffusion Model with Knowledge-Enhanced Mixture-of-Denoising-Experts

arxiv url: http://arxiv.org/abs/2210.15257v1
Date: Thu, 27 Oct 2022 08:21:35 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-28 12:53:54.611726
Title: ERNIE-ViLG 2.0: Improving Text-to-Image Diffusion Model with Knowledge-Enhanced Mixture-of-Denoising-Experts
Title（参考訳）: ERNIE-ViLG 2.0:知識強化型混合型画像拡散モデルの改良
Authors: Zhida Feng, Zhenyu Zhang, Xintong Yu, Yewei Fang, Lanxin Li, Xuyi Chen, Yuxiang Lu, Jiaxiang Liu, Weichong Yin, Shikun Feng, Yu Sun, Hao Tian, Hua Wu, Haifeng Wang
Abstract要約: ERNIE-ViLG 2.0は中国の大規模なテキスト・画像拡散モデルである。シーン内の重要な要素について、きめ細かいテキストと視覚的な知識が組み込まれている。画像の忠実度や画像テキストのアライメントという点で、最近のモデルよりも大幅に優れています。
参考スコア（独自算出の注目度）: 41.10997747181756
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent progress in diffusion models has revolutionized the popular technology of text-to-image generation. While existing approaches could produce photorealistic high-resolution images with text conditions, there are still several open problems to be solved, which limits the further improvement of image fidelity and text relevancy. In this paper, we propose ERNIE-ViLG 2.0, a large-scale Chinese text-to-image diffusion model, which progressively upgrades the quality of generated images~by: (1) incorporating fine-grained textual and visual knowledge of key elements in the scene, and (2) utilizing different denoising experts at different denoising stages. With the proposed mechanisms, ERNIE-ViLG 2.0 not only achieves the state-of-the-art on MS-COCO with zero-shot FID score of 6.75, but also significantly outperforms recent models in terms of image fidelity and image-text alignment, with side-by-side human evaluation on the bilingual prompt set ViLG-300.
Abstract（参考訳）: 拡散モデルの最近の進歩は、テキスト・画像生成の一般的な技術に革命をもたらした。既存のアプローチでは、テキスト条件でフォトリアリスティックな高解像度画像を生成することができるが、解決すべき未解決の問題がいくつかあるため、画像の忠実度とテキスト関連性のさらなる改善が制限されている。本稿では,(1)シーンにおける重要要素の細かなテキスト的,視覚的な知識を取り入れること,(2)異なる弁別段階における異なる弁別専門家の活用などにより,生成画像の品質を段階的に向上させる,中国の大規模テキスト間拡散モデルであるernie-vilg 2.0を提案する。提案したメカニズムにより,ERNIE-ViLG 2.0 はゼロショット FID スコア 6.75 の MS-COCO 上での最先端を達成できるだけでなく,画像の忠実度や画像テキストのアライメントにおいて,バイリンガルプロンプトセット ViLG-300 を並べて評価することで,最近のモデルよりも大幅に優れていた。

関連論文リスト

Interleaving Reasoning for Better Text-to-Image Generation [83.69082794730664]
テキストベース思考と画像合成を交互に行うIRG(Interleaving Reasoning Generation)を提案する。 IRGを効果的に訓練するために,2つのサブゴールをターゲットにしたIRGL(Interleaving Reasoning Generation Learning)を提案する。実験の結果、SoTAの性能はGenEval, WISE, TIIF, GenAI-Bench, OneIG-ENで5～10ポイント向上した。
論文参考訳（メタデータ） (2025-09-08T17:56:23Z)
Single-Reference Text-to-Image Manipulation with Dual Contrastive Denoising Score [4.8677910801584385]
大規模テキスト・画像生成モデルは、多彩で高品質な画像を合成する顕著な能力を示している。本稿では,テキスト・ツー・イメージ拡散モデルのリッチな生成モデルを活用するフレームワークであるDual Contrastive Denoising Scoreを提案する。本手法は,入力画像と出力画像間のフレキシブルなコンテンツ修正と構造保存,およびゼロショット画像から画像への変換を実現する。
論文参考訳（メタデータ） (2025-08-18T08:30:07Z)
Text-Visual Semantic Constrained AI-Generated Image Quality Assessment [47.575342788480505]
本稿では,AI生成画像におけるテキスト画像の一貫性と知覚歪みの両方を包括的に評価する統合フレームワークを提案する。このアプローチでは、複数のモデルから重要な機能を統合し、2つのコアモジュールを導入することで、上記の課題に取り組む。複数のベンチマークデータセットで実施されたテストは、SC-AGIQAが既存の最先端メソッドより優れていることを示している。
論文参考訳（メタデータ） (2025-07-14T16:21:05Z)
Development and Enhancement of Text-to-Image Diffusion Models [0.0]
本研究は,テキスト・ツー・イメージ拡散モデルの開発と拡張に焦点を当てる。提案された拡張は、ジェネレーティブAIの新しいベンチマークを確立する。
論文参考訳（メタデータ） (2025-03-07T05:18:00Z)
Text Image Generation for Low-Resource Languages with Dual Translation Learning [0.0]
本研究では,高リソース言語からの実際のテキスト画像のスタイルをエミュレートすることで,低リソース言語でテキスト画像を生成する手法を提案する。このモデルのトレーニングには、2つの翻訳タスクが含まれており、平易なテキストイメージを合成または実際のテキストイメージに変換する。生成したテキスト画像の精度と多様性を高めるために,2つのガイダンス手法を導入する。
論文参考訳（メタデータ） (2024-09-26T11:23:59Z)
FBSDiff: Plug-and-Play Frequency Band Substitution of Diffusion Features for Highly Controllable Text-Driven Image Translation [19.65838242227773]
本稿では,大規模テキスト・ツー・イメージ(T2I)拡散モデルとイメージ・ツー・イメージ(I2I)パラダイムをプラグ・アンド・プレイ方式で適用する,新しい,簡潔かつ効率的なアプローチを提案する。本手法は,周波数帯域のタイプや帯域幅を調整するだけで,参照画像の導出係数と導出強度の両方を柔軟に制御できる。
論文参考訳（メタデータ） (2024-08-02T04:13:38Z)
Visual Text Generation in the Wild [67.37458807253064]
野生で高品質なテキスト画像を生成する視覚テキスト生成装置(SceneVTG)を提案する。提案したSceneVTGは、従来のレンダリングに基づく手法と最近の拡散に基づく手法を、忠実さと理性の観点から大きく上回っている。生成された画像は、テキスト検出とテキスト認識を含むタスクに優れたユーティリティを提供する。
論文参考訳（メタデータ） (2024-07-19T09:08:20Z)
ARTIST: Improving the Generation of Text-rich Images with Disentangled Diffusion Models [52.23899502520261]
テキスト構造学習に焦点を当てたARTISTという新しいフレームワークを提案する。我々は、事前訓練されたテキスト構造モデルからテキスト構造情報を同化できるように、視覚拡散モデルを微調整する。 MARIO-Evalベンチマークの実証結果は,提案手法の有効性を裏付けるものであり,様々な指標において最大15%の改善が見られた。
論文参考訳（メタデータ） (2024-06-17T19:31:24Z)
Refining Text-to-Image Generation: Towards Accurate Training-Free Glyph-Enhanced Image Generation [5.55027585813848]
視覚テキストを生成する能力は重要であり、学術的関心と幅広い実践的応用の両方を提供する。我々はLenCom-Evalというベンチマークを導入し、Lengthy と Complex Visual Text を用いて画像を生成するモデルの性能をテストする。ここでは,CLIPSスコア,OCR精度,リコール,F1スコア,精度,距離スコアの編集など,様々な評価指標に対する顕著な改善点を示す。
論文参考訳（メタデータ） (2024-03-25T04:54:49Z)
DiffuVST: Narrating Fictional Scenes with Global-History-Guided Denoising Models [6.668241588219693]
ビジュアルなストーリーテリングは、現実のイメージを超えてますます求められている。一般的に自己回帰デコーダを使用する現在の技術は、推論速度が低く、合成シーンには適していない。本稿では,一連の視覚的記述を単一条件記述プロセスとしてモデル化する拡散型システムDiffuVSTを提案する。
論文参考訳（メタデータ） (2023-12-12T08:40:38Z)
Paragraph-to-Image Generation with Information-Enriched Diffusion Model [67.9265336953134]
パラディフュージョン(英: ParaDiffusion)は、パラディフュージョンモデルである。これは、大きな言語モデルの広範囲な意味理解能力を画像生成のタスクに移すことを念頭に置いている。コードとデータセットは、長文アライメントに関するコミュニティの研究を促進するためにリリースされます。
論文参考訳（メタデータ） (2023-11-24T05:17:01Z)
Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。 PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。 PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文参考訳（メタデータ） (2022-06-22T01:11:29Z)
Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors [58.71128866226768]
近年のテキスト・ツー・イメージ生成手法は、生成した画像の忠実度とテキスト関連性を漸進的に改善している。 i)シーンの形式でテキストを補完する単純な制御機構を実現することで,これらのギャップに対処する新しいテキスト・ツー・イメージ手法を提案する。このモデルにより,512×512ピクセルの解像度で高忠実度画像を生成することができる。
論文参考訳（メタデータ） (2022-03-24T15:44:50Z)
ERNIE-ViLG: Unified Generative Pre-training for Bidirectional Vision-Language Generation [22.47279425592133]
ERNIE-ViLGは,双方向画像テキスト生成のための統合型事前学習フレームワークである。テキスト・ツー・イメージ生成プロセスにおいて,視覚的シーケンス生成器と画像再構成器を協調的に学習するエンドツーエンド・トレーニング手法を提案する。我々は,1億4500万(中国語)の画像テキストペアからなる大規模データセット上で,10ビリオンパラメータERNIE-ViLGモデルをトレーニングする。
論文参考訳（メタデータ） (2021-12-31T03:53:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。