論文の概要: GR-GAN: Gradual Refinement Text-to-image Generation
- arxiv url: http://arxiv.org/abs/2205.11273v1
- Date: Mon, 23 May 2022 12:42:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-24 15:11:28.566255
- Title: GR-GAN: Gradual Refinement Text-to-image Generation
- Title(参考訳): GR-GAN: グラフィカル・リファインメント・テキスト・ツー・イメージ・ジェネレーション
- Authors: Bo Yang, Fangxiang Feng, Xiaojie Wang
- Abstract要約: 本稿では, この問題を効果的に緩和するために, GR-GAN(Gradual Refinement Generative Adversarial Network)を提案する。
GRGモジュールは、対応するテキスト制約で低解像度から高解像度の画像を生成するように設計されている。
ITMモジュールは、文-画像レベルと単語-領域レベルの両方で画像-テキスト整合損失を提供するように設計されている。
- 参考スコア(独自算出の注目度): 15.99543073122574
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: A good Text-to-Image model should not only generate high quality images, but
also ensure the consistency between the text and the generated image. Previous
models failed to simultaneously fix both sides well. This paper proposes a
Gradual Refinement Generative Adversarial Network (GR-GAN) to alleviates the
problem efficiently. A GRG module is designed to generate images from low
resolution to high resolution with the corresponding text constraints from
coarse granularity (sentence) to fine granularity (word) stage by stage, a ITM
module is designed to provide image-text matching losses at both sentence-image
level and word-region level for corresponding stages. We also introduce a new
metric Cross-Model Distance (CMD) for simultaneously evaluating image quality
and image-text consistency. Experimental results show GR-GAN significant
outperform previous models, and achieve new state-of-the-art on both FID and
CMD. A detailed analysis demonstrates the efficiency of different generation
stages in GR-GAN.
- Abstract(参考訳): 優れたテキスト対画像モデルでは、高品質な画像を生成するだけでなく、テキストと生成された画像の一貫性を確保する必要がある。
以前のモデルは両サイドを良好に固定できなかった。
本稿では, この問題を効率よく緩和するグラデーショナル・リファインメント・ジェネレータ・ネットワーク(GR-GAN)を提案する。
GRGモジュールは、粗粒度(文)から細粒度(語)までの対応するテキスト制約で低解像度から高解像度の画像を生成するように設計され、IMMモジュールは、対応する段階の文画像レベルと単語領域レベルの画像テキスト一致損失を提供するように設計されている。
また,画像品質と画像テキストの一貫性を同時に評価する新しいメトリッククロスモデル距離(cmd)を提案する。
実験の結果,GR-GANは従来のモデルよりも優れており,FIDとCMDの両方で新たな最先端を実現することができた。
GR-GANの異なる生成段階の効率を詳細に分析した。
関連論文リスト
- Hierarchical Vision-Language Alignment for Text-to-Image Generation via Diffusion Models [0.7366405857677226]
Vision-Language Aligned Diffusion(VLAD)モデルは、デュアルストリーム戦略を通じて課題に対処する生成フレームワークである。
VLADはテキストプロンプトをグローバルおよびローカルな表現に分解し、視覚的特徴と正確に一致させる。
高忠実度画像を生成するための階層的ガイダンスを備えた多段階拡散プロセスが組み込まれている。
論文 参考訳(メタデータ) (2025-01-01T18:27:13Z) - Image Regeneration: Evaluating Text-to-Image Model via Generating Identical Image with Multimodal Large Language Models [54.052963634384945]
画像再生タスクを導入し,テキスト・ツー・イメージ・モデルの評価を行う。
我々はGPT4Vを用いて参照画像とT2Iモデルのテキスト入力のギャップを埋める。
また、生成した画像の品質を高めるために、ImageRepainterフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-14T13:52:43Z) - Translatotron-V(ison): An End-to-End Model for In-Image Machine Translation [81.45400849638347]
In-image Machine Translation (IIMT) は、ソース言語のテキストを含む画像をターゲット言語の翻訳を含む画像に変換することを目的としている。
本稿では,4つのモジュールからなるエンドツーエンドIIMTモデルを提案する。
本モデルでは,70.9%のパラメータしか持たないカスケードモデルと比較して競争性能が向上し,画素レベルのエンド・ツー・エンドIIMTモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-07-03T08:15:39Z) - G-Refine: A General Quality Refiner for Text-to-Image Generation [74.16137826891827]
G-Refineは,高画質画像の整合性を損なうことなく,低画質画像の高精細化を図った汎用画像精細機である。
このモデルは、知覚品質指標、アライメント品質指標、一般的な品質向上モジュールの3つの相互接続モジュールで構成されている。
大規模な実験により、G-Refine以降のAIGIは、4つのデータベースで10以上の品質指標でパフォーマンスが向上していることが明らかになった。
論文 参考訳(メタデータ) (2024-04-29T00:54:38Z) - Refining Text-to-Image Generation: Towards Accurate Training-Free Glyph-Enhanced Image Generation [5.55027585813848]
視覚テキストを生成する能力は重要であり、学術的関心と幅広い実践的応用の両方を提供する。
我々はLenCom-Evalというベンチマークを導入し、Lengthy と Complex Visual Text を用いて画像を生成するモデルの性能をテストする。
ここでは,CLIPSスコア,OCR精度,リコール,F1スコア,精度,距離スコアの編集など,様々な評価指標に対する顕著な改善点を示す。
論文 参考訳(メタデータ) (2024-03-25T04:54:49Z) - RealignDiff: Boosting Text-to-Image Diffusion Model with Coarse-to-fine Semantic Re-alignment [112.45442468794658]
本稿では,RealignDiffという2段階の粗大なセマンティックアライメント手法を提案する。
粗いセマンティックリアライメントフェーズにおいて、生成された画像キャプションと与えられたテキストプロンプトとのセマンティックな相違を評価するために、新しいキャプション報酬を提案する。
微妙なセマンティックリアライメントステージは、局所的な密集キャプション生成モジュールと再重み付けアテンション変調モジュールを用いて、局所的なセマンティックビューから生成された画像を洗練する。
論文 参考訳(メタデータ) (2023-05-31T06:59:21Z) - Towards Better Text-Image Consistency in Text-to-Image Generation [15.735515302139335]
私たちはSemantic similarity Distance(SSD)と呼ばれる新しいCLIPベースのメトリクスを開発した。
さらに,異なる粒度で意味情報を融合できる並列深層核生成適応ネットワーク (PDF-GAN) を設計する。
我々のPDF-GANは、CUBおよびCOCOデータセットの良好な画像品質を維持しながら、テキスト画像の一貫性を著しく向上させることができる。
論文 参考訳(メタデータ) (2022-10-27T07:47:47Z) - Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。
PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。
PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文 参考訳(メタデータ) (2022-06-22T01:11:29Z) - ERNIE-ViLG: Unified Generative Pre-training for Bidirectional
Vision-Language Generation [22.47279425592133]
ERNIE-ViLGは,双方向画像テキスト生成のための統合型事前学習フレームワークである。
テキスト・ツー・イメージ生成プロセスにおいて,視覚的シーケンス生成器と画像再構成器を協調的に学習するエンドツーエンド・トレーニング手法を提案する。
我々は,1億4500万(中国語)の画像テキストペアからなる大規模データセット上で,10ビリオンパラメータERNIE-ViLGモデルをトレーニングする。
論文 参考訳(メタデータ) (2021-12-31T03:53:33Z) - Cycle-Consistent Inverse GAN for Text-to-Image Synthesis [101.97397967958722]
本稿では,テキスト・ツー・イメージ・ジェネレーションとテキスト・ガイドによる画像操作を行うために,Cycle-Consistent Inverse GANの統一フレームワークを提案する。
我々は、GANの反転モデルを学び、画像をGANの潜在空間に変換し、各画像の反転潜在符号を得る。
テキスト誘導最適化モジュールでは、反転潜在符号を最適化することにより、所望のセマンティック属性を持つ画像を生成する。
論文 参考訳(メタデータ) (2021-08-03T08:38:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。