論文の概要: DR-GAN: Distribution Regularization for Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2204.07945v1
- Date: Sun, 17 Apr 2022 07:14:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-19 15:10:46.150489
- Title: DR-GAN: Distribution Regularization for Text-to-Image Generation
- Title(参考訳): DR-GAN:テキスト・画像生成のための分布正規化
- Authors: Hongchen Tan, Xiuping Liu, Baocai Yin, Xin Li
- Abstract要約: 本稿では,DR-GAN(Dis Distribution Regularization Generative Adversarial Network)と呼ばれる新しいテキスト・画像生成モデルを提案する。
DR-GANではセマンティックディペンタングモジュール(SDM)と分布正規化モジュール(DNM)の2つの新しいモジュールを紹介する。
- 参考スコア(独自算出の注目度): 36.84441165440511
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a new Text-to-Image generation model, named Distribution
Regularization Generative Adversarial Network (DR-GAN), to generate images from
text descriptions from improved distribution learning. In DR-GAN, we introduce
two novel modules: a Semantic Disentangling Module (SDM) and a Distribution
Normalization Module (DNM). SDM combines the spatial self-attention mechanism
and a new Semantic Disentangling Loss (SDL) to help the generator distill key
semantic information for the image generation. DNM uses a Variational
Auto-Encoder (VAE) to normalize and denoise the image latent distribution,
which can help the discriminator better distinguish synthesized images from
real images. DNM also adopts a Distribution Adversarial Loss (DAL) to guide the
generator to align with normalized real image distributions in the latent
space. Extensive experiments on two public datasets demonstrated that our
DR-GAN achieved a competitive performance in the Text-to-Image task.
- Abstract(参考訳): 本稿では,分散正規化生成支援ネットワーク(DR-GAN)と呼ばれる新しいテキスト間画像生成モデルを提案し,改良された分散学習からテキスト記述から画像を生成する。
DR-GANではセマンティックディスタングルモジュール (SDM) と分布正規化モジュール (DNM) の2つの新しいモジュールを紹介する。
sdmは空間的自己照査機構と新しい意味疎結合損失(sdl)を組み合わせることで、画像生成のためのキー意味情報の抽出を支援する。
DNMは変分オートエンコーダ(VAE)を用いて画像潜伏分布の正規化と復調を行う。
また、DNMはDAL(Distributed Adversarial Loss)を採用し、ジェネレータを誘導し、潜在空間における正規化された実像分布と整合させる。
2つの公開データセットに対する大規模な実験により、我々のDR-GANはテキスト・トゥ・イメージ・タスクにおいて競合性能を達成した。
関連論文リスト
- DALDA: Data Augmentation Leveraging Diffusion Model and LLM with Adaptive Guidance Scaling [6.7206291284535125]
大規模言語モデル(LLM)と拡散モデル(DM)を利用した効果的なデータ拡張フレームワークを提案する。
提案手法は,合成画像の多様性を増大させる問題に対処する。
本手法は, 目標分布の付着性を維持しつつ, 多様性を向上した合成画像を生成する。
論文 参考訳(メタデータ) (2024-09-25T14:02:43Z) - I2I-Galip: Unsupervised Medical Image Translation Using Generative Adversarial CLIP [30.506544165999564]
ペアの例が存在しないため、画像から画像への翻訳は難しい作業である。
我々はイメージ・ツー・イメージ・ジェネレーティブ・アドバイザリアル・CLIP (I2I-Galip) という新しい画像・画像変換フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-19T01:44:50Z) - Binarized Diffusion Model for Image Super-Resolution [61.963833405167875]
超圧縮アルゴリズムであるバイナリ化は、高度な拡散モデル(DM)を効果的に加速する可能性を提供する
既存の二項化法では性能が著しく低下する。
画像SRのための新しいバイナライズ拡散モデルBI-DiffSRを提案する。
論文 参考訳(メタデータ) (2024-06-09T10:30:25Z) - Adversarial Supervision Makes Layout-to-Image Diffusion Models Thrive [21.49096276631859]
現行のL2Iモデルは、テキスト経由の編集性が悪いか、生成された画像と入力レイアウトとのアライメントが弱いかのいずれかである。
我々は、従来のL2I拡散モデル(ALDM)の訓練パイプラインに敵の監督を統合することを提案する。
具体的には,画像と入力レイアウトとの間の画素レベルのアライメントに対して,拡散発生器に対して明示的なフィードバックを提供するセグメンテーションに基づく判別器を用いる。
論文 参考訳(メタデータ) (2024-01-16T20:31:46Z) - Self-correcting LLM-controlled Diffusion Models [83.26605445217334]
自己補正LPM制御拡散(SLD)を導入する
SLDは、入力プロンプトから画像を生成し、プロンプトとアライメントを評価し、生成した画像の不正確性に対して自己補正を行うフレームワークである。
提案手法は, 生成数, 属性結合, 空間的関係において, 不正確な世代の大部分を補正することができる。
論文 参考訳(メタデータ) (2023-11-27T18:56:37Z) - SDDM: Score-Decomposed Diffusion Models on Manifolds for Unpaired
Image-to-Image Translation [96.11061713135385]
本研究は,画像生成時の絡み合った分布を明示的に最適化する,新しいスコア分解拡散モデルを提案する。
我々は、スコア関数の精製部分とエネルギー誘導を等しくし、多様体上の多目的最適化を可能にする。
SDDMは既存のSBDMベースの手法よりも優れており、I2Iベンチマークでは拡散ステップがはるかに少ない。
論文 参考訳(メタデータ) (2023-08-04T06:21:57Z) - Single-source Domain Expansion Network for Cross-Scene Hyperspectral
Image Classification [23.301189142107617]
広帯域高スペクトル画像(HSI)分類は注目されている。
ソースドメイン(SD)のみにモデルをトレーニングし、ターゲットドメイン(TD)に直接モデルを転送する必要がある。
ドメインの一般化の考え方に基づき、SDEnet(Single-source Domain Expansion Network)が開発され、ドメイン拡張の信頼性と有効性を保証する。
論文 参考訳(メタデータ) (2022-09-04T14:54:34Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - Cycle-Consistent Inverse GAN for Text-to-Image Synthesis [101.97397967958722]
本稿では,テキスト・ツー・イメージ・ジェネレーションとテキスト・ガイドによる画像操作を行うために,Cycle-Consistent Inverse GANの統一フレームワークを提案する。
我々は、GANの反転モデルを学び、画像をGANの潜在空間に変換し、各画像の反転潜在符号を得る。
テキスト誘導最適化モジュールでは、反転潜在符号を最適化することにより、所望のセマンティック属性を持つ画像を生成する。
論文 参考訳(メタデータ) (2021-08-03T08:38:16Z) - Multimodal Image-to-Image Translation via Mutual Information Estimation
and Maximization [16.54980086211836]
マルチモーダル画像画像変換 (Multimodal image-to-image translation, I2IT) は、ソース領域の入力画像が与えられた対象領域内の複数の可能な画像を探索する条件分布を学習することを目的としている。
このような条件分布をモデル化するために、条件生成逆ネットワーク(cGAN)がよく用いられる。
本稿では,cGANにおける潜在コードと出力画像間の相互情報を明示的に推定し,最大化する手法を提案する。
論文 参考訳(メタデータ) (2020-08-08T14:09:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。