論文の概要: DiverGAN: An Efficient and Effective Single-Stage Framework for Diverse
Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2111.09267v1
- Date: Wed, 17 Nov 2021 17:59:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-18 13:45:26.832152
- Title: DiverGAN: An Efficient and Effective Single-Stage Framework for Diverse
Text-to-Image Generation
- Title(参考訳): DiverGAN: 多様なテキスト・画像生成のための効率的かつ効果的なシングルステージフレームワーク
- Authors: Zhenxing Zhang and Lambert Schomaker
- Abstract要約: DiverGANは、自然言語による記述に従って、多様で、可塑性で、セマンティックに一貫性のある画像を生成するためのフレームワークである。
DiverGANは2つの新しいワードレベルアテンションモジュール、すなわちチャネルアテンションモジュール(CAM)とピクセルアテンションモジュール(PAM)を採用する。
条件適応型インスタンス-階層正規化(CAdaILN)を導入し、文の埋め込みから、形やテクスチャの変化量を柔軟に操作する言語的手がかりを実現する。
- 参考スコア(独自算出の注目度): 7.781425222538382
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present an efficient and effective single-stage framework
(DiverGAN) to generate diverse, plausible and semantically consistent images
according to a natural-language description. DiverGAN adopts two novel
word-level attention modules, i.e., a channel-attention module (CAM) and a
pixel-attention module (PAM), which model the importance of each word in the
given sentence while allowing the network to assign larger weights to the
significant channels and pixels semantically aligning with the salient words.
After that, Conditional Adaptive Instance-Layer Normalization (CAdaILN) is
introduced to enable the linguistic cues from the sentence embedding to
flexibly manipulate the amount of change in shape and texture, further
improving visual-semantic representation and helping stabilize the training.
Also, a dual-residual structure is developed to preserve more original visual
features while allowing for deeper networks, resulting in faster convergence
speed and more vivid details. Furthermore, we propose to plug a fully-connected
layer into the pipeline to address the lack-of-diversity problem, since we
observe that a dense layer will remarkably enhance the generative capability of
the network, balancing the trade-off between a low-dimensional random latent
code contributing to variants and modulation modules that use high-dimensional
and textual contexts to strength feature maps. Inserting a linear layer after
the second residual block achieves the best variety and quality. Both
qualitative and quantitative results on benchmark data sets demonstrate the
superiority of our DiverGAN for realizing diversity, without harming quality
and semantic consistency.
- Abstract(参考訳): 本稿では,多種多様で可塑性,セマンティックに整合した画像を生成するための,効率的かつ効果的な単一ステージフレームワーク(DiverGAN)を提案する。
diverganは2つの新しい単語レベルのアテンションモジュール、すなわちチャネルアテンションモジュール(cam)とピクセルアテンションモジュール(pam)を採用している。
その後、条件適応型インスタンス-階層正規化(CAdaILN)を導入し、文の埋め込みによる言語的手がかりを活用し、形やテクスチャの変化量を柔軟に操作し、視覚的意味表現を改善し、トレーニングの安定化を支援する。
また、より深いネットワークを実現し、より高速な収束速度とより鮮明な詳細を実現するために、よりオリジナルな視覚的特徴を保存するために二重残差構造が開発されている。
さらに,密度の高い層がネットワークの生成能力を著しく向上し,変形に寄与する低次元のランダムな潜在コードと,高次元とテクストのコンテキストを用いた変調モジュールとのトレードオフをバランスさせ,特徴マップの強化を図るため,パイプラインに完全接続した層を接続する手法を提案する。
第2残差ブロックの後に線形層を挿入すると、最良の多様性と品質が得られる。
ベンチマークデータセットの質的および定量的な結果は、品質とセマンティック一貫性を損なうことなく、多様性を実現するためのDiverGANの優位性を示している。
関連論文リスト
- ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification [52.405499816861635]
多重インスタンス学習(MIL)ベースのフレームワークは、スライド画像全体(WSI)を処理する上で主流になっている。
スライド画像全体の分類のための2次元視覚言語多言語学習(ViLa-MIL)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-12T13:28:46Z) - Improving vision-language alignment with graph spiking hybrid Networks [6.707524980629404]
本稿では,細粒度のセマンティックな特徴を生成するために,パノプティックセマンティック・セマンティック・セマンティクスの活用を必要とする包括的ビジュアルセマンティクス表現モジュールを提案する。
視覚的セマンティック情報を符号化するために,SNNとGATの相補的な利点を統合したグラフスパイキングハイブリッドネットワーク(GSHN)を提案する。
論文 参考訳(メタデータ) (2025-01-31T11:55:17Z) - Scale-wise Bidirectional Alignment Network for Referring Remote Sensing Image Segmentation [12.893224628061516]
リモートセンシング画像セグメンテーション(RRSIS)の目的は、自然言語表現を用いて、空中画像内の特定のピクセルレベル領域を抽出することである。
本稿では,これらの課題に対処するため,SBANet(Scale-wise Bidirectional Alignment Network)と呼ばれる革新的なフレームワークを提案する。
提案手法は,RRSIS-DとRefSegRSのデータセットにおける従来の最先端手法と比較して,優れた性能を実現する。
論文 参考訳(メタデータ) (2025-01-01T14:24:04Z) - Improving Diversity in Zero-Shot GAN Adaptation with Semantic Variations [61.132408427908175]
0ショットのGAN適応は、よく訓練されたジェネレータを再利用して、目に見えないターゲットドメインの画像を合成することを目的としている。
実際の画像の代わりに1つの代表的テキスト機能しか持たないため、合成された画像は徐々に多様性を損なう。
そこで本研究では,CLIP空間における対象テキストの意味的変化を見つけるための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-21T08:12:28Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z) - DTGAN: Dual Attention Generative Adversarial Networks for Text-to-Image
Generation [8.26410341981427]
Dual Attention Generative Adversarial Network (DTGAN)は高品質でセマンティックな一貫性のある画像を合成できる。
提案モデルでは,テキスト関連チャネルや画素に注目するようにジェネレータを誘導する,チャネル対応および画素対応アテンションモジュールを導入している。
生成した画像の鮮明な形状と知覚的に均一な色分布を確保することにより、画像の解像度を高めるために、新しいタイプの視覚的損失を利用する。
論文 参考訳(メタデータ) (2020-11-05T08:57:15Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。