論文の概要: DiverGAN: An Efficient and Effective Single-Stage Framework for Diverse
Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2111.09267v1
- Date: Wed, 17 Nov 2021 17:59:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-18 13:45:26.832152
- Title: DiverGAN: An Efficient and Effective Single-Stage Framework for Diverse
Text-to-Image Generation
- Title(参考訳): DiverGAN: 多様なテキスト・画像生成のための効率的かつ効果的なシングルステージフレームワーク
- Authors: Zhenxing Zhang and Lambert Schomaker
- Abstract要約: DiverGANは、自然言語による記述に従って、多様で、可塑性で、セマンティックに一貫性のある画像を生成するためのフレームワークである。
DiverGANは2つの新しいワードレベルアテンションモジュール、すなわちチャネルアテンションモジュール(CAM)とピクセルアテンションモジュール(PAM)を採用する。
条件適応型インスタンス-階層正規化(CAdaILN)を導入し、文の埋め込みから、形やテクスチャの変化量を柔軟に操作する言語的手がかりを実現する。
- 参考スコア(独自算出の注目度): 7.781425222538382
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present an efficient and effective single-stage framework
(DiverGAN) to generate diverse, plausible and semantically consistent images
according to a natural-language description. DiverGAN adopts two novel
word-level attention modules, i.e., a channel-attention module (CAM) and a
pixel-attention module (PAM), which model the importance of each word in the
given sentence while allowing the network to assign larger weights to the
significant channels and pixels semantically aligning with the salient words.
After that, Conditional Adaptive Instance-Layer Normalization (CAdaILN) is
introduced to enable the linguistic cues from the sentence embedding to
flexibly manipulate the amount of change in shape and texture, further
improving visual-semantic representation and helping stabilize the training.
Also, a dual-residual structure is developed to preserve more original visual
features while allowing for deeper networks, resulting in faster convergence
speed and more vivid details. Furthermore, we propose to plug a fully-connected
layer into the pipeline to address the lack-of-diversity problem, since we
observe that a dense layer will remarkably enhance the generative capability of
the network, balancing the trade-off between a low-dimensional random latent
code contributing to variants and modulation modules that use high-dimensional
and textual contexts to strength feature maps. Inserting a linear layer after
the second residual block achieves the best variety and quality. Both
qualitative and quantitative results on benchmark data sets demonstrate the
superiority of our DiverGAN for realizing diversity, without harming quality
and semantic consistency.
- Abstract(参考訳): 本稿では,多種多様で可塑性,セマンティックに整合した画像を生成するための,効率的かつ効果的な単一ステージフレームワーク(DiverGAN)を提案する。
diverganは2つの新しい単語レベルのアテンションモジュール、すなわちチャネルアテンションモジュール(cam)とピクセルアテンションモジュール(pam)を採用している。
その後、条件適応型インスタンス-階層正規化(CAdaILN)を導入し、文の埋め込みによる言語的手がかりを活用し、形やテクスチャの変化量を柔軟に操作し、視覚的意味表現を改善し、トレーニングの安定化を支援する。
また、より深いネットワークを実現し、より高速な収束速度とより鮮明な詳細を実現するために、よりオリジナルな視覚的特徴を保存するために二重残差構造が開発されている。
さらに,密度の高い層がネットワークの生成能力を著しく向上し,変形に寄与する低次元のランダムな潜在コードと,高次元とテクストのコンテキストを用いた変調モジュールとのトレードオフをバランスさせ,特徴マップの強化を図るため,パイプラインに完全接続した層を接続する手法を提案する。
第2残差ブロックの後に線形層を挿入すると、最良の多様性と品質が得られる。
ベンチマークデータセットの質的および定量的な結果は、品質とセマンティック一貫性を損なうことなく、多様性を実現するためのDiverGANの優位性を示している。
関連論文リスト
- Multimodal generative semantic communication based on latent diffusion model [13.035207938169844]
本稿では,mm-GESCOというマルチモーダル・ジェネリック・セマンティック・コミュニケーション・フレームワークを提案する。
このフレームワークは、可視および赤外線モダル画像データのストリームを取り込み、融合したセマンティックセグメンテーションマップを生成して送信する。
受信終了時に、このフレームワークはセマンティックマップに基づいて、元のマルチモーダルイメージを再構築することができる。
論文 参考訳(メタデータ) (2024-08-10T06:23:41Z) - LVLM-empowered Multi-modal Representation Learning for Visual Place Recognition [17.388776062997813]
視覚シーンの画像データとテキスト記述を融合させることにより、識別可能なグローバル表現を構築しようとする。
モチベーションは2つある: 1) 現在のLVLM(Large Vision-Language Models)は、画像のテキスト記述を生成する際に、視覚的な指示に従う際、異常な創発的能力を示す。
有望ではあるが、マルチモーダルVPRソリューションの構築にLVLMを活用することは、効率的なマルチモーダル融合において困難である。
論文 参考訳(メタデータ) (2024-07-09T10:15:31Z) - Improving Diversity in Zero-Shot GAN Adaptation with Semantic Variations [61.132408427908175]
0ショットのGAN適応は、よく訓練されたジェネレータを再利用して、目に見えないターゲットドメインの画像を合成することを目的としている。
実際の画像の代わりに1つの代表的テキスト機能しか持たないため、合成された画像は徐々に多様性を損なう。
そこで本研究では,CLIP空間における対象テキストの意味的変化を見つけるための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-21T08:12:28Z) - Artificial-Spiking Hierarchical Networks for Vision-Language
Representation Learning [16.902924543372713]
最先端の手法は、大規模データセットの事前トレーニングによって、素晴らしいパフォーマンスを達成する。
本稿では,新しい視覚的セマンティックモジュールを導入することで,マルチモーダルアライメントのための効率的なフレームワークを提案する。
実験の結果、提案されたASH-Netsは競合する結果が得られることが示された。
論文 参考訳(メタデータ) (2023-08-18T10:40:25Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - Deeply Interleaved Two-Stream Encoder for Referring Video Segmentation [87.49579477873196]
まず,CNNに基づく視覚特徴とトランスフォーマーに基づく言語特徴を階層的に抽出する2ストリームエンコーダを設計する。
視覚言語相互誘導(VLMG)モジュールをエンコーダに複数回挿入し,多モード特徴の階層的および進行的融合を促進する。
フレーム間の時間的アライメントを促進するために,言語誘導型マルチスケール動的フィルタリング(LMDF)モジュールを提案する。
論文 参考訳(メタデータ) (2022-03-30T01:06:13Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z) - DTGAN: Dual Attention Generative Adversarial Networks for Text-to-Image
Generation [8.26410341981427]
Dual Attention Generative Adversarial Network (DTGAN)は高品質でセマンティックな一貫性のある画像を合成できる。
提案モデルでは,テキスト関連チャネルや画素に注目するようにジェネレータを誘導する,チャネル対応および画素対応アテンションモジュールを導入している。
生成した画像の鮮明な形状と知覚的に均一な色分布を確保することにより、画像の解像度を高めるために、新しいタイプの視覚的損失を利用する。
論文 参考訳(メタデータ) (2020-11-05T08:57:15Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。