論文の概要: Dual Attention GANs for Semantic Image Synthesis
- arxiv url: http://arxiv.org/abs/2008.13024v1
- Date: Sat, 29 Aug 2020 17:49:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-23 16:53:50.970839
- Title: Dual Attention GANs for Semantic Image Synthesis
- Title(参考訳): 意味的画像合成のためのデュアルアテンションGAN
- Authors: Hao Tang, Song Bai, Nicu Sebe
- Abstract要約: 本稿では,写真リアリスティック・セマンティック・一貫性のあるイメージを合成するための新しいデュアルアテンションGAN(DAGAN)を提案する。
また,2つの新しいモジュール,すなわち位置対応空間アテンションモジュール(SAM)と規模対応チャネルアテンションモジュール(CAM)を提案する。
DAGANは、より少ないモデルパラメータを使用しながら、最先端のメソッドよりも驚くほど優れた結果が得られる。
- 参考スコア(独自算出の注目度): 101.36015877815537
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we focus on the semantic image synthesis task that aims at
transferring semantic label maps to photo-realistic images. Existing methods
lack effective semantic constraints to preserve the semantic information and
ignore the structural correlations in both spatial and channel dimensions,
leading to unsatisfactory blurry and artifact-prone results. To address these
limitations, we propose a novel Dual Attention GAN (DAGAN) to synthesize
photo-realistic and semantically-consistent images with fine details from the
input layouts without imposing extra training overhead or modifying the network
architectures of existing methods. We also propose two novel modules, i.e.,
position-wise Spatial Attention Module (SAM) and scale-wise Channel Attention
Module (CAM), to capture semantic structure attention in spatial and channel
dimensions, respectively. Specifically, SAM selectively correlates the pixels
at each position by a spatial attention map, leading to pixels with the same
semantic label being related to each other regardless of their spatial
distances. Meanwhile, CAM selectively emphasizes the scale-wise features at
each channel by a channel attention map, which integrates associated features
among all channel maps regardless of their scales. We finally sum the outputs
of SAM and CAM to further improve feature representation. Extensive experiments
on four challenging datasets show that DAGAN achieves remarkably better results
than state-of-the-art methods, while using fewer model parameters. The source
code and trained models are available at https://github.com/Ha0Tang/DAGAN.
- Abstract(参考訳): 本稿では,セマンティックなラベルマップをフォトリアリスティックな画像に転送することを目的としたセマンティックな画像合成タスクに焦点をあてる。
既存の手法は意味情報を保存するための効果的な意味制約を欠き、空間次元とチャネル次元の両方の構造的相関を無視する。
これらの制約に対処するために,入力レイアウトから精細な細部まで,フォトリアリスティックで意味的に一貫性のある画像を合成する新しいdual attention gan (dagan)を提案する。
また,空間的次元における意味的構造的注意を捉えるための2つの新しいモジュール,すなわち位置的空間的注意モジュール(sam)とスケール的チャネル注意モジュール(cam)を提案する。
具体的には、SAMは、空間的注意マップによって各位置の画素を選択的に相関させ、空間的距離に関係なく、同じ意味ラベルを持つ画素を相互に関連付ける。
一方camは、各チャンネルのスケールワイズ機能をチャンネルアテンションマップによって選択的に強調する。
SAMとCAMの出力を最後にまとめて、機能表現をさらに改善します。
4つの挑戦的なデータセットに関する広範囲な実験により、daganは最先端のメソッドよりも驚くほど優れた結果が得られるが、モデルパラメータは少ない。
ソースコードとトレーニングされたモデルはhttps://github.com/Ha0Tang/DAGAN.comで入手できる。
関連論文リスト
- A Deep Semantic Segmentation Network with Semantic and Contextual Refinements [11.755865577258767]
本稿では,セグメンテーションネットワーク内でこの問題に対処するためのセマンティックリファインメントモジュール(SRM)を提案する。
CRM(Contextual Refinement Module)は、空間次元とチャネル次元の両方にわたるグローバルなコンテキスト情報をキャプチャする。
これらのモジュールの有効性は、3つの広く使われているデータセット(Cityscapes, Bdd100K, ADE20K-demonstrating)で検証される。
論文 参考訳(メタデータ) (2024-12-11T03:40:46Z) - SSMG: Spatial-Semantic Map Guided Diffusion Model for Free-form
Layout-to-Image Generation [68.42476385214785]
本稿では,レイアウトから派生した特徴写像を用いた空間意味マップガイド(SSMG)拡散モデルを提案する。
SSMGは,従来の研究に比べて空間的,意味的な制御性に優れた生成品質を実現する。
また,RSA(Relation-Sensitive Attention)機構とLSA(Location-Sensitive Attention)機構を提案する。
論文 参考訳(メタデータ) (2023-08-20T04:09:12Z) - Edge Guided GANs with Multi-Scale Contrastive Learning for Semantic
Image Synthesis [139.2216271759332]
本稿では,難解なセマンティック画像合成タスクのための新しいECGANを提案する。
セマンティックラベルは詳細な構造情報を提供しておらず、局所的な詳細や構造を合成することは困難である。
畳み込み、ダウンサンプリング、正規化といった広く採用されているCNN操作は、通常、空間分解能の損失を引き起こす。
本稿では,同じセマンティッククラスに属する画素埋め込みを強制して,より類似した画像コンテンツを生成することを目的とした,新しいコントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2023-07-22T14:17:19Z) - Efficient Multi-Scale Attention Module with Cross-Spatial Learning [4.046170185945849]
効率的なマルチスケールアテンション(EMA)モジュールを提案する。
チャネルごとの情報保持と計算オーバーヘッドの低減に重点を置いている。
我々は画像分類と物体検出タスクについて広範囲にわたるアブレーション研究と実験を行った。
論文 参考訳(メタデータ) (2023-05-23T00:35:47Z) - Multi-Granularity Denoising and Bidirectional Alignment for Weakly
Supervised Semantic Segmentation [75.32213865436442]
本稿では,雑音ラベルと多クラス一般化問題を緩和するために,MDBAモデルを提案する。
MDBAモデルはPASCAL VOC 2012データセットの検証とテストセットにおいて69.5%と70.2%のmIoUに達することができる。
論文 参考訳(メタデータ) (2023-05-09T03:33:43Z) - Scale-Semantic Joint Decoupling Network for Image-text Retrieval in
Remote Sensing [23.598273691455503]
リモートセンシング画像テキスト検索のためのSJDN(Scale-Semantic Joint Decoupling Network)を提案する。
提案するSSJDNは,4つのベンチマークリモートセンシングデータセットを用いて行った数値実験において,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2022-12-12T08:02:35Z) - Semantic Labeling of High Resolution Images Using EfficientUNets and
Transformers [5.177947445379688]
畳み込みニューラルネットワークとディープトランスを組み合わせた新しいセグメンテーションモデルを提案する。
提案手法は,最先端技術と比較してセグメント化精度が向上することを示す。
論文 参考訳(メタデータ) (2022-06-20T12:03:54Z) - Example-Guided Image Synthesis across Arbitrary Scenes using Masked
Spatial-Channel Attention and Self-Supervision [83.33283892171562]
実例誘導画像合成は,最近セマンティックラベルマップと模範画像から画像を合成するために試みられている。
本稿では,ラベルマップと意味的に異なる任意のシーンイメージを例に,より困難で汎用的な課題に取り組む。
本稿では,グローバル・ローカルな特徴アライメントと合成のためのエンドツーエンドネットワークを提案する。
論文 参考訳(メタデータ) (2020-04-18T18:17:40Z) - Edge Guided GANs with Contrastive Learning for Semantic Image Synthesis [194.1452124186117]
本稿では,難解なセマンティック画像合成タスクのための新しいECGANを提案する。
我々のECGANは最先端の手法よりもはるかに優れた結果が得られる。
論文 参考訳(メタデータ) (2020-03-31T01:23:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。