論文の概要: Multi-Channel Attention Selection GANs for Guided Image-to-Image
Translation
- arxiv url: http://arxiv.org/abs/2002.01048v2
- Date: Thu, 6 Oct 2022 05:36:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-04 08:58:11.520661
- Title: Multi-Channel Attention Selection GANs for Guided Image-to-Image
Translation
- Title(参考訳): ガイド画像変換のためのマルチチャネル注意選択GAN
- Authors: Hao Tang, Philip H.S. Torr, Nicu Sebe
- Abstract要約: 本稿では,画像から画像への変換のためのマルチチャネルアテンション選択生成支援ネットワーク(SelectionGAN)を提案する。
提案するフレームワークとモジュールは統合されたソリューションであり、セマンティック画像合成などの他の生成タスクに応用できる。
- 参考スコア(独自算出の注目度): 148.9985519929653
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel model named Multi-Channel Attention Selection Generative
Adversarial Network (SelectionGAN) for guided image-to-image translation, where
we translate an input image into another while respecting an external semantic
guidance. The proposed SelectionGAN explicitly utilizes the semantic guidance
information and consists of two stages. In the first stage, the input image and
the conditional semantic guidance are fed into a cycled semantic-guided
generation network to produce initial coarse results. In the second stage, we
refine the initial results by using the proposed multi-scale spatial pooling &
channel selection module and the multi-channel attention selection module.
Moreover, uncertainty maps automatically learned from attention maps are used
to guide the pixel loss for better network optimization. Exhaustive experiments
on four challenging guided image-to-image translation tasks (face, hand, body,
and street view) demonstrate that our SelectionGAN is able to generate
significantly better results than the state-of-the-art methods. Meanwhile, the
proposed framework and modules are unified solutions and can be applied to
solve other generation tasks such as semantic image synthesis. The code is
available at https://github.com/Ha0Tang/SelectionGAN.
- Abstract(参考訳): 本研究では,画像対画像変換のための多チャンネル注意選択生成逆ネットワーク(selectiongan)と呼ばれる新しいモデルを提案する。
提案したSelectionGANは意味指導情報を明示的に利用し,2段階からなる。
第1段階では、入力画像と条件付き意味ガイダンスをサイクル付き意味誘導生成ネットワークに供給し、初期粗い結果を生成する。
第2段階では,提案するマルチスケール空間プーリング・チャネル選択モジュールとマルチチャネルアテンション選択モジュールを用いて,初期結果を洗練する。
さらに、注意マップから自動的に学習される不確実性マップを用いて、ネットワーク最適化を改善するために画素損失を導出する。
顔,手,体,ストリートビューの4つの困難な画像間翻訳タスク(顔,手,体,ストリートビュー)に対する実験により,SelectionGANは最先端の手法よりもはるかに優れた結果が得られることが示された。
一方、提案するフレームワークとモジュールは統合されたソリューションであり、セマンティック画像合成などの他の世代課題に応用できる。
コードはhttps://github.com/ha0tang/selectionganで入手できる。
関連論文リスト
- SCONE-GAN: Semantic Contrastive learning-based Generative Adversarial
Network for an end-to-end image translation [18.93434486338439]
SCONE-GANはリアルで多様な風景画像を生成する学習に有効であることが示されている。
より現実的で多様な画像生成のために、スタイル参照画像を導入します。
画像から画像への変換と屋外画像のスタイリングのための提案アルゴリズムを検証した。
論文 参考訳(メタデータ) (2023-11-07T10:29:16Z) - Edge Guided GANs with Multi-Scale Contrastive Learning for Semantic
Image Synthesis [139.2216271759332]
本稿では,難解なセマンティック画像合成タスクのための新しいECGANを提案する。
セマンティックラベルは詳細な構造情報を提供しておらず、局所的な詳細や構造を合成することは困難である。
畳み込み、ダウンサンプリング、正規化といった広く採用されているCNN操作は、通常、空間分解能の損失を引き起こす。
本稿では,同じセマンティッククラスに属する画素埋め込みを強制して,より類似した画像コンテンツを生成することを目的とした,新しいコントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2023-07-22T14:17:19Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - Hidden Path Selection Network for Semantic Segmentation of Remote
Sensing Images [38.89222641689085]
リモートセンシング画像におけるセマンティックセグメンテーションは、広大な地理的な位置の様々な分布を表現する必要がある。
自然画像解析のための画素適応前方経路を選択するために,いくつかのアルゴリズムが設計されている。
余分なミニブランチから派生した隠れ変数の助けを借りて、HPS-Netはアクセス不能なグローバル最適化に関する固有の問題に取り組むことができる。
論文 参考訳(メタデータ) (2021-12-09T21:31:13Z) - DiverGAN: An Efficient and Effective Single-Stage Framework for Diverse
Text-to-Image Generation [7.781425222538382]
DiverGANは、自然言語による記述に従って、多様で、可塑性で、セマンティックに一貫性のある画像を生成するためのフレームワークである。
DiverGANは2つの新しいワードレベルアテンションモジュール、すなわちチャネルアテンションモジュール(CAM)とピクセルアテンションモジュール(PAM)を採用する。
条件適応型インスタンス-階層正規化(CAdaILN)を導入し、文の埋め込みから、形やテクスチャの変化量を柔軟に操作する言語的手がかりを実現する。
論文 参考訳(メタデータ) (2021-11-17T17:59:56Z) - Two-stage Visual Cues Enhancement Network for Referring Image
Segmentation [89.49412325699537]
Referring Image (RIS)は、ある自然言語表現によって参照される画像から対象のオブジェクトをセグメント化することを目的としている。
本稿では,2段階のビジュアルキュー拡張ネットワーク(TV-Net)を考案し,この問題に対処する。
この2段階の強化により,提案するTV-Netは,自然言語表現と画像間のきめ細かいマッチング動作の学習において,より優れた性能を享受できる。
論文 参考訳(メタデータ) (2021-10-09T02:53:39Z) - Cycle-Consistent Inverse GAN for Text-to-Image Synthesis [101.97397967958722]
本稿では,テキスト・ツー・イメージ・ジェネレーションとテキスト・ガイドによる画像操作を行うために,Cycle-Consistent Inverse GANの統一フレームワークを提案する。
我々は、GANの反転モデルを学び、画像をGANの潜在空間に変換し、各画像の反転潜在符号を得る。
テキスト誘導最適化モジュールでは、反転潜在符号を最適化することにより、所望のセマンティック属性を持つ画像を生成する。
論文 参考訳(メタデータ) (2021-08-03T08:38:16Z) - Towards Open-World Text-Guided Face Image Generation and Manipulation [52.83401421019309]
顔画像生成と操作の両方に統一的なフレームワークを提案する。
本手法は,画像とテキストの両方を含むオープンワールドシナリオをサポートし,再トレーニングや微調整,後処理は行わない。
論文 参考訳(メタデータ) (2021-04-18T16:56:07Z) - DTGAN: Dual Attention Generative Adversarial Networks for Text-to-Image
Generation [8.26410341981427]
Dual Attention Generative Adversarial Network (DTGAN)は高品質でセマンティックな一貫性のある画像を合成できる。
提案モデルでは,テキスト関連チャネルや画素に注目するようにジェネレータを誘導する,チャネル対応および画素対応アテンションモジュールを導入している。
生成した画像の鮮明な形状と知覚的に均一な色分布を確保することにより、画像の解像度を高めるために、新しいタイプの視覚的損失を利用する。
論文 参考訳(メタデータ) (2020-11-05T08:57:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。