論文の概要: You Only Need Adversarial Supervision for Semantic Image Synthesis
- arxiv url: http://arxiv.org/abs/2012.04781v3
- Date: Fri, 19 Mar 2021 23:35:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-16 21:34:07.914071
- Title: You Only Need Adversarial Supervision for Semantic Image Synthesis
- Title(参考訳): セマンティック画像合成のための逆スーパービジョンしか必要としない
- Authors: Vadim Sushko, Edgar Sch\"onfeld, Dan Zhang, Juergen Gall, Bernt
Schiele, Anna Khoreva
- Abstract要約: 我々は,高品質な結果を得るためには敵対的監督のみを必要とする,新しい簡易ganモデルを提案する。
本モデルによって合成された画像はより多様であり,実画像の色やテクスチャに密接に従っている。
- 参考スコア(独自算出の注目度): 84.83711654797342
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite their recent successes, GAN models for semantic image synthesis still
suffer from poor image quality when trained with only adversarial supervision.
Historically, additionally employing the VGG-based perceptual loss has helped
to overcome this issue, significantly improving the synthesis quality, but at
the same time limiting the progress of GAN models for semantic image synthesis.
In this work, we propose a novel, simplified GAN model, which needs only
adversarial supervision to achieve high quality results. We re-design the
discriminator as a semantic segmentation network, directly using the given
semantic label maps as the ground truth for training. By providing stronger
supervision to the discriminator as well as to the generator through spatially-
and semantically-aware discriminator feedback, we are able to synthesize images
of higher fidelity with better alignment to their input label maps, making the
use of the perceptual loss superfluous. Moreover, we enable high-quality
multi-modal image synthesis through global and local sampling of a 3D noise
tensor injected into the generator, which allows complete or partial image
change. We show that images synthesized by our model are more diverse and
follow the color and texture distributions of real images more closely. We
achieve an average improvement of $6$ FID and $5$ mIoU points over the state of
the art across different datasets using only adversarial supervision.
- Abstract(参考訳): 最近の成功にもかかわらず、セマンティクス画像合成のためのganモデルは、敵の監督だけで訓練する場合、画像品質の低下に苦しむ。
歴史的には、VGGに基づく知覚的損失がこの問題を克服し、合成品質を大幅に向上させたが、同時に意味画像合成のためのGANモデルの進歩を制限した。
本稿では,高品質な結果を得るためには,敵対的監督のみを必要とする新しい簡易ganモデルを提案する。
我々は,与えられた意味的ラベルマップを訓練の基盤として,意味的セグメンテーションネットワークとして識別器を再設計する。
空間的・意味的に認識された識別器のフィードバックを通じて、識別器とジェネレータにより強い監督を与えることにより、入力ラベルマップにより良いアライメントで高忠実度の画像の合成が可能となり、知覚的損失が過剰になる。
さらに,生成器に注入された3次元ノイズテンソルを大域的および局所的にサンプリングすることにより,高品質なマルチモーダル画像合成を実現する。
本モデルにより合成した画像はより多様であり,実画像の色やテクスチャ分布に密接に従っている。
我々は、敵対的な監視のみを使用して、異なるデータセットにわたる技術の現状を平均6ドルFIDと5ドルmIoUポイントで改善する。
関連論文リスト
- Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。
合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。
提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文 参考訳(メタデータ) (2024-03-28T22:25:05Z) - Unlocking Pre-trained Image Backbones for Semantic Image Synthesis [29.688029979801577]
本稿では,現実的な画像を生成するセマンティック画像合成のための新しい種類のGAN識別器を提案する。
DP-SIMSをダブした本モデルでは,ADE-20K,COCO-Stuff,Cityscapesの入力ラベルマップと画像品質と一貫性の両面から,最新の結果が得られる。
論文 参考訳(メタデータ) (2023-12-20T09:39:19Z) - Wavelet-based Unsupervised Label-to-Image Translation [9.339522647331334]
本稿では、自己教師付きセグメンテーション損失と全画像ウェーブレットに基づく識別を併用した、SIS(USIS)のための新しいアン教師付きパラダイムを提案する。
3つの挑戦的なデータセットで方法論を検証し、ペアモデルとアンペアモデルのパフォーマンスギャップを橋渡しする能力を実証する。
論文 参考訳(メタデータ) (2023-05-16T17:48:44Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - High-Quality Pluralistic Image Completion via Code Shared VQGAN [51.7805154545948]
高速な推論速度で高品質と多様性を両立させることができる多元画像補完のための新しい枠組みを提案する。
我々のフレームワークは、セマンティックにリッチな離散的なコードを効率的かつ堅牢に学習することができ、画像再構成の品質が大幅に向上する。
論文 参考訳(メタデータ) (2022-04-05T01:47:35Z) - A Shared Representation for Photorealistic Driving Simulators [83.5985178314263]
本稿では、識別器アーキテクチャを再考することにより、生成画像の品質を向上させることを提案する。
シーンセグメンテーションマップや人体ポーズといったセマンティックインプットによって画像が生成されるという問題に焦点が当てられている。
我々は,意味的セグメンテーション,コンテンツ再構成,および粗い粒度の逆解析を行うのに十分な情報をエンコードする,共有潜在表現を学習することを目指している。
論文 参考訳(メタデータ) (2021-12-09T18:59:21Z) - USIS: Unsupervised Semantic Image Synthesis [9.613134538472801]
セマンティック画像合成(USIS)のための新しい教師なしパラダイムを提案する。
USISは、自己教師付きセグメンテーションロスを使用して、視覚的に分離可能なセグメンテーションクラスで画像を出力することを学ぶ。
実画像の色とテクスチャの分布を高周波数情報を失うことなく一致させるため,ウェーブレットを用いた識別手法を提案する。
論文 参考訳(メタデータ) (2021-09-29T20:48:41Z) - Improving Augmentation and Evaluation Schemes for Semantic Image
Synthesis [16.097324852253912]
本稿では,GAN(Generative Adversarial Network)に特化して設計された新しい拡張方式を提案する。
本稿では,ジェネレータへの入力として使用するセマンティックラベルマップのオブジェクト形状をランダムにワープする。
ワープされたラベルマップと非ワープされたラベルマップと画像の間の局所的な形状の相違により、GANはシーンの構造的および幾何学的詳細をよりよく学習することができる。
論文 参考訳(メタデータ) (2020-11-25T10:55:26Z) - Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。
この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。
また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文 参考訳(メタデータ) (2020-02-07T03:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。