論文の概要: Edge Guided GANs with Contrastive Learning for Semantic Image Synthesis
- arxiv url: http://arxiv.org/abs/2003.13898v2
- Date: Sun, 13 Nov 2022 06:58:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-18 00:38:57.889313
- Title: Edge Guided GANs with Contrastive Learning for Semantic Image Synthesis
- Title(参考訳): 意味画像合成のためのコントラスト学習を用いたエッジ誘導gan
- Authors: Hao Tang, Xiaojuan Qi, Guolei Sun, Dan Xu, Nicu Sebe, Radu Timofte,
Luc Van Gool
- Abstract要約: コントラスト学習(ECGAN)を用いた新しいエッジガイド生成対向ネットワークを提案する。
合成画像の品質は、未解決の3つの課題により、決して満足できない。
- 参考スコア(独自算出の注目度): 194.1452124186117
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel edge guided generative adversarial network with
contrastive learning (ECGAN) for the challenging semantic image synthesis task.
Although considerable improvement has been achieved, the quality of synthesized
images is far from satisfactory due to three largely unresolved challenges. 1)
The semantic labels do not provide detailed structural information, making it
difficult to synthesize local details and structures. 2) The widely adopted CNN
operations such as convolution, down-sampling, and normalization usually cause
spatial resolution loss and thus cannot fully preserve the original semantic
information, leading to semantically inconsistent results (e.g., missing small
objects). 3) Existing semantic image synthesis methods focus on modeling
`local' semantic information from a single input semantic layout. However, they
ignore `global' semantic information of multiple input semantic layouts, i.e.,
semantic cross-relations between pixels across different input layouts. To
tackle 1), we propose to use edge as an intermediate representation which is
further adopted to guide image generation via a proposed attention guided edge
transfer module. Edge information is produced by a convolutional generator and
introduces detailed structure information. To tackle 2), we design an effective
module to selectively highlight class-dependent feature maps according to the
original semantic layout to preserve the semantic information. To tackle 3),
inspired by current methods in contrastive learning, we propose a novel
contrastive learning method, which aims to enforce pixel embeddings belonging
to the same semantic class to generate more similar image content than those
from different classes. By doing so, it can capture more semantic relations by
explicitly exploring the structures of labeled pixels from multiple input
semantic layouts.
- Abstract(参考訳): 本稿では,コントラスト学習(ECGAN)を用いた新たなエッジガイド生成対向ネットワークを提案する。
かなりの改善が達成されているが、合成画像の品質は3つの大きな未解決課題のために満足には程遠い。
1) セマンティックラベルは詳細な構造情報を提供しておらず, 局所的な詳細や構造を合成することが困難である。
2) 畳み込み, ダウンサンプリング, 正規化などの広く採用されているCNN操作は, 通常空間分解能の喪失を引き起こすため, 本来の意味情報を完全保存できないため, 意味的に矛盾する結果(例えば, 小さいオブジェクトの欠落)が生じる。
3)既存のセマンティック画像合成手法は,単一入力セマンティックレイアウトから「ローカル」セマンティック情報をモデル化することに焦点を当てている。
しかし、複数の入力セマンティックレイアウト、すなわち異なる入力レイアウトにわたるピクセル間のセマンティックな相互関係の「グローバル」な情報を無視している。
1)に取り組むために,提案する注意誘導型エッジ転送モジュールによる画像生成のガイドとして,edgeを中間表現として用いることを提案する。
エッジ情報は畳み込み発生器によって生成され、詳細な構造情報を導入する。
2)に取り組むために,意味情報を保存するために,クラス依存の機能マップを本来の意味レイアウトに従って選択的にハイライトする効果的なモジュールを設計した。
コントラスト学習における現在の手法に着想を得て,同じセマンティッククラスに属する画素埋め込みを強制し,異なるクラスに属するものよりも類似した画像コンテンツを生成することを目的とした,新しいコントラスト学習手法を提案する。
これにより、複数の入力セマンティックレイアウトからラベル付きピクセルの構造を明示的に探索することで、よりセマンティックな関係を捉えることができる。
関連論文リスト
- GP-NeRF: Generalized Perception NeRF for Context-Aware 3D Scene Understanding [101.32590239809113]
Generalized Perception NeRF (GP-NeRF) は、広く使われているセグメンテーションモデルとNeRFを統一されたフレームワークで相互に動作させる新しいパイプラインである。
本稿では,セマンティック蒸留損失(Semantic Distill Loss)とDepth-Guided Semantic Distill Loss(Depth-Guided Semantic Distill Loss)という2つの自己蒸留機構を提案する。
論文 参考訳(メタデータ) (2023-11-20T15:59:41Z) - SCONE-GAN: Semantic Contrastive learning-based Generative Adversarial
Network for an end-to-end image translation [18.93434486338439]
SCONE-GANはリアルで多様な風景画像を生成する学習に有効であることが示されている。
より現実的で多様な画像生成のために、スタイル参照画像を導入します。
画像から画像への変換と屋外画像のスタイリングのための提案アルゴリズムを検証した。
論文 参考訳(メタデータ) (2023-11-07T10:29:16Z) - Edge Guided GANs with Multi-Scale Contrastive Learning for Semantic
Image Synthesis [139.2216271759332]
本稿では,難解なセマンティック画像合成タスクのための新しいECGANを提案する。
セマンティックラベルは詳細な構造情報を提供しておらず、局所的な詳細や構造を合成することは困難である。
畳み込み、ダウンサンプリング、正規化といった広く採用されているCNN操作は、通常、空間分解能の損失を引き起こす。
本稿では,同じセマンティッククラスに属する画素埋め込みを強制して,より類似した画像コンテンツを生成することを目的とした,新しいコントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2023-07-22T14:17:19Z) - Wavelet-based Unsupervised Label-to-Image Translation [9.339522647331334]
本稿では、自己教師付きセグメンテーション損失と全画像ウェーブレットに基づく識別を併用した、SIS(USIS)のための新しいアン教師付きパラダイムを提案する。
3つの挑戦的なデータセットで方法論を検証し、ペアモデルとアンペアモデルのパフォーマンスギャップを橋渡しする能力を実証する。
論文 参考訳(メタデータ) (2023-05-16T17:48:44Z) - Few-shot Semantic Image Synthesis with Class Affinity Transfer [23.471210664024067]
そこで本研究では,大規模なデータセット上でトレーニングされたモデルを利用して,小規模なターゲットデータセット上での学習能力を向上させるトランスファー手法を提案する。
クラス親和性行列は、ターゲットラベルマップと互換性を持たせるために、ソースモデルの第一層として導入される。
セマンティック・セマンティック・シンセサイザー(セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・アーキテクチャー)にアプローチを適用する。
論文 参考訳(メタデータ) (2023-04-05T09:24:45Z) - Dual Pyramid Generative Adversarial Networks for Semantic Image
Synthesis [94.76988562653845]
セマンティック画像合成の目標は、セマンティックラベルマップからフォトリアリスティック画像を生成することである。
しかし、現在の最先端のアプローチは、さまざまなスケールで画像で現実的なオブジェクトを生成するのに依然として苦労している。
本研究では,空間適応型正規化ブロックの条件付けを各スケールで同時に学習するDual Pyramid Generative Adversarial Network (DP-GAN)を提案する。
論文 参考訳(メタデータ) (2022-10-08T18:45:44Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation [128.03739769844736]
2つのニューラルコアテンションを分類器に組み込んで、画像間のセマンティックな類似点と相違点をキャプチャする。
オブジェクトパターン学習の強化に加えて、コアテンションは他の関連する画像からのコンテキストを活用して、ローカライズマップの推論を改善することができる。
提案アルゴリズムは,これらすべての設定に対して新たな最先端性を設定し,その有効性と一般化性を示す。
論文 参考訳(メタデータ) (2020-07-03T21:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。