論文の概要: Edge Guided GANs with Multi-Scale Contrastive Learning for Semantic
Image Synthesis
- arxiv url: http://arxiv.org/abs/2307.12084v1
- Date: Sat, 22 Jul 2023 14:17:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 18:10:16.190046
- Title: Edge Guided GANs with Multi-Scale Contrastive Learning for Semantic
Image Synthesis
- Title(参考訳): 意味画像合成のためのマルチスケールコントラスト学習を用いたエッジ誘導gan
- Authors: Hao Tang, Guolei Sun, Nicu Sebe, Luc Van Gool
- Abstract要約: 本稿では,難解なセマンティック画像合成タスクのための新しいECGANを提案する。
セマンティックラベルは詳細な構造情報を提供しておらず、局所的な詳細や構造を合成することは困難である。
畳み込み、ダウンサンプリング、正規化といった広く採用されているCNN操作は、通常、空間分解能の損失を引き起こす。
本稿では,同じセマンティッククラスに属する画素埋め込みを強制して,より類似した画像コンテンツを生成することを目的とした,新しいコントラスト学習手法を提案する。
- 参考スコア(独自算出の注目度): 139.2216271759332
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel ECGAN for the challenging semantic image synthesis task.
Although considerable improvements have been achieved by the community in the
recent period, the quality of synthesized images is far from satisfactory due
to three largely unresolved challenges. 1) The semantic labels do not provide
detailed structural information, making it challenging to synthesize local
details and structures; 2) The widely adopted CNN operations such as
convolution, down-sampling, and normalization usually cause spatial resolution
loss and thus cannot fully preserve the original semantic information, leading
to semantically inconsistent results (e.g., missing small objects); 3) Existing
semantic image synthesis methods focus on modeling 'local' semantic information
from a single input semantic layout. However, they ignore 'global' semantic
information of multiple input semantic layouts, i.e., semantic cross-relations
between pixels across different input layouts. To tackle 1), we propose to use
the edge as an intermediate representation which is further adopted to guide
image generation via a proposed attention guided edge transfer module. To
tackle 2), we design an effective module to selectively highlight
class-dependent feature maps according to the original semantic layout to
preserve the semantic information. To tackle 3), inspired by current methods in
contrastive learning, we propose a novel contrastive learning method, which
aims to enforce pixel embeddings belonging to the same semantic class to
generate more similar image content than those from different classes. We
further propose a novel multi-scale contrastive learning method that aims to
push same-class features from different scales closer together being able to
capture more semantic relations by explicitly exploring the structures of
labeled pixels from multiple input semantic layouts from different scales.
- Abstract(参考訳): 本稿では,semantic image synthesisタスクに挑戦する新しいecganを提案する。
近年, コミュニティによってかなりの改良が加えられているが, 3つの未解決課題により, 合成画像の品質は十分とは程遠い。
1) セマンティックラベルは,詳細な構造情報を提供せず,局所的な詳細及び構造を合成することが困難である。
2)畳み込み、ダウンサンプリング、正規化といった広く採用されているcnn操作は、通常、空間分解能の損失を引き起こし、したがって元の意味情報の完全保存ができず、意味的に一貫性のない結果(例えば、小さなオブジェクトの欠如)をもたらす。
3)既存のセマンティック画像合成手法は,単一入力セマンティックレイアウトから「ローカル」セマンティック情報をモデル化することに焦点を当てている。
しかし、複数の入力セマンティックレイアウト、すなわち異なる入力レイアウトにわたる画素間のセマンティッククロスリレーションの「グローバル」セマンティック情報を無視している。
1)に取り組むために,提案する注意誘導型エッジ転送モジュールによる画像生成のガイドとして,中間表現としてエッジを使用することを提案する。
2)に取り組むために,意味情報を保存するために,クラス依存の機能マップを本来の意味レイアウトに従って選択的にハイライトする効果的なモジュールを設計した。
コントラスト学習における現在の手法に着想を得て,同じセマンティッククラスに属する画素埋め込みを強制し,異なるクラスに属するものよりも類似した画像コンテンツを生成することを目的とした,新しいコントラスト学習手法を提案する。
さらに,複数入力のセマンティクスレイアウトからラベル付き画素の構造を明示的に探究することにより,異なるスケールから同一クラス機能をより緊密にプッシュし,より意味的な関係を捉えることを目的とした,新しいマルチスケールコントラスト学習手法を提案する。
関連論文リスト
- Label-free Neural Semantic Image Synthesis [12.194020204848492]
本稿では,事前学習した基礎モデルから抽出したニューラルネットワークレイアウトを条件付けとして,ニューラルセマンティック画像合成の概念を導入する。
ニューラルセマンティック画像合成により合成された画像が、セマンティッククラスの類似あるいは優れた画素レベルのアライメントを実現することを実験的に示す。
ニューラルレイアウト条件付けによって生成された画像は、様々な知覚タスクを訓練するための実データを効果的に増強できることを示す。
論文 参考訳(メタデータ) (2024-07-01T20:30:23Z) - SCONE-GAN: Semantic Contrastive learning-based Generative Adversarial
Network for an end-to-end image translation [18.93434486338439]
SCONE-GANはリアルで多様な風景画像を生成する学習に有効であることが示されている。
より現実的で多様な画像生成のために、スタイル参照画像を導入します。
画像から画像への変換と屋外画像のスタイリングのための提案アルゴリズムを検証した。
論文 参考訳(メタデータ) (2023-11-07T10:29:16Z) - Few-shot Semantic Image Synthesis with Class Affinity Transfer [23.471210664024067]
そこで本研究では,大規模なデータセット上でトレーニングされたモデルを利用して,小規模なターゲットデータセット上での学習能力を向上させるトランスファー手法を提案する。
クラス親和性行列は、ターゲットラベルマップと互換性を持たせるために、ソースモデルの第一層として導入される。
セマンティック・セマンティック・シンセサイザー(セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・アーキテクチャー)にアプローチを適用する。
論文 参考訳(メタデータ) (2023-04-05T09:24:45Z) - Learning to Model Multimodal Semantic Alignment for Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、複数文のストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は、その固定されたアーキテクチャと入力モダリティの多様性のため、セマンティックなミスアライメントの問題に直面している。
GANに基づく生成モデルにおいて,テキストと画像表現のセマンティックアライメントを学習し,それらのセマンティックレベルを一致させる方法について検討する。
論文 参考訳(メタデータ) (2022-11-14T11:41:44Z) - Dual Pyramid Generative Adversarial Networks for Semantic Image
Synthesis [94.76988562653845]
セマンティック画像合成の目標は、セマンティックラベルマップからフォトリアリスティック画像を生成することである。
しかし、現在の最先端のアプローチは、さまざまなスケールで画像で現実的なオブジェクトを生成するのに依然として苦労している。
本研究では,空間適応型正規化ブロックの条件付けを各スケールで同時に学習するDual Pyramid Generative Adversarial Network (DP-GAN)を提案する。
論文 参考訳(メタデータ) (2022-10-08T18:45:44Z) - Semantic Disentangling Generalized Zero-Shot Learning [50.259058462272435]
Generalized Zero-Shot Learning (GZSL)は、目に見えないカテゴリと見えないカテゴリの両方から画像を認識することを目的としている。
本稿では,エンコーダ・デコーダアーキテクチャに基づく新しい特徴分割手法を提案する。
提案モデルは,視像の固有特徴をキャプチャする品質意味一貫性表現を蒸留することを目的としている。
論文 参考訳(メタデータ) (2021-01-20T05:46:21Z) - Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation [128.03739769844736]
2つのニューラルコアテンションを分類器に組み込んで、画像間のセマンティックな類似点と相違点をキャプチャする。
オブジェクトパターン学習の強化に加えて、コアテンションは他の関連する画像からのコンテキストを活用して、ローカライズマップの推論を改善することができる。
提案アルゴリズムは,これらすべての設定に対して新たな最先端性を設定し,その有効性と一般化性を示す。
論文 参考訳(メタデータ) (2020-07-03T21:53:46Z) - Edge Guided GANs with Contrastive Learning for Semantic Image Synthesis [194.1452124186117]
本稿では,難解なセマンティック画像合成タスクのための新しいECGANを提案する。
我々のECGANは最先端の手法よりもはるかに優れた結果が得られる。
論文 参考訳(メタデータ) (2020-03-31T01:23:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。