論文の概要: USIS: Unsupervised Semantic Image Synthesis
- arxiv url: http://arxiv.org/abs/2109.14715v1
- Date: Wed, 29 Sep 2021 20:48:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-01 14:54:10.332459
- Title: USIS: Unsupervised Semantic Image Synthesis
- Title(参考訳): USIS: 教師なしセマンティック画像合成
- Authors: George Eskandar, Mohamed Abdelsamad, Karim Armanious, Bin Yang
- Abstract要約: セマンティック画像合成(USIS)のための新しい教師なしパラダイムを提案する。
USISは、自己教師付きセグメンテーションロスを使用して、視覚的に分離可能なセグメンテーションクラスで画像を出力することを学ぶ。
実画像の色とテクスチャの分布を高周波数情報を失うことなく一致させるため,ウェーブレットを用いた識別手法を提案する。
- 参考スコア(独自算出の注目度): 9.613134538472801
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic Image Synthesis (SIS) is a subclass of image-to-image translation
where a photorealistic image is synthesized from a segmentation mask. SIS has
mostly been addressed as a supervised problem. However, state-of-the-art
methods depend on a huge amount of labeled data and cannot be applied in an
unpaired setting. On the other hand, generic unpaired image-to-image
translation frameworks underperform in comparison, because they color-code
semantic layouts and feed them to traditional convolutional networks, which
then learn correspondences in appearance instead of semantic content. In this
initial work, we propose a new Unsupervised paradigm for Semantic Image
Synthesis (USIS) as a first step towards closing the performance gap between
paired and unpaired settings. Notably, the framework deploys a SPADE generator
that learns to output images with visually separable semantic classes using a
self-supervised segmentation loss. Furthermore, in order to match the color and
texture distribution of real images without losing high-frequency information,
we propose to use whole image wavelet-based discrimination. We test our
methodology on 3 challenging datasets and demonstrate its ability to generate
multimodal photorealistic images with an improved quality in the unpaired
setting.
- Abstract(参考訳): 意味画像合成(semantic image synthesis,sis)は、セグメンテーションマスクからフォトリアリスティック画像を合成する画像から画像への変換のサブクラスである。
SISは、主に教師付き問題として扱われてきた。
しかし、最先端の手法は大量のラベル付きデータに依存しており、未使用の環境では適用できない。
一方、一般的な画像から画像への翻訳フレームワークは、カラーコードでセマンティックレイアウトを配置し、従来の畳み込みネットワークに供給し、セマンティックコンテンツではなく、外観の対応を学習するため、性能が劣る。
本稿では,ペア設定とペア設定の間の性能ギャップを解消する第一歩として,セマンティック画像合成(USIS)のための新しいアン教師付きパラダイムを提案する。
特に、フレームワークは、自己教師付きセグメンテーション損失を使用して視覚的に分離可能なセマンティクスクラスで画像を出力することを学ぶspadeジェネレータをデプロイする。
さらに, 実画像の色とテクスチャの分布を高周波数情報を失うことなく一致させるため, 全画像ウェーブレットによる識別手法を提案する。
提案手法は,3つの挑戦的データセット上で検証し,不用意な環境での画質を向上したマルチモーダルフォトリアリスティック画像を生成する能力を実証する。
関連論文リスト
- SemFlow: Binding Semantic Segmentation and Image Synthesis via Rectified Flow [94.90853153808987]
セマンティックセグメンテーション(Semantic segmentation)とセマンティックイメージ合成(Semantic image synthesis)は、視覚知覚と生成において代表的なタスクである。
我々は、統一されたフレームワーク(SemFlow)を提案し、それらを2つの逆問題としてモデル化する。
実験の結果,セマンティックセグメンテーションとセマンティック画像合成タスクにおいて,セマンティックセグメンテーションと競合する結果が得られた。
論文 参考訳(メタデータ) (2024-05-30T17:34:40Z) - Unlocking Pre-trained Image Backbones for Semantic Image Synthesis [29.688029979801577]
本稿では,現実的な画像を生成するセマンティック画像合成のための新しい種類のGAN識別器を提案する。
DP-SIMSをダブした本モデルでは,ADE-20K,COCO-Stuff,Cityscapesの入力ラベルマップと画像品質と一貫性の両面から,最新の結果が得られる。
論文 参考訳(メタデータ) (2023-12-20T09:39:19Z) - Towards Pragmatic Semantic Image Synthesis for Urban Scenes [4.36080478413575]
合成画像とラベル付きデータセットとラベルなしの実画像付きデータセットが与えられた場合、入力マスクの内容と実際の画像の外観で画像を生成することができるモデルを学ぶことが目的である。
合成画像は, パッチレベルでの高次特徴の違いをペナルティ化することにより, 生成画像の内容のガイドとして活用する。
対象領域のセマンティックな分布に過度に適合する1つの識別器を用いた以前の研究とは対照的に、画像全体の識別器と画像パッチ上のマルチスケール識別器を用いる。
論文 参考訳(メタデータ) (2023-05-16T18:01:12Z) - Wavelet-based Unsupervised Label-to-Image Translation [9.339522647331334]
本稿では、自己教師付きセグメンテーション損失と全画像ウェーブレットに基づく識別を併用した、SIS(USIS)のための新しいアン教師付きパラダイムを提案する。
3つの挑戦的なデータセットで方法論を検証し、ペアモデルとアンペアモデルのパフォーマンスギャップを橋渡しする能力を実証する。
論文 参考訳(メタデータ) (2023-05-16T17:48:44Z) - Cap2Aug: Caption guided Image to Image data Augmentation [41.53127698828463]
Cap2Augは、画像キャプションをテキストプロンプトとして使用する画像から画像への拡散モデルに基づくデータ拡張戦略である。
限られた訓練画像からキャプションを生成し,これらのキャプションを用いて画像間安定拡散モデルを用いてトレーニング画像を編集する。
この戦略は、トレーニング画像に似た画像の拡張バージョンを生成するが、サンプル全体にわたって意味的な多様性を提供する。
論文 参考訳(メタデータ) (2022-12-11T04:37:43Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - A Shared Representation for Photorealistic Driving Simulators [83.5985178314263]
本稿では、識別器アーキテクチャを再考することにより、生成画像の品質を向上させることを提案する。
シーンセグメンテーションマップや人体ポーズといったセマンティックインプットによって画像が生成されるという問題に焦点が当てられている。
我々は,意味的セグメンテーション,コンテンツ再構成,および粗い粒度の逆解析を行うのに十分な情報をエンコードする,共有潜在表現を学習することを目指している。
論文 参考訳(メタデータ) (2021-12-09T18:59:21Z) - Semantic Segmentation with Generative Models: Semi-Supervised Learning
and Strong Out-of-Domain Generalization [112.68171734288237]
本論文では,画像とラベルの再生モデルを用いた識別画素レベルのタスクのための新しいフレームワークを提案する。
我々は,共同画像ラベルの分布を捕捉し,未ラベル画像の大規模な集合を用いて効率的に訓練する生成的対向ネットワークを学習する。
ドメイン内性能をいくつかのベースラインと比較し,ドメイン外一般化を極端に示す最初の例である。
論文 参考訳(メタデータ) (2021-04-12T21:41:25Z) - You Only Need Adversarial Supervision for Semantic Image Synthesis [84.83711654797342]
我々は,高品質な結果を得るためには敵対的監督のみを必要とする,新しい簡易ganモデルを提案する。
本モデルによって合成された画像はより多様であり,実画像の色やテクスチャに密接に従っている。
論文 参考訳(メタデータ) (2020-12-08T23:00:48Z) - Seed the Views: Hierarchical Semantic Alignment for Contrastive
Representation Learning [116.91819311885166]
一つの画像から生成されたビューをtextbfCross-samples や Multi-level representation に拡張することで,階層的なセマンティックアライメント戦略を提案する。
提案手法はCsMlと呼ばれ,サンプル間の多層視覚表現を堅牢な方法で統合する機能を備えている。
論文 参考訳(メタデータ) (2020-12-04T17:26:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。