論文の概要: Example-Guided Image Synthesis across Arbitrary Scenes using Masked
Spatial-Channel Attention and Self-Supervision
- arxiv url: http://arxiv.org/abs/2004.10024v1
- Date: Sat, 18 Apr 2020 18:17:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-12 05:46:13.039374
- Title: Example-Guided Image Synthesis across Arbitrary Scenes using Masked
Spatial-Channel Attention and Self-Supervision
- Title(参考訳): Masked Space-Channel Attention and Self-Supervision を用いた任意シーンにおけるサンプルガイド画像合成
- Authors: Haitian Zheng, Haofu Liao, Lele Chen, Wei Xiong, Tianlang Chen, Jiebo
Luo
- Abstract要約: 実例誘導画像合成は,最近セマンティックラベルマップと模範画像から画像を合成するために試みられている。
本稿では,ラベルマップと意味的に異なる任意のシーンイメージを例に,より困難で汎用的な課題に取り組む。
本稿では,グローバル・ローカルな特徴アライメントと合成のためのエンドツーエンドネットワークを提案する。
- 参考スコア(独自算出の注目度): 83.33283892171562
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Example-guided image synthesis has recently been attempted to synthesize an
image from a semantic label map and an exemplary image. In the task, the
additional exemplar image provides the style guidance that controls the
appearance of the synthesized output. Despite the controllability advantage,
the existing models are designed on datasets with specific and roughly aligned
objects. In this paper, we tackle a more challenging and general task, where
the exemplar is an arbitrary scene image that is semantically different from
the given label map. To this end, we first propose a Masked Spatial-Channel
Attention (MSCA) module which models the correspondence between two arbitrary
scenes via efficient decoupled attention. Next, we propose an end-to-end
network for joint global and local feature alignment and synthesis. Finally, we
propose a novel self-supervision task to enable training. Experiments on the
large-scale and more diverse COCO-stuff dataset show significant improvements
over the existing methods. Moreover, our approach provides interpretability and
can be readily extended to other content manipulation tasks including style and
spatial interpolation or extrapolation.
- Abstract(参考訳): 実例誘導画像合成は,最近セマンティックラベルマップと模範画像から画像を合成するために試みられている。
このタスクでは、追加の例示画像は、合成された出力の外観を制御するスタイルガイダンスを提供する。
制御可能性の利点にもかかわらず、既存のモデルは、特定のオブジェクトと概ね整列したオブジェクトを持つデータセットに基づいて設計されている。
本稿では,与えられたラベルマップと意味的に異なる任意のシーンイメージを例示する,より挑戦的で一般的なタスクに取り組む。
そこで,本稿ではまず,任意の2シーン間の対応を効率的にモデル化するマスキング空間チャネルアテンション(msca)モジュールを提案する。
次に,グローバルおよびローカルな特徴アライメントと合成のためのエンドツーエンドネットワークを提案する。
最後に,トレーニングを実現するための新たなセルフスーパービジョンタスクを提案する。
大規模で多様なCOCO-stuffデータセットの実験は、既存の手法よりも大幅に改善されている。
さらに,本手法は解釈可能性を提供し,スタイルや空間補間,外挿などの他のコンテンツ操作タスクにも容易に拡張できる。
関連論文リスト
- Comprehensive Generative Replay for Task-Incremental Segmentation with Concurrent Appearance and Semantic Forgetting [49.87694319431288]
一般的なセグメンテーションモデルは、異なる画像ソースからの様々なオブジェクトを含む様々なタスクに対して、ますます好まれている。
画像とマスクのペアを合成することで外観と意味の知識を復元する包括的生成(CGR)フレームワークを提案する。
漸進的タスク(心身、基礎、前立腺のセグメンテーション)の実験は、同時出現と意味的忘れを緩和する上で、明らかな優位性を示している。
論文 参考訳(メタデータ) (2024-06-28T10:05:58Z) - SAMPLING: Scene-adaptive Hierarchical Multiplane Images Representation
for Novel View Synthesis from a Single Image [60.52991173059486]
単一画像からの新規ビュー合成のためのシーン適応型階層型多面体画像表現であるSAMPlingを紹介する。
提案手法は,KITTIデータセット上の単一画像を用いて,大規模非有界屋外シーンにおいてかなりの性能向上を示す。
論文 参考訳(メタデータ) (2023-09-12T15:33:09Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - Diverse Semantic Image Synthesis via Probability Distribution Modeling [103.88931623488088]
新規な多様な意味的画像合成フレームワークを提案する。
本手法は最先端手法と比較して優れた多様性と同等の品質を実現することができる。
論文 参考訳(メタデータ) (2021-03-11T18:59:25Z) - Dual Attention GANs for Semantic Image Synthesis [101.36015877815537]
本稿では,写真リアリスティック・セマンティック・一貫性のあるイメージを合成するための新しいデュアルアテンションGAN(DAGAN)を提案する。
また,2つの新しいモジュール,すなわち位置対応空間アテンションモジュール(SAM)と規模対応チャネルアテンションモジュール(CAM)を提案する。
DAGANは、より少ないモデルパラメータを使用しながら、最先端のメソッドよりも驚くほど優れた結果が得られる。
論文 参考訳(メタデータ) (2020-08-29T17:49:01Z) - Panoptic-based Image Synthesis [32.82903428124024]
条件付き画像合成は、コンテンツ編集からコンテンツ生成への様々な応用を提供する。
本研究では,パノプティカルマップに条件付き高忠実度・光実写画像を生成するために,パノプティカル・アウェア・イメージ合成ネットワークを提案する。
論文 参考訳(メタデータ) (2020-04-21T20:40:53Z) - Contextual Encoder-Decoder Network for Visual Saliency Prediction [42.047816176307066]
本稿では,大規模な画像分類タスクに基づいて事前学習した畳み込みニューラルネットワークに基づくアプローチを提案する。
得られた表現をグローバルなシーン情報と組み合わせて視覚的サリエンシを正確に予測する。
最先端技術と比較して、このネットワークは軽量な画像分類バックボーンに基づいている。
論文 参考訳(メタデータ) (2019-02-18T16:15:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。