論文の概要: Self-Supervised Sketch-to-Image Synthesis
- arxiv url: http://arxiv.org/abs/2012.09290v2
- Date: Tue, 22 Dec 2020 20:40:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-03 02:44:44.721920
- Title: Self-Supervised Sketch-to-Image Synthesis
- Title(参考訳): 自己監督型スケッチ・トゥ・イメージ合成
- Authors: Bingchen Liu, Yizhe Zhu, Kunpeng Song, Ahmed Elgammal
- Abstract要約: 本研究では,s2i合成タスクを自己教師あり学習方式で検討する。
まず,一般RGBのみのデータセットに対して,ラインスケッチを効率的に合成する非監視手法を提案する。
次に,自己教師付きオートエンコーダ(ae)を提示し,スケッチやrgb画像からコンテンツ/スタイルの特徴を分離し,スケッチやrgb画像と一致したスタイルを合成する。
- 参考スコア(独自算出の注目度): 21.40315235087551
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imagining a colored realistic image from an arbitrarily drawn sketch is one
of the human capabilities that we eager machines to mimic. Unlike previous
methods that either requires the sketch-image pairs or utilize low-quantity
detected edges as sketches, we study the exemplar-based sketch-to-image (s2i)
synthesis task in a self-supervised learning manner, eliminating the necessity
of the paired sketch data. To this end, we first propose an unsupervised method
to efficiently synthesize line-sketches for general RGB-only datasets. With the
synthetic paired-data, we then present a self-supervised Auto-Encoder (AE) to
decouple the content/style features from sketches and RGB-images, and
synthesize images that are both content-faithful to the sketches and
style-consistent to the RGB-images. While prior works employ either the
cycle-consistence loss or dedicated attentional modules to enforce the
content/style fidelity, we show AE's superior performance with pure
self-supervisions. To further improve the synthesis quality in high resolution,
we also leverage an adversarial network to refine the details of synthetic
images. Extensive experiments on 1024*1024 resolution demonstrate a new
state-of-art-art performance of the proposed model on CelebA-HQ and Wiki-Art
datasets. Moreover, with the proposed sketch generator, the model shows a
promising performance on style mixing and style transfer, which require
synthesized images to be both style-consistent and semantically meaningful. Our
code is available on
https://github.com/odegeasslbc/Self-Supervised-Sketch-to-Image-Synthesis-PyTorch,
and please visit https://create.playform.io/my-projects?mode=sketch for an
online demo of our model.
- Abstract(参考訳): 色とりどりのリアルなイメージを任意に描いたスケッチから想像することは、我々が模倣したい人間の能力の1つだ。
スケッチと画像のペアを必要とするか、あるいは低量で検出されたエッジをスケッチとして利用する以前の方法とは異なり、exemplar-based sketch-to-image(s2i)合成タスクを自己教師あり学習方式で研究し、ペアのスケッチデータの必要性を排除した。
そこで本研究では,rgbのみの汎用データセットを効率的に合成するための教師なし手法を提案する。
合成ペアデータを用いて、スケッチやRGB画像からコンテンツやスタイルの特徴を分離する自己教師型オートエンコーダ(AE)を提示し、スケッチに忠実な画像とRGB画像に忠実な画像の両方を合成する。
先行研究では,コンテンツ・スタイルの忠実性を強制するために,サイクル・コンシスタンス損失か注意モジュールのどちらかを採用するが,aeの優れた性能を純粋に自己スーパービジョンで示している。
また,高分解能の合成品質をさらに向上させるため,逆ネットワークを利用して合成画像の詳細を洗練する。
1024*1024解像度に関する大規模な実験は、CelebA-HQおよびWiki-Artデータセット上で提案されたモデルの最先端性能を示す。
さらに,提案したスケッチジェネレータでは,合成画像のスタイル一貫性と意味論的意味の両方を必要とするスタイルミキシングとスタイル転送に有望な性能を示す。
私たちのコードはhttps://github.com/odegeasslbc/Self-Supervised-Sketch-to-Image-Synthesis-PyTorchで利用可能です。
関連論文リスト
- DiVAE: Photorealistic Images Synthesis with Denoising Diffusion Decoder [73.1010640692609]
本稿では,拡散デコーダ(DiVAE)を用いたVQ-VAEアーキテクチャモデルを提案する。
我々のモデルは最先端の成果を達成し、さらに多くのフォトリアリスティックな画像を生成する。
論文 参考訳(メタデータ) (2022-06-01T10:39:12Z) - A Shared Representation for Photorealistic Driving Simulators [83.5985178314263]
本稿では、識別器アーキテクチャを再考することにより、生成画像の品質を向上させることを提案する。
シーンセグメンテーションマップや人体ポーズといったセマンティックインプットによって画像が生成されるという問題に焦点が当てられている。
我々は,意味的セグメンテーション,コンテンツ再構成,および粗い粒度の逆解析を行うのに十分な情報をエンコードする,共有潜在表現を学習することを目指している。
論文 参考訳(メタデータ) (2021-12-09T18:59:21Z) - Face sketch to photo translation using generative adversarial networks [1.0312968200748118]
我々は、訓練済みの顔画像生成モデルを用いて、高品質な自然顔写真を合成する。
入力スケッチから抽出した顔の特徴を、顔生成モデルの潜在空間のベクトルにマッピングするネットワークを訓練する。
提案モデルでは,SSIM指数で0.655,97.59%のランク-1顔認識率が得られた。
論文 参考訳(メタデータ) (2021-10-23T20:01:20Z) - Sketch Me A Video [32.38205496481408]
本稿では、2つの粗悪なドーンスケッチを入力としてのみ使用して、リアルなポートレートビデオを作成することで、新しいビデオ合成タスクを提案する。
2段階のSketch-to-Videoモデルが提案されている。
論文 参考訳(メタデータ) (2021-10-10T05:40:11Z) - Spatial-Separated Curve Rendering Network for Efficient and
High-Resolution Image Harmonization [59.19214040221055]
本稿では,空間分離型曲線描画ネットワーク(S$2$CRNet)を提案する。
提案手法は従来の手法と比較して90%以上のパラメータを減少させる。
提案手法は,既存の手法よりも10ドル以上高速な高解像度画像をリアルタイムにスムーズに処理することができる。
論文 参考訳(メタデータ) (2021-09-13T07:20:16Z) - StackGAN: Facial Image Generation Optimizations [0.0]
現在の最先端のフォトリアリスティック・ジェネレータは計算コストが高く、不安定な訓練過程を伴い、高次元空間で異なる実空間と合成分布を持つ。
そこで我々は,条件付きジェネレータを組み込んだStackGANアーキテクチャの変種を提案する。
我々のモデルはCelebA顔画像データセットを用いて訓練され、エッジ画像のFr'echet Inception Distance(FID)スコア73、合成エッジ画像のグレースケール画像のスコア59を達成した。
論文 参考訳(メタデータ) (2021-08-30T15:04:47Z) - SSH: A Self-Supervised Framework for Image Harmonization [97.16345684998788]
我々は、編集せずに「自由」な自然画像だけで訓練できる新しい自己改善調和フレームワーク(SSH)を提案する。
提案したSSHは,基準指標,視覚的品質,主観的ユーザスタディにおいて,従来の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2021-08-15T19:51:33Z) - StyleMeUp: Towards Style-Agnostic Sketch-Based Image Retrieval [119.03470556503942]
クロスモーダルマッチング問題は通常、写真とスケッチのモダリティ間で共有されるセマンティックコンテンツを保存する共同埋め込み空間を学習することによって解決される。
効果的なモデルには、このスタイルの多様性を明確に説明する必要がある。
我々のモデルは、モデム間で共有されるセマンティックコンテンツだけでなく、目に見えないユーザースタイルにも適応できるので、モデルは真に不可知的です。
論文 参考訳(メタデータ) (2021-03-29T15:44:19Z) - You Only Need Adversarial Supervision for Semantic Image Synthesis [84.83711654797342]
我々は,高品質な結果を得るためには敵対的監督のみを必要とする,新しい簡易ganモデルを提案する。
本モデルによって合成された画像はより多様であり,実画像の色やテクスチャに密接に従っている。
論文 参考訳(メタデータ) (2020-12-08T23:00:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。