論文の概要: Semi-supervised Cycle-GAN for face photo-sketch translation in the wild
- arxiv url: http://arxiv.org/abs/2307.10281v1
- Date: Tue, 18 Jul 2023 10:58:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-21 16:28:46.965049
- Title: Semi-supervised Cycle-GAN for face photo-sketch translation in the wild
- Title(参考訳): 野生における顔写真翻訳のための半教師付きサイクロンGAN
- Authors: Chaofeng Chen, Wei Liu, Xiao Tan, Kwan-Yee K. Wong
- Abstract要約: セミサイクルGAN (Semi-Cycle-GAN) というノイズ注入方式による半教師付きアプローチを導入する。
SCGは、完全な教師付きアプローチよりもオーバーフィットの少ない、より合理的なスケッチ・ツー・フォトの結果を生成するのに役立つ。
実験により、SCGは公開ベンチマークで競合性能を達成し、野生の写真の優れた結果が得られることが示された。
- 参考スコア(独自算出の注目度): 27.283085555912137
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The performance of face photo-sketch translation has improved a lot thanks to
deep neural networks. GAN based methods trained on paired images can produce
high-quality results under laboratory settings. Such paired datasets are,
however, often very small and lack diversity. Meanwhile, Cycle-GANs trained
with unpaired photo-sketch datasets suffer from the \emph{steganography}
phenomenon, which makes them not effective to face photos in the wild. In this
paper, we introduce a semi-supervised approach with a noise-injection strategy,
named Semi-Cycle-GAN (SCG), to tackle these problems. For the first problem, we
propose a {\em pseudo sketch feature} representation for each input photo
composed from a small reference set of photo-sketch pairs, and use the
resulting {\em pseudo pairs} to supervise a photo-to-sketch generator
$G_{p2s}$. The outputs of $G_{p2s}$ can in turn help to train a sketch-to-photo
generator $G_{s2p}$ in a self-supervised manner. This allows us to train
$G_{p2s}$ and $G_{s2p}$ using a small reference set of photo-sketch pairs
together with a large face photo dataset (without ground-truth sketches). For
the second problem, we show that the simple noise-injection strategy works well
to alleviate the \emph{steganography} effect in SCG and helps to produce more
reasonable sketch-to-photo results with less overfitting than fully supervised
approaches. Experiments show that SCG achieves competitive performance on
public benchmarks and superior results on photos in the wild.
- Abstract(参考訳): ディープニューラルネットワークのおかげで、顔写真スケッチ変換の性能が大幅に向上した。
ペア画像に基づいてトレーニングされたGANベースの手法は、実験室の設定下で高品質な結果が得られる。
しかし、このようなペアデータセットは、しばしば非常に小さく、多様性に欠ける。
一方、未ペアのフォトスケッチデータセットでトレーニングされたCycle-GANは、‘emph{steganography}’現象に悩まされている。
本稿では,これらの問題に対処するために,セミサイクルGAN (Semi-Cycle-GAN) というノイズ注入戦略を用いた半教師付きアプローチを提案する。
最初の問題として、写真-スケッチペアの小さな参照集合からなる各入力写真に対する「擬似スケッチ特徴」表現を提案し、その結果の「擬似ペア」を用いて、写真-スケッチジェネレータ$G_{p2s}$を監督する。
g_{p2s}$の出力は、スケッチから写真へのジェネレータ$g_{s2p}$を自己監督的に訓練するのに役立ちます。
これにより、小さな参照セットのフォトスケッチペアと大きな顔写真データセット(接地スケッチなしで)を使って、$g_{p2s}$と$g_{s2p}$をトレーニングできます。
第2の問題は、単純なノイズインジェクション戦略が、scgにおける \emph{steganography}効果を緩和し、完全な教師付きアプローチよりもオーバーフィットの少ない、より合理的なスケッチから写真への結果を生成するのに役立つことを示すことである。
実験によると、scgは公開ベンチマークで競争力があり、写真でも優れた結果が得られる。
関連論文リスト
- Implicit Image-to-Image Schrodinger Bridge for Image Restoration [13.138398298354113]
Image-to-Image Schr"odinger Bridge (I$2$SB)は、破損した画像から生成プロセスを開始することで、有望な代替手段を提供する。
我々は,Imlicit Image-to-Image Schr"odinger Bridge (I$3$SB)を導入し,I$2$SBの生成過程をさらに加速する。
論文 参考訳(メタデータ) (2024-03-10T03:22:57Z) - Robust GAN inversion [5.1359892878090845]
本稿では,ネイティブの潜伏空間を$W$で処理し,画像の詳細を復元するためにジェネレータネットワークをチューニングする手法を提案する。
Flickr-Faces-HQ と LSUN Church の2つの複雑なデータセットに対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2023-08-31T07:47:11Z) - EGC: Image Generation and Classification via a Diffusion Energy-Based
Model [59.591755258395594]
この研究は、エネルギーベースの分類器とジェネレータ、すなわちEMCを導入し、単一のニューラルネットワークを使用して両方のタスクで優れたパフォーマンスを実現する。
EGCはImageNet-1k、CelebA-HQ、LSUN Churchの最先端アプローチと比較して、競争力のある生成結果を達成している。
この研究は、ネットワークパラメータの単一セットを使用して両方のタスクを同時に実行しようとする最初の試みである。
論文 参考訳(メタデータ) (2023-04-04T17:59:14Z) - CLIP for All Things Zero-Shot Sketch-Based Image Retrieval, Fine-Grained
or Not [109.69076457732632]
ゼロショットスケッチに基づく画像検索(ZS-SBIR)におけるCLIPの利用
私たちはこのシナジーを達成するのにいかに最適かという新しいデザインを提唱した。
これまでの最先端技術よりも26.9%の領域で顕著なパフォーマンス向上が観察された。
論文 参考訳(メタデータ) (2023-03-23T17:02:00Z) - Probabilistic PolarGMM: Unsupervised Cluster Learning of Very Noisy
Projection Images of Unknown Pose [0.5156484100374059]
本研究では,予測(EM)アルゴリズムを用いてソフトクラスタを教師なしで学習する方法を示す。
得られた回転クラスターは、ペアのアライメント不完全な存在に対して堅牢である。
シミュレーションされたCryo-EMデータセットのベンチマークでは、標準の単一粒子Cryo-EMツールと比較して、PolarGMMのパフォーマンスが向上している。
論文 参考訳(メタデータ) (2022-06-26T20:20:10Z) - Near Perfect GAN Inversion [17.745342857726925]
写真のほぼ完全な再構築を実現するアルゴリズムを導出する。
このアプローチは、複製したい実画像と区別できない合成画像を生成するだけでなく、これらの画像は容易に編集可能であることを示す。
論文 参考訳(メタデータ) (2022-02-23T23:58:13Z) - Learning a Weight Map for Weakly-Supervised Localization [93.91375268580806]
我々は、入力画像から出力する生成ネットワーク$g$、画像内の物体の位置を示すピクセル単位の重みマップをトレーニングする。
提案手法は, 既存の局所化手法よりも, 難解な粒度分類データセットに対して, かなりのマージンで優れていることを示す。
論文 参考訳(メタデータ) (2021-11-28T12:45:23Z) - More Photos are All You Need: Semi-Supervised Learning for Fine-Grained
Sketch Based Image Retrieval [112.1756171062067]
クロスモーダル検索のための新しい半監視フレームワークについて紹介する。
私たちの設計の中心には、連続したフォトツースケッチ生成モデルがあります。
また,不適切な生成を誘導する判別器誘導機構も導入する。
論文 参考訳(メタデータ) (2021-03-25T17:27:08Z) - Ultra-Data-Efficient GAN Training: Drawing A Lottery Ticket First, Then
Training It Toughly [114.81028176850404]
限られたデータでGAN(generative adversarial network)を訓練すると、一般的に性能が低下し、モデルが崩壊する。
データハングリーGANトレーニングを2つのシーケンシャルサブプロブレムに分解する。
このような協調フレームワークにより、より低い複雑さとよりデータ効率のよいサブ問題に集中することができます。
論文 参考訳(メタデータ) (2021-02-28T05:20:29Z) - Permuted AdaIN: Reducing the Bias Towards Global Statistics in Image
Classification [97.81205777897043]
近年の研究では、畳み込みニューラルネットワーク分類器は形状を犠牲にしてテクスチャを過度に依存していることが示されている。
一方、形状と局所像の区別は類似しているが異なるが、一方、グローバル画像統計は異なる。
提案手法は,pAdaIN (Permuted Adaptive Instance Normalization) と呼ばれ,画像分類器の隠蔽層におけるグローバル統計の表現を減少させる。
論文 参考訳(メタデータ) (2020-10-09T16:38:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。