論文の概要: ISF-GAN: An Implicit Style Function for High-Resolution Image-to-Image
Translation
- arxiv url: http://arxiv.org/abs/2109.12492v1
- Date: Sun, 26 Sep 2021 04:51:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2021-09-28 15:28:55.391589
- Title: ISF-GAN: An Implicit Style Function for High-Resolution Image-to-Image
Translation
- Title(参考訳): ISF-GAN:高分解能画像変換のためのインシシシトスタイル関数
- Authors: Yahui Liu, Yajing Chen, Linchao Bao, Nicu Sebe, Bruno Lepri, Marco De
Nadai
- Abstract要約: 本研究は,マルチモーダル画像とマルチドメイン画像の直接変換を実現する暗黙的スタイル関数 (ISF) を提案する。
ヒトの顔と動物に対する手術の結果は,ベースラインよりも有意に改善した。
我々のモデルは、事前訓練された無条件GANを用いて、高解像度で費用対効果の高いマルチモーダル・アントラクショナル・イメージ・ツー・イメージ翻訳を可能にする。
- 参考スコア(独自算出の注目度): 55.47515538020578
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, there has been an increasing interest in image editing methods that
employ pre-trained unconditional image generators (e.g., StyleGAN). However,
applying these methods to translate images to multiple visual domains remains
challenging. Existing works do not often preserve the domain-invariant part of
the image (e.g., the identity in human face translations), they do not usually
handle multiple domains, or do not allow for multi-modal translations. This
work proposes an implicit style function (ISF) to straightforwardly achieve
multi-modal and multi-domain image-to-image translation from pre-trained
unconditional generators. The ISF manipulates the semantics of an input latent
code to make the image generated from it lying in the desired visual domain.
Our results in human face and animal manipulations show significantly improved
results over the baselines. Our model enables cost-effective multi-modal
unsupervised image-to-image translations at high resolution using pre-trained
unconditional GANs. The code and data are available at:
\url{https://github.com/yhlleo/stylegan-mmuit}.
- Abstract(参考訳): 近年,事前学習された無条件画像生成装置(例えばstylegan)を用いた画像編集手法への関心が高まっている。
しかし、これらの手法を用いて画像を複数の視覚領域に翻訳することは依然として困難である。
既存の作品では、画像のドメイン不変部分(例えば、人間の顔の翻訳におけるアイデンティティ)を保存しないことが多く、通常は複数のドメインを扱わないか、マルチモーダル翻訳を許可しない。
本研究は,事前学習した非条件生成器からのマルチモーダル・マルチドメイン画像間変換を実現するための暗黙的スタイル関数(isf)を提案する。
ISFは入力潜在コードのセマンティクスを操作して、所望の視覚領域に横たわる画像を生成する。
ヒトの顔と動物に対する手術の結果は,ベースラインよりも有意に改善した。
我々のモデルは、事前訓練された無条件GANを用いて、高解像度で費用対効果の高いマルチモーダル・アントラクショナル・イメージ・ツー・イメージ翻訳を可能にする。
コードとデータは、 \url{https://github.com/yhlleo/stylegan-mmuit} で入手できる。
関連論文リスト
- Unsupervised Image-to-Image Translation with Generative Prior [103.54337984566877]
教師なし画像画像変換は、ペアデータなしで2つの視覚領域間の翻訳を学習することを目的としている。
本稿では,GP-UNIT(Generative Prior-guided UN Image-to-image Translation)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-07T17:59:23Z) - Multi-domain Unsupervised Image-to-Image Translation with Appearance
Adaptive Convolution [62.4972011636884]
本稿では,MDUIT(Multi-domain unsupervised image-to-image translation)フレームワークを提案する。
我々は、分解されたコンテンツ特徴と外観適応的畳み込みを利用して、画像をターゲットの外観に変換する。
提案手法は,最先端の手法と比較して,複数の領域で視覚的に多様かつ妥当な結果が得られることを示す。
論文 参考訳(メタデータ) (2022-02-06T14:12:34Z) - Separating Content and Style for Unsupervised Image-to-Image Translation [20.44733685446886]
教師なしのイメージ・ツー・イメージ翻訳は、2つの視覚領域間のマッピングを未ペアのサンプルで学習することを目的としている。
統合されたフレームワークでコンテンツコードとスタイルコードを同時に分離することを提案する。
潜在機能と高レベルのドメイン不変タスクの相関から,提案手法は優れた性能を示す。
論文 参考訳(メタデータ) (2021-10-27T12:56:50Z) - Multiple GAN Inversion for Exemplar-based Image-to-Image Translation [0.0]
実例に基づく画像-画像変換のための複数GANインバージョンを提案する。
提案するMultiple GAN Inversionは,階層数選択における自己決定アルゴリズムによる人間の介入を回避する。
実験結果から,提案手法の利点を既存の最先端の画像画像変換法と比較した。
論文 参考訳(メタデータ) (2021-03-26T13:46:14Z) - Unpaired Image-to-Image Translation via Latent Energy Transport [61.62293304236371]
画像から画像への変換は、2つの視覚領域間の識別的ターゲットスタイルに変換しながら、ソースの内容を保存することを目的としている。
本稿では,この課題に対して,事前訓練されたオートエンコーダの潜在空間にエネルギーベースモデル(EBM)を配置することを提案する。
我々のモデルは1024$times$1024- resolution unpaired image translationに適用できる最初のモデルである。
論文 参考訳(メタデータ) (2020-12-01T17:18:58Z) - Retrieval Guided Unsupervised Multi-domain Image-to-Image Translation [59.73535607392732]
画像から画像への変換は、ある視覚領域から別の領域へ画像を変換するマッピングを学ぶことを目的としている。
本稿では,画像から画像への変換作業を支援するための画像検索システムを提案する。
論文 参考訳(メタデータ) (2020-08-11T20:11:53Z) - COCO-FUNIT: Few-Shot Unsupervised Image Translation with a Content
Conditioned Style Encoder [70.23358875904891]
教師なし画像画像変換は、与えられた領域内の画像と異なる領域内の類似画像とのマッピングを学習することを目的としている。
入力画像に条件付けされたサンプル画像のスタイル埋め込みを計算し、新しい数ショット画像変換モデルCOCO-FUNITを提案する。
本モデルは,コンテンツ損失問題に対処する上での有効性を示す。
論文 参考訳(メタデータ) (2020-07-15T02:01:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。