論文の概要: Encoding in Style: a StyleGAN Encoder for Image-to-Image Translation
- arxiv url: http://arxiv.org/abs/2008.00951v2
- Date: Wed, 21 Apr 2021 12:53:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 06:41:50.044727
- Title: Encoding in Style: a StyleGAN Encoder for Image-to-Image Translation
- Title(参考訳): スタイルエンコーディング:画像から画像への変換のためのstyleganエンコーダ
- Authors: Elad Richardson, Yuval Alaluf, Or Patashnik, Yotam Nitzan, Yaniv Azar,
Stav Shapiro, Daniel Cohen-Or
- Abstract要約: 一般的な画像から画像への変換フレームワークであるピクセル2スタイル2ピクセル(pSp)を提案する。
我々のpSpフレームワークは、事前訓練されたStyleGANジェネレータに供給される一連のスタイルベクトルを直接生成する新しいエンコーダネットワークに基づいている。
- 参考スコア(独自算出の注目度): 42.62624182740679
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a generic image-to-image translation framework, pixel2style2pixel
(pSp). Our pSp framework is based on a novel encoder network that directly
generates a series of style vectors which are fed into a pretrained StyleGAN
generator, forming the extended W+ latent space. We first show that our encoder
can directly embed real images into W+, with no additional optimization. Next,
we propose utilizing our encoder to directly solve image-to-image translation
tasks, defining them as encoding problems from some input domain into the
latent domain. By deviating from the standard invert first, edit later
methodology used with previous StyleGAN encoders, our approach can handle a
variety of tasks even when the input image is not represented in the StyleGAN
domain. We show that solving translation tasks through StyleGAN significantly
simplifies the training process, as no adversary is required, has better
support for solving tasks without pixel-to-pixel correspondence, and inherently
supports multi-modal synthesis via the resampling of styles. Finally, we
demonstrate the potential of our framework on a variety of facial
image-to-image translation tasks, even when compared to state-of-the-art
solutions designed specifically for a single task, and further show that it can
be extended beyond the human facial domain.
- Abstract(参考訳): 本稿では,画像から画像への汎用翻訳フレームワーク pixel2style2pixel (psp) を提案する。
我々のpSpフレームワークは、事前訓練されたStyleGANジェネレータに供給される一連のスタイルベクトルを直接生成する新しいエンコーダネットワークに基づいており、拡張されたW+潜在空間を形成する。
まず、我々のエンコーダは、W+に実際の画像を直接埋め込むことができるが、追加の最適化は行わない。
次に,エンコーダを用いて画像から画像への変換を直接解決し,入力領域から潜在領域への符号化問題として定義する。
従来のstyleganエンコーダでは,入力画像がstyleganドメインに表示されていなくても,標準逆変換をまず切り離し,後続の方法論を編集することで様々なタスクを処理できる。
そこで我々は,StyleGANによる翻訳タスクの解法により,学習プロセスが大幅に単純化され,画素間対応のないタスクの解法サポートが向上し,スタイルの再サンプリングによるマルチモーダル合成が本質的にサポートされたことを示す。
最後に、一つのタスクに特化して設計された最先端のソリューションと比較しても、さまざまな顔画像から画像への翻訳タスクにおける我々のフレームワークの可能性を示し、さらに人間の顔領域を超えて拡張できることを示します。
関連論文リスト
- Masked and Adaptive Transformer for Exemplar Based Image Translation [16.93344592811513]
ドメイン間のセマンティックマッチングは難しい。
正確なクロスドメイン対応を学習するためのマスク付き適応変換器(MAT)を提案する。
品質識別型スタイル表現を得るための新しいコントラスト型スタイル学習法を考案する。
論文 参考訳(メタデータ) (2023-03-30T03:21:14Z) - FlexIT: Towards Flexible Semantic Image Translation [59.09398209706869]
我々は,任意の入力画像とユーザが定義したテキストを編集するための新しい方法であるFlexITを提案する。
まず、FlexITは入力画像とテキストをCLIPマルチモーダル埋め込み空間内の単一のターゲットポイントに結合する。
我々は、入力画像を目標点に向けて反復的に変換し、新しい正規化用語で一貫性と品質を確保する。
論文 参考訳(メタデータ) (2022-03-09T13:34:38Z) - ISF-GAN: An Implicit Style Function for High-Resolution Image-to-Image
Translation [55.47515538020578]
本研究は,マルチモーダル画像とマルチドメイン画像の直接変換を実現する暗黙的スタイル関数 (ISF) を提案する。
ヒトの顔と動物に対する手術の結果は,ベースラインよりも有意に改善した。
我々のモデルは、事前訓練された無条件GANを用いて、高解像度で費用対効果の高いマルチモーダル・アントラクショナル・イメージ・ツー・イメージ翻訳を可能にする。
論文 参考訳(メタデータ) (2021-09-26T04:51:39Z) - StEP: Style-based Encoder Pre-training for Multi-modal Image Synthesis [68.3787368024951]
マルチモーダルイメージ・ツー・イメージ(I2I)翻訳のための新しいアプローチを提案する。
我々は、出力領域の可変性をモデル化する潜伏埋め込みをジェネレータと共同で学習する。
具体的には、新しいプロキシタスクを用いて汎用的なスタイルエンコーダを事前訓練し、任意のドメインから低次元のスタイル潜在空間への画像の埋め込みを学習する。
論文 参考訳(メタデータ) (2021-04-14T19:58:24Z) - Unpaired Image-to-Image Translation via Latent Energy Transport [61.62293304236371]
画像から画像への変換は、2つの視覚領域間の識別的ターゲットスタイルに変換しながら、ソースの内容を保存することを目的としている。
本稿では,この課題に対して,事前訓練されたオートエンコーダの潜在空間にエネルギーベースモデル(EBM)を配置することを提案する。
我々のモデルは1024$times$1024- resolution unpaired image translationに適用できる最初のモデルである。
論文 参考訳(メタデータ) (2020-12-01T17:18:58Z) - In-Domain GAN Inversion for Real Image Editing [56.924323432048304]
トレーニング済みのGANジェネレータに実際のイメージを送出する一般的な方法は、遅延コードに戻すことである。
既存の反転法は、通常、画素値によってターゲット画像の再構成にフォーカスするが、反転したコードは元の潜伏空間のセマンティックドメインに着陸しない。
本稿では、入力画像を忠実に再構成し、変換されたコードが編集に意味のある意味を持つようにするためのドメイン内GAN逆変換手法を提案する。
論文 参考訳(メタデータ) (2020-03-31T18:20:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。