論文の概要: Unpaired Image-to-Image Translation via Latent Energy Transport
- arxiv url: http://arxiv.org/abs/2012.00649v3
- Date: Sun, 23 May 2021 19:54:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-30 20:10:47.150840
- Title: Unpaired Image-to-Image Translation via Latent Energy Transport
- Title(参考訳): 遅延エネルギー輸送による画像間変換
- Authors: Yang Zhao, Changyou Chen
- Abstract要約: 画像から画像への変換は、2つの視覚領域間の識別的ターゲットスタイルに変換しながら、ソースの内容を保存することを目的としている。
本稿では,この課題に対して,事前訓練されたオートエンコーダの潜在空間にエネルギーベースモデル(EBM)を配置することを提案する。
我々のモデルは1024$times$1024- resolution unpaired image translationに適用できる最初のモデルである。
- 参考スコア(独自算出の注目度): 61.62293304236371
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image-to-image translation aims to preserve source contents while translating
to discriminative target styles between two visual domains. Most works apply
adversarial learning in the ambient image space, which could be computationally
expensive and challenging to train. In this paper, we propose to deploy an
energy-based model (EBM) in the latent space of a pretrained autoencoder for
this task. The pretrained autoencoder serves as both a latent code extractor
and an image reconstruction worker. Our model, LETIT, is based on the
assumption that two domains share the same latent space, where latent
representation is implicitly decomposed as a content code and a domain-specific
style code. Instead of explicitly extracting the two codes and applying
adaptive instance normalization to combine them, our latent EBM can implicitly
learn to transport the source style code to the target style code while
preserving the content code, an advantage over existing image translation
methods. This simplified solution is also more efficient in the one-sided
unpaired image translation setting. Qualitative and quantitative comparisons
demonstrate superior translation quality and faithfulness for content
preservation. Our model is the first to be applicable to
1024$\times$1024-resolution unpaired image translation to the best of our
knowledge.
- Abstract(参考訳): 画像から画像への変換は、2つの視覚的ドメイン間の識別対象スタイルに翻訳しながら、ソースコンテンツを保存することを目的としている。
ほとんどの作品は、周囲の画像空間に敵対的な学習を適用しており、これは計算コストが高く、訓練が難しい可能性がある。
本稿では,この課題に対する事前学習オートエンコーダの潜在空間にエネルギーベースモデル(EBM)を配置することを提案する。
予め訓練されたオートエンコーダは、潜伏コード抽出器および画像再構成作業員の両方として機能する。
LETITは2つのドメインが同じ潜在空間を共有しているという仮定に基づいており、潜在表現はコンテンツコードとドメイン固有のスタイルコードとして暗黙的に分解される。
2つのコードを明示的に抽出し、それらを統合するために適応型インスタンス正規化を適用する代わりに、潜在ebmは、コンテンツコードを維持しながら、ソーススタイルのコードをターゲットのスタイルコードにトランスポートすることを暗黙的に学習することができる。
この単純化されたソリューションは、一方の未ペア画像翻訳設定においてより効率的である。
質的および定量的比較は、コンテンツ保存に優れた翻訳品質と忠実さを示す。
私たちのモデルは1024$\times$1024の解像度の未ペア画像翻訳に適用できる最初のモデルです。
関連論文リスト
- ACE: Zero-Shot Image to Image Translation via Pretrained
Auto-Contrastive-Encoder [2.1874189959020427]
本研究では,同じデータ分布内のサンプルの類似点と相違点を学習し,画像の特徴を抽出する手法を提案する。
ACEの設計により、画像翻訳タスクのトレーニングを初めて行うことなく、ゼロショット画像から画像への変換を実現することができる。
本モデルは,ゼロショット学習を用いたマルチモーダル画像翻訳タスクにおける競合的な結果も達成する。
論文 参考訳(メタデータ) (2023-02-22T23:52:23Z) - DSI2I: Dense Style for Unpaired Image-to-Image Translation [70.93865212275412]
Inpaired exemplar-based image-to-image (UEI2I) 翻訳は、ソース画像をターゲット画像領域に変換する。
我々は,スタイルを高密度な特徴写像として表現し,外部意味情報を必要とせず,よりきめ細かなソース画像の転送を可能にすることを提案する。
以上の結果から,本手法による翻訳は,より多様であり,資料内容の保存性が向上し,最先端の手法と比較すると,先例に近づいたことが示唆された。
論文 参考訳(メタデータ) (2022-12-26T18:45:25Z) - StyleFlow For Content-Fixed Image to Image Translation [15.441136520005578]
StyleFlowは、正規化フローと新しいStyle-Aware Normalization (SAN)モジュールで構成される新しいI2I翻訳モデルである。
我々のモデルは画像誘導翻訳とマルチモーダル合成の両方をサポートしている。
論文 参考訳(メタデータ) (2022-07-05T09:40:03Z) - Unsupervised Image-to-Image Translation with Generative Prior [103.54337984566877]
教師なし画像画像変換は、ペアデータなしで2つの視覚領域間の翻訳を学習することを目的としている。
本稿では,GP-UNIT(Generative Prior-guided UN Image-to-image Translation)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-07T17:59:23Z) - Image-to-Image Translation with Low Resolution Conditioning [0.28675177318965034]
本研究の目的は、高解像度(HR)画像から細部を転写して、ターゲットの粗い低解像度(LR)画像表現に適合させることである。
これは、あるイメージスタイルをターゲットコンテンツに変換することに集中する以前の方法とは異なる。
提案手法は, HRターゲット画像を生成するための生成モデルをトレーニングすることに依存し, 1) 対応するソース画像の固有情報を共有すること, 2) ダウンスケール時のLRターゲット画像と正しく一致させることである。
論文 参考訳(メタデータ) (2021-07-23T14:22:12Z) - StEP: Style-based Encoder Pre-training for Multi-modal Image Synthesis [68.3787368024951]
マルチモーダルイメージ・ツー・イメージ(I2I)翻訳のための新しいアプローチを提案する。
我々は、出力領域の可変性をモデル化する潜伏埋め込みをジェネレータと共同で学習する。
具体的には、新しいプロキシタスクを用いて汎用的なスタイルエンコーダを事前訓練し、任意のドメインから低次元のスタイル潜在空間への画像の埋め込みを学習する。
論文 参考訳(メタデータ) (2021-04-14T19:58:24Z) - Unsupervised Image-to-Image Translation via Pre-trained StyleGAN2
Network [73.5062435623908]
本稿では,一連のモデル変換によって対象領域に新たなモデルを生成する新しいI2I翻訳手法を提案する。
潜在ベクトルを生成されたモデルに入力することで、ソースドメインとターゲットドメインの間でI2I翻訳を行うことができる。
論文 参考訳(メタデータ) (2020-10-12T13:51:40Z) - Contrastive Learning for Unpaired Image-to-Image Translation [64.47477071705866]
画像から画像への変換では、出力の各パッチは、入力中の対応するパッチの内容を、ドメインに依存しない形で反映すべきである。
本研究では,両者の相互情報を最大化するために,コントラスト学習に基づく枠組みを提案する。
筆者らのフレームワークは、画質の向上とトレーニング時間の短縮を図りながら、画像から画像への翻訳設定の一方的な翻訳を可能にすることを実証している。
論文 参考訳(メタデータ) (2020-07-30T17:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。