論文の概要: Progressive Energy-Based Cooperative Learning for Multi-Domain
Image-to-Image Translation
- arxiv url: http://arxiv.org/abs/2306.14448v1
- Date: Mon, 26 Jun 2023 06:34:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 14:55:15.894650
- Title: Progressive Energy-Based Cooperative Learning for Multi-Domain
Image-to-Image Translation
- Title(参考訳): マルチドメイン画像から画像への変換のための進歩的エネルギーベース協調学習
- Authors: Weinan Song, Yaxuan Zhu, Lei He, Yingnian Wu, and Jianwen Xie
- Abstract要約: マルチドメイン画像・画像翻訳のための新しいエネルギーベース協調学習フレームワークについて検討する。
フレームワークは、ディスクリプタ、トランスレータ、スタイルエンコーダ、スタイルジェネレータの4つのコンポーネントで構成されている。
- 参考スコア(独自算出の注目度): 59.74573060123147
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper studies a novel energy-based cooperative learning framework for
multi-domain image-to-image translation. The framework consists of four
components: descriptor, translator, style encoder, and style generator. The
descriptor is a multi-head energy-based model that represents a multi-domain
image distribution. The components of translator, style encoder, and style
generator constitute a diversified image generator. Specifically, given an
input image from a source domain, the translator turns it into a stylised
output image of the target domain according to a style code, which can be
inferred by the style encoder from a reference image or produced by the style
generator from a random noise. Since the style generator is represented as an
domain-specific distribution of style codes, the translator can provide a
one-to-many transformation (i.e., diversified generation) between source domain
and target domain. To train our framework, we propose a likelihood-based
multi-domain cooperative learning algorithm to jointly train the multi-domain
descriptor and the diversified image generator (including translator, style
encoder, and style generator modules) via multi-domain MCMC teaching, in which
the descriptor guides the diversified image generator to shift its probability
density toward the data distribution, while the diversified image generator
uses its randomly translated images to initialize the descriptor's Langevin
dynamics process for efficient sampling.
- Abstract(参考訳): 本稿では,マルチドメイン画像・画像翻訳のための新しいエネルギーベース協調学習フレームワークについて検討する。
フレームワークは、ディスクリプタ、トランスレータ、スタイルエンコーダ、スタイルジェネレータの4つのコンポーネントで構成されている。
ディスクリプタはマルチヘッドエネルギーベースのモデルであり、マルチドメイン画像分布を表す。
トランスレータ、スタイルエンコーダ、スタイルジェネレータのコンポーネントは、多様化したイメージジェネレータを構成する。
具体的には、ソースドメインからの入力画像が与えられた場合、トランスレータは、基準画像からスタイルエンコーダにより推測されるか、ランダムノイズからスタイルジェネレータによって生成されるスタイルコードに従って、ターゲットドメインのスタイル化された出力画像に変換する。
スタイルジェネレータは、スタイルコードのドメイン固有の分布として表現されるため、トランスレータはソースドメインとターゲットドメインの間の1対多変換(つまり、多様化生成)を提供できる。
To train our framework, we propose a likelihood-based multi-domain cooperative learning algorithm to jointly train the multi-domain descriptor and the diversified image generator (including translator, style encoder, and style generator modules) via multi-domain MCMC teaching, in which the descriptor guides the diversified image generator to shift its probability density toward the data distribution, while the diversified image generator uses its randomly translated images to initialize the descriptor's Langevin dynamics process for efficient sampling.
関連論文リスト
- I2I-Galip: Unsupervised Medical Image Translation Using Generative Adversarial CLIP [30.506544165999564]
ペアの例が存在しないため、画像から画像への翻訳は難しい作業である。
我々はイメージ・ツー・イメージ・ジェネレーティブ・アドバイザリアル・CLIP (I2I-Galip) という新しい画像・画像変換フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-19T01:44:50Z) - ARTEMIS: Using GANs with Multiple Discriminators to Generate Art [0.0]
本稿では,抽象芸術を創出する新しい手法を提案する。
まず、事前訓練されたVGGネットワークでソース画像から抽出された画像のスタイル表現を符号化し、復号するオートエンコーダを訓練する。
オートエンコーダのデコーダ成分を抽出し、GANのジェネレータとして使用する。
論文 参考訳(メタデータ) (2023-11-14T16:19:29Z) - SCONE-GAN: Semantic Contrastive learning-based Generative Adversarial
Network for an end-to-end image translation [18.93434486338439]
SCONE-GANはリアルで多様な風景画像を生成する学習に有効であることが示されている。
より現実的で多様な画像生成のために、スタイル参照画像を導入します。
画像から画像への変換と屋外画像のスタイリングのための提案アルゴリズムを検証した。
論文 参考訳(メタデータ) (2023-11-07T10:29:16Z) - Unified Multi-Modal Latent Diffusion for Joint Subject and Text
Conditional Image Generation [63.061871048769596]
本稿では, 特定対象を含む画像と共同テキストを入力シーケンスとして用いた, Unified Multi-Modal Latent Diffusion (UMM-Diffusion) を提案する。
より具体的には、入力テキストと画像の両方を1つの統一マルチモーダル潜在空間に符号化する。
入力テキストと画像の両面から複雑な意味を持つ高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-03-16T13:50:20Z) - Gradient Adjusting Networks for Domain Inversion [82.72289618025084]
StyleGAN2はセマンティック編集をサポートする強力な画像生成エンジンであることが実証された。
本稿では,画像毎の最適化手法を提案する。この手法は,生成元の重みを局所的に編集できるように,StyleGAN2ジェネレータをチューニングする。
我々の実験は、この非常にアクティブな領域における最先端技術よりも大きなパフォーマンス差を示している。
論文 参考訳(メタデータ) (2023-02-22T14:47:57Z) - Towards Diverse and Faithful One-shot Adaption of Generative Adversarial
Networks [54.80435295622583]
ワンショット生成ドメイン適応は、訓練済みのジェネレータを1つの参照画像のみを使用して、新しいドメインに転送することを目的としている。
本稿では、多種多様な世代と忠実な適応のための新しい一発生成ドメイン適応法、すなわち、DiFaを提案する。
論文 参考訳(メタデータ) (2022-07-18T16:29:41Z) - StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators [63.85888518950824]
生成モデルを新しいドメインに移行できるテキスト駆動方式を提案する。
自然言語のプロンプトと数分の訓練によって、我々の手法は複数のドメインにまたがってジェネレータを適応させることができることを示す。
論文 参考訳(メタデータ) (2021-08-02T14:46:46Z) - Retrieval Guided Unsupervised Multi-domain Image-to-Image Translation [59.73535607392732]
画像から画像への変換は、ある視覚領域から別の領域へ画像を変換するマッピングを学ぶことを目的としている。
本稿では,画像から画像への変換作業を支援するための画像検索システムを提案する。
論文 参考訳(メタデータ) (2020-08-11T20:11:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。