論文の概要: LSC-GAN: Latent Style Code Modeling for Continuous Image-to-image
Translation
- arxiv url: http://arxiv.org/abs/2110.05052v1
- Date: Mon, 11 Oct 2021 07:46:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 18:00:30.405581
- Title: LSC-GAN: Latent Style Code Modeling for Continuous Image-to-image
Translation
- Title(参考訳): LSC-GAN:連続画像画像変換のための潜在型コードモデリング
- Authors: Qiusheng Huang, Xueqi Hu, Li Sun and Qingli Li
- Abstract要約: 本稿では,連続的なドメイン間のI2I翻訳モデルを構築する。
連続的な翻訳に対処するため、我々は2方向に沿って潜在スタイルのコードを変更する編集モジュールを設計する。
年齢・視角変換実験により,提案手法が高品質な結果が得られることが示された。
- 参考スコア(独自算出の注目度): 9.692858539011446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image-to-image (I2I) translation is usually carried out among discrete
domains. However, image domains, often corresponding to a physical value, are
usually continuous. In other words, images gradually change with the value, and
there exists no obvious gap between different domains. This paper intends to
build the model for I2I translation among continuous varying domains. We first
divide the whole domain coverage into discrete intervals, and explicitly model
the latent style code for the center of each interval. To deal with continuous
translation, we design the editing modules, changing the latent style code
along two directions. These editing modules help to constrain the codes for
domain centers during training, so that the model can better understand the
relation among them. To have diverse results, the latent style code is further
diversified with either the random noise or features from the reference image,
giving the individual style code to the decoder for label-based or
reference-based synthesis. Extensive experiments on age and viewing angle
translation show that the proposed method can achieve high-quality results, and
it is also flexible for users.
- Abstract(参考訳): 画像から画像への変換(i2i)は通常、離散領域間で行われる。
しかし、しばしば物理値に対応する画像領域は通常連続である。
言い換えれば、画像はその値によって徐々に変化し、異なる領域の間に明らかなギャップは存在しない。
本稿では,連続的なドメイン間のI2I翻訳モデルを構築することを目的とする。
まず、ドメインのカバレッジ全体を個別の間隔に分割し、各間隔の中心の潜在スタイルコードを明示的にモデル化する。
連続翻訳を扱うために,我々は2方向に沿って潜在スタイルコードを変更する編集モジュールを設計した。
これらの編集モジュールは、トレーニング中のドメインセンタのコードを制限するのに役立ち、モデルがそれらの関係をよりよく理解できるようにします。
様々な結果を得るために、潜在スタイルコードは、基準画像からのランダムノイズまたは特徴によりさらに多様化され、ラベルベースまたは参照ベース合成のためのデコーダに個々のスタイルコードを与える。
年齢・視角変換に関する大規模な実験により,提案手法は高品質な結果が得られるとともに,ユーザにも柔軟であることが示された。
関連論文リスト
- Frequency-Controlled Diffusion Model for Versatile Text-Guided Image-to-Image Translation [17.30877810859863]
大規模テキスト・ツー・イメージ拡散モデル(T2I)は画像・画像翻訳(I2I)の強力なツールとして登場した。
本稿では,周波数制御拡散モデル(FCDiffusion)を提案する。
論文 参考訳(メタデータ) (2024-07-03T11:05:19Z) - Smooth image-to-image translations with latent space interpolations [64.8170758294427]
マルチドメインイメージ・トゥ・イメージ(I2I)変換は、ターゲットドメインのスタイルに応じてソースイメージを変換することができる。
我々の正規化技術は、最先端のI2I翻訳を大きなマージンで改善できることを示す。
論文 参考訳(メタデータ) (2022-10-03T11:57:30Z) - A Style-aware Discriminator for Controllable Image Translation [10.338078700632423]
現在の画像から画像への変換は、トレーニング中に使用されるクラス以外の出力領域を制御しない。
本稿では,批判的かつ条件を提供するスタイルとして機能するスタイル認識型識別器を提案する。
複数のデータセットの実験では、提案モデルが現在の最先端画像から画像への変換方法より優れていることが確認されている。
論文 参考訳(メタデータ) (2022-03-29T09:13:33Z) - Multi-domain Unsupervised Image-to-Image Translation with Appearance
Adaptive Convolution [62.4972011636884]
本稿では,MDUIT(Multi-domain unsupervised image-to-image translation)フレームワークを提案する。
我々は、分解されたコンテンツ特徴と外観適応的畳み込みを利用して、画像をターゲットの外観に変換する。
提案手法は,最先端の手法と比較して,複数の領域で視覚的に多様かつ妥当な結果が得られることを示す。
論文 参考訳(メタデータ) (2022-02-06T14:12:34Z) - Separating Content and Style for Unsupervised Image-to-Image Translation [20.44733685446886]
教師なしのイメージ・ツー・イメージ翻訳は、2つの視覚領域間のマッピングを未ペアのサンプルで学習することを目的としている。
統合されたフレームワークでコンテンツコードとスタイルコードを同時に分離することを提案する。
潜在機能と高レベルのドメイン不変タスクの相関から,提案手法は優れた性能を示す。
論文 参考訳(メタデータ) (2021-10-27T12:56:50Z) - ISF-GAN: An Implicit Style Function for High-Resolution Image-to-Image
Translation [55.47515538020578]
本研究は,マルチモーダル画像とマルチドメイン画像の直接変換を実現する暗黙的スタイル関数 (ISF) を提案する。
ヒトの顔と動物に対する手術の結果は,ベースラインよりも有意に改善した。
我々のモデルは、事前訓練された無条件GANを用いて、高解像度で費用対効果の高いマルチモーダル・アントラクショナル・イメージ・ツー・イメージ翻訳を可能にする。
論文 参考訳(メタデータ) (2021-09-26T04:51:39Z) - Smoothing the Disentangled Latent Style Space for Unsupervised
Image-to-Image Translation [56.55178339375146]
イメージ・ツー・イメージ(I2I)マルチドメイン翻訳モデルは通常、セマンティックな結果の品質を用いて評価される。
本稿では,翻訳ネットワークがスムーズでゆがみのあるラテントスタイル空間を学習するのに役立つ,3つの特定の損失に基づく新たなトレーニングプロトコルを提案する。
論文 参考訳(メタデータ) (2021-06-16T17:58:21Z) - Unpaired Image-to-Image Translation via Latent Energy Transport [61.62293304236371]
画像から画像への変換は、2つの視覚領域間の識別的ターゲットスタイルに変換しながら、ソースの内容を保存することを目的としている。
本稿では,この課題に対して,事前訓練されたオートエンコーダの潜在空間にエネルギーベースモデル(EBM)を配置することを提案する。
我々のモデルは1024$times$1024- resolution unpaired image translationに適用できる最初のモデルである。
論文 参考訳(メタデータ) (2020-12-01T17:18:58Z) - Unsupervised Image-to-Image Translation via Pre-trained StyleGAN2
Network [73.5062435623908]
本稿では,一連のモデル変換によって対象領域に新たなモデルを生成する新しいI2I翻訳手法を提案する。
潜在ベクトルを生成されたモデルに入力することで、ソースドメインとターゲットドメインの間でI2I翻訳を行うことができる。
論文 参考訳(メタデータ) (2020-10-12T13:51:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。