論文の概要: Adaptable GAN Encoders for Image Reconstruction via Multi-type Latent
Vectors with Two-scale Attentions
- arxiv url: http://arxiv.org/abs/2108.10201v1
- Date: Mon, 23 Aug 2021 14:37:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-24 15:30:26.346478
- Title: Adaptable GAN Encoders for Image Reconstruction via Multi-type Latent
Vectors with Two-scale Attentions
- Title(参考訳): 2次元注意を有する多型潜時ベクトルによる画像再構成のための適応ganエンコーダ
- Authors: Cheng Yu, Wenmin Wang
- Abstract要約: このような問題に対処する新しい手法(MTV-TSA)を提案する。
遅延空間からMTV(Multi-type Latent vector)、画像から2スケールアテンション(TSA)を作成することで、エンコーダのセットを設計することができる。
デザインされたエンコーダは、ほとんどの合成された本社画像から高忠実度画像を再構成することを可能にする。
- 参考スコア(独自算出の注目度): 24.308432688431996
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Although current deep generative adversarial networks (GANs) could synthesize
high-quality (HQ) images, discovering novel GAN encoders for image
reconstruction is still favorable. When embedding images to latent space,
existing GAN encoders work well for aligned images (such as the human face),
but they do not adapt to more generalized GANs. To our knowledge, current
state-of-the-art GAN encoders do not have a proper encoder to reconstruct
high-fidelity images from most misaligned HQ synthesized images on different
GANs. Their performances are limited, especially on non-aligned and real
images. We propose a novel method (named MTV-TSA) to handle such problems.
Creating multi-type latent vectors (MTV) from latent space and two-scale
attentions (TSA) from images allows designing a set of encoders that can be
adaptable to a variety of pre-trained GANs. We generalize two sets of loss
functions to optimize the encoders. The designed encoders could make GANs
reconstruct higher fidelity images from most synthesized HQ images. In
addition, the proposed method can reconstruct real images well and process them
based on learned attribute directions. The designed encoders have unified
convolutional blocks and could match well in current GAN architectures (such as
PGGAN, StyleGANs, and BigGAN) by fine-tuning the corresponding normalization
layers and the last block. Such well-designed encoders can also be trained to
converge more quickly.
- Abstract(参考訳): 現在のGAN(Deep Generative Adversarial Network)は高品質な(HQ)画像を合成できるが、画像再構成のための新しいGANエンコーダの発見は依然として好ましい。
遅延空間にイメージを埋め込む場合、既存のGANエンコーダは(人間の顔のような)整列画像に対してうまく機能するが、より一般化されたGANには適応しない。
我々の知る限り、現在最先端のGANエンコーダは、異なるGAN上のほとんどの本社構内合成画像から高忠実度画像を再構成する適切なエンコーダを持っていない。
パフォーマンスは限定的であり、特に非アライメントや実画像では顕著である。
このような問題に対処する新しい手法(MTV-TSA)を提案する。
潜時空間からマルチタイプ潜時ベクトル(mtv)を作成し、画像から2スケールの注意(tsa)を作成することで、様々な訓練済みganに適応可能なエンコーダセットを設計することができる。
2組の損失関数を一般化してエンコーダを最適化する。
設計されたエンコーダは、ganが合成されたほとんどのhq画像から高い忠実度画像を再構成する。
さらに,提案手法は実画像の再構成をうまく行い,学習属性の方向に基づいて処理することができる。
設計されたエンコーダは、統一された畳み込みブロックを持ち、対応する正規化層と最後のブロックを微調整することで、現在のGANアーキテクチャ(PGGAN、StyleGAN、BigGANなど)によく適合する。
このようなよく設計されたエンコーダは、より迅速に収束するように訓練することもできる。
関連論文リスト
- In-Domain GAN Inversion for Faithful Reconstruction and Editability [132.68255553099834]
ドメイン誘導型ドメイン正規化とエンコーダで構成されたドメイン内GANインバージョンを提案し、事前学習されたGANモデルのネイティブ潜在空間における反転コードを正規化する。
エンコーダ構造,開始反転点,および逆パラメータ空間の効果を総合的に解析し,再構成品質と編集特性とのトレードオフを観察する。
論文 参考訳(メタデータ) (2023-09-25T08:42:06Z) - JoIN: Joint GANs Inversion for Intrinsic Image Decomposition [16.02463667910604]
我々は,GAN(Generative Adversarial Networks)のバンクを用いて,不測の逆画像問題を解決することを提案する。
提案手法は,複雑な画像分布をキャプチャするGANの実証的な成功に基づいている。
論文 参考訳(メタデータ) (2023-05-18T22:09:32Z) - LD-GAN: Low-Dimensional Generative Adversarial Network for Spectral
Image Generation with Variance Regularization [72.4394510913927]
ディープラーニング法はスペクトル画像(SI)計算タスクの最先端技術である。
GANは、データ分散から学習およびサンプリングすることで、多様な拡張を可能にする。
この種のデータの高次元性は、GANトレーニングの収束を妨げるため、GANベースのSI生成は困難である。
本稿では, オートエンコーダ訓練における低次元表現分散を制御し, GANで生成されたサンプルの多様性を高めるための統計正則化を提案する。
論文 参考訳(メタデータ) (2023-04-29T00:25:02Z) - TriPlaneNet: An Encoder for EG3D Inversion [1.9567015559455132]
NeRFをベースとしたGANは、人間の頭部の高分解能かつ高忠実な生成モデリングのための多くのアプローチを導入している。
2D GANインバージョンのための普遍的最適化に基づく手法の成功にもかかわらず、3D GANに適用された手法は、結果を新しい視点に外挿することができないかもしれない。
本稿では,EG3D生成モデルに提示された3面表現を直接利用することにより,両者のギャップを埋める高速な手法を提案する。
論文 参考訳(メタデータ) (2023-03-23T17:56:20Z) - Feature-Style Encoder for Style-Based GAN Inversion [1.9116784879310027]
本稿では,特徴型エンコーダ(Feature-Style encoder)と呼ばれる,GANインバージョンのための新しいアーキテクチャを提案する。
本モデルは,事前学習したスタイルベースGANモデルの潜在空間から,実画像の正確な逆変換を実現する。
エンコーダ構造のおかげで、モデルは高速で正確な画像編集を可能にする。
論文 参考訳(メタデータ) (2022-02-04T15:19:34Z) - GAN Inversion: A Survey [125.62848237531945]
GANインバージョンは、与えられたイメージを事前に訓練されたGANモデルの潜在空間に戻すことを目的としている。
GANインバージョンは、StyleGANやBigGANなどの事前トレーニングされたGANモデルを実際の画像編集アプリケーションに使用できるようにする上で重要な役割を果たします。
論文 参考訳(メタデータ) (2021-01-14T14:11:00Z) - Guiding GANs: How to control non-conditional pre-trained GANs for
conditional image generation [69.10717733870575]
本稿では,汎用非条件GANを条件GANとして振る舞うための新しい方法を提案する。
提案手法は,非条件GANのジェネレータネットワークに供給される高次元ランダム入力を生成するために,エンコーダネットワークを混合するものである。
論文 参考訳(メタデータ) (2021-01-04T14:03:32Z) - GLEAN: Generative Latent Bank for Large-Factor Image Super-Resolution [85.53811497840725]
我々は,大因子画像超解像(SR)の復元品質を向上させるために,GAN(Generative Adversarial Networks),例えばStyleGAN(StyleGAN)が潜時バンクとして使用できることを示す。
我々の手法であるGenerative LatEnt bANk(GLEAN)は、事前訓練されたGANにカプセル化されているリッチで多様な事前情報を直接活用することで、既存のプラクティスを越えている。
GLEANによってアップスケールされた画像は、既存の方法と比較して忠実さとテクスチャ忠実さの点で明らかに改善されている。
論文 参考訳(メタデータ) (2020-12-01T18:56:14Z) - In-Domain GAN Inversion for Real Image Editing [56.924323432048304]
トレーニング済みのGANジェネレータに実際のイメージを送出する一般的な方法は、遅延コードに戻すことである。
既存の反転法は、通常、画素値によってターゲット画像の再構成にフォーカスするが、反転したコードは元の潜伏空間のセマンティックドメインに着陸しない。
本稿では、入力画像を忠実に再構成し、変換されたコードが編集に意味のある意味を持つようにするためのドメイン内GAN逆変換手法を提案する。
論文 参考訳(メタデータ) (2020-03-31T18:20:18Z) - Reducing the Representation Error of GAN Image Priors Using the Deep
Decoder [29.12824512060469]
本稿では,GANプリエントとディープデコーダの線形結合としてイメージをモデル化することにより,GANプリエントの表現誤差を低減する手法を提案する。
圧縮センシングと画像スーパーレゾリューションのために、我々のハイブリッドモデルは、GANプリエントとディープデコーダを別々に比較すると、PSNRが常に高い値を示す。
論文 参考訳(メタデータ) (2020-01-23T18:37:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。