論文の概要: Diamond in the rough: Improving image realism by traversing the GAN
latent space
- arxiv url: http://arxiv.org/abs/2104.05518v1
- Date: Mon, 12 Apr 2021 14:45:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-13 21:24:52.521140
- Title: Diamond in the rough: Improving image realism by traversing the GAN
latent space
- Title(参考訳): 荒地におけるダイヤモンド:GANラテント空間を横切ることでイメージリアリズムを改善する
- Authors: Jeffrey Wen, Fabian Benitez-Quiroz, Qianli Feng, Aleix Martinez
- Abstract要約: 改良されたフォトリアリズムと整合する潜在空間の方向を求める教師なし手法を提案する。
提案手法は,生成画像の忠実度を高めつつ,ネットワークを不変にしておく。
私たちは、イメージ空間の最小の変化をもたらす潜在空間の方向を見つけるために、単純なジェネレータインバージョンを使用します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In just a few years, the photo-realism of images synthesized by Generative
Adversarial Networks (GANs) has gone from somewhat reasonable to almost perfect
largely by increasing the complexity of the networks, e.g., adding layers,
intermediate latent spaces, style-transfer parameters, etc. This trajectory has
led many of the state-of-the-art GANs to be inaccessibly large, disengaging
many without large computational resources. Recognizing this, we explore a
method for squeezing additional performance from existing, low-complexity GANs.
Formally, we present an unsupervised method to find a direction in the latent
space that aligns with improved photo-realism. Our approach leaves the network
unchanged while enhancing the fidelity of the generated image. We use a simple
generator inversion to find the direction in the latent space that results in
the smallest change in the image space. Leveraging the learned structure of the
latent space, we find moving in this direction corrects many image artifacts
and brings the image into greater realism. We verify our findings qualitatively
and quantitatively, showing an improvement in Frechet Inception Distance (FID)
exists along our trajectory which surpasses the original GAN and other
approaches including a supervised method. We expand further and provide an
optimization method to automatically select latent vectors along the path that
balance the variation and realism of samples. We apply our method to several
diverse datasets and three architectures of varying complexity to illustrate
the generalizability of our approach. By expanding the utility of
low-complexity and existing networks, we hope to encourage the democratization
of GANs.
- Abstract(参考訳): わずか数年で、gans(generative adversarial networks)によって合成された画像のフォトリアリズムは、ネットワークの複雑さ(例えば層の追加、中間的潜在空間、スタイル変換パラメータなど)の増加によって、ある程度合理的からほぼ完全になった。
この軌道は、最先端のGANの多くを到達不能に大きくし、大量の計算資源を使わずに多くのものを解き放った。
そこで本研究では,既存の低複雑度ganから追加性能を絞り込む手法について検討する。
形式的には,フォトリアリズムを改良した潜在空間における方向を求めるための教師なし手法を提案する。
提案手法は,生成した画像の忠実度を向上しながらネットワークを変化させる。
我々は、画像空間の最小変化をもたらす潜在空間の方向を見つけるために、単純な生成元反転を用いる。
潜在空間の学習された構造を利用すると、この方向に移動すると多くの画像アーティファクトが修正され、画像がより現実的になる。
我々は,Frechet Inception Distance (FID) の改善が,従来のGANや教師あり手法を超越した軌道上に存在することを示し,質的に定量的に検証した。
さらに拡張し,サンプルの変動とリアリズムのバランスをとる経路に沿って潜在ベクトルを自動的に選択する最適化手法を提案する。
本手法を様々なデータセットと複雑な3つのアーキテクチャに適用し,手法の一般化可能性を示す。
低複雑さと既存ネットワークの実用性の拡大により、GANの民主化を奨励したい。
関連論文リスト
- Layered Rendering Diffusion Model for Zero-Shot Guided Image Synthesis [60.260724486834164]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。
視覚誘導(Vision Guidance)とレイヤーレンダリング拡散(Layered Rendering Diffusion)フレームワーク(Layered Diffusion)という2つの重要なイノベーションを提示します。
本稿では,ボックス・ツー・イメージ,セマンティック・マスク・ツー・イメージ,画像編集の3つの実践的応用に適用する。
論文 参考訳(メタデータ) (2023-11-30T10:36:19Z) - PC-GANs: Progressive Compensation Generative Adversarial Networks for
Pan-sharpening [50.943080184828524]
空間情報とスペクトル情報の漸進的補償によりMS画像のシャープ化を行うパンシャーピングの新しい2段階モデルを提案する。
モデル全体が三重GANで構成されており、特定のアーキテクチャに基づいて、三重GANを同時に訓練できるように、共同補償損失関数が設計されている。
論文 参考訳(メタデータ) (2022-07-29T03:09:21Z) - Deep Generalized Unfolding Networks for Image Restoration [16.943609020362395]
画像復元のためのDeep Generalized Unfolding Network (DGUNet)を提案する。
我々は、勾配推定戦略をPGDアルゴリズムの勾配降下ステップに統合する。
我々の手法は、最先端の性能、解釈可能性、一般化可能性の点で優れている。
論文 参考訳(メタデータ) (2022-04-28T08:39:39Z) - Enhancing Photorealism Enhancement [83.88433283714461]
本稿では,畳み込みネットワークを用いた合成画像のリアリズム向上手法を提案する。
一般的に使用されるデータセットのシーンレイアウトの分布を分析し、重要な方法で異なることを見つけます。
近年のイメージ・ツー・イメージ翻訳法と比較して,安定性とリアリズムの大幅な向上が報告されている。
論文 参考訳(メタデータ) (2021-05-10T19:00:49Z) - The Geometry of Deep Generative Image Models and its Applications [0.0]
generative adversarial networks (gans) は、実世界のデータセットの統計パターンをモデル化する強力な教師なし手法として登場した。
これらのネットワークは、潜在空間内のランダムな入力を学習データを表す新しいサンプルにマップするように訓練される。
潜在空間の構造は、その高い寸法性と発電機の非線形性のために内挿しが困難である。
論文 参考訳(メタデータ) (2021-01-15T07:57:33Z) - Unsupervised Discovery of Disentangled Manifolds in GANs [74.24771216154105]
解釈可能な生成プロセスは、様々な画像編集アプリケーションに有用である。
本稿では,任意の学習された生成逆数ネットワークが与えられた潜在空間における解釈可能な方向を検出する枠組みを提案する。
論文 参考訳(メタデータ) (2020-11-24T02:18:08Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z) - Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。
この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。
また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文 参考訳(メタデータ) (2020-02-07T03:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。