論文の概要: The Geometry of Deep Generative Image Models and its Applications
- arxiv url: http://arxiv.org/abs/2101.06006v2
- Date: Thu, 18 Mar 2021 08:24:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-28 19:42:09.293682
- Title: The Geometry of Deep Generative Image Models and its Applications
- Title(参考訳): 深部生成画像モデルの幾何学とその応用
- Authors: Binxu Wang, Carlos R. Ponce
- Abstract要約: generative adversarial networks (gans) は、実世界のデータセットの統計パターンをモデル化する強力な教師なし手法として登場した。
これらのネットワークは、潜在空間内のランダムな入力を学習データを表す新しいサンプルにマップするように訓練される。
潜在空間の構造は、その高い寸法性と発電機の非線形性のために内挿しが困難である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Generative adversarial networks (GANs) have emerged as a powerful
unsupervised method to model the statistical patterns of real-world data sets,
such as natural images. These networks are trained to map random inputs in
their latent space to new samples representative of the learned data. However,
the structure of the latent space is hard to intuit due to its high
dimensionality and the non-linearity of the generator, which limits the
usefulness of the models. Understanding the latent space requires a way to
identify input codes for existing real-world images (inversion), and a way to
identify directions with known image transformations (interpretability). Here,
we use a geometric framework to address both issues simultaneously. We develop
an architecture-agnostic method to compute the Riemannian metric of the image
manifold created by GANs. The eigen-decomposition of the metric isolates axes
that account for different levels of image variability. An empirical analysis
of several pretrained GANs shows that image variation around each position is
concentrated along surprisingly few major axes (the space is highly
anisotropic) and the directions that create this large variation are similar at
different positions in the space (the space is homogeneous). We show that many
of the top eigenvectors correspond to interpretable transforms in the image
space, with a substantial part of eigenspace corresponding to minor transforms
which could be compressed out. This geometric understanding unifies key
previous results related to GAN interpretability. We show that the use of this
metric allows for more efficient optimization in the latent space (e.g. GAN
inversion) and facilitates unsupervised discovery of interpretable axes. Our
results illustrate that defining the geometry of the GAN image manifold can
serve as a general framework for understanding GANs.
- Abstract(参考訳): generative adversarial networks (gans) は、自然画像のような実世界のデータセットの統計パターンをモデル化する強力な教師なし手法として登場した。
これらのネットワークは、潜在空間内のランダムな入力を学習データを表す新しいサンプルにマップするように訓練される。
しかし、潜在空間の構造は、その高次元性と生成器の非線形性のために直感的に考えることは困難であり、モデルの有用性は制限される。
潜在空間を理解するには、既存の現実世界の画像(反転)の入力コードを特定する方法と、既知の画像変換(解釈可能性)で方向を特定する方法が必要である。
ここでは,幾何学的枠組みを用いて両課題を同時に解決する。
我々はgansによって作成された画像多様体のリーマン計量を計算するアーキテクチャ非依存な手法を開発した。
計量の固有分解は、異なるレベルの画像変動性を考慮した軸を分離する。
いくつかの事前訓練された GAN の実証分析では、各位置に関する画像の変動は驚くほど少数の主軸(空間は高い異方性)に沿って集中しており、この大きな変化を生み出す方向は空間内の異なる位置(空間は均質である)で類似している。
最上位固有ベクトルの多くは画像空間の解釈可能な変換に対応しており、固有空間のかなりの部分は圧縮可能なマイナー変換に対応する。
この幾何学的理解は、GAN解釈可能性に関連する重要な前の結果を統一する。
この計量を用いることで、潜在空間においてより効率的な最適化が可能になる(例)。
GANの反転)と、解釈可能な軸の教師なし発見を促進する。
GAN像多様体の幾何を定義することは、GANを理解するための一般的な枠組みとなる。
関連論文リスト
- Neural Isometries: Taming Transformations for Equivariant ML [8.203292895010748]
本稿では,観測空間を汎用潜在空間にマップする方法を学習する自動エンコーダフレームワークであるNeural Isometriesを紹介する。
トレーニング済みの潜伏空間で動作する単純なオフ・ザ・シェルフ同変ネットワークは、巧妙に設計された手作りのネットワークと同等の結果が得られることを示す。
論文 参考訳(メタデータ) (2024-05-29T17:24:25Z) - GeoWizard: Unleashing the Diffusion Priors for 3D Geometry Estimation from a Single Image [94.56927147492738]
単一画像から幾何学的属性を推定するための新しい生成基盤モデルであるGeoWizardを紹介する。
拡散前処理の活用は,資源利用における一般化,詳細な保存,効率性を著しく向上させることが示唆された。
本稿では,様々なシーンの複雑なデータ分布を,個別のサブディストリビューションに分離する,シンプルかつ効果的な戦略を提案する。
論文 参考訳(メタデータ) (2024-03-18T17:50:41Z) - VTAE: Variational Transformer Autoencoder with Manifolds Learning [144.0546653941249]
深層生成モデルは、多くの潜伏変数を通して非線形データ分布の学習に成功している。
ジェネレータの非線形性は、潜在空間がデータ空間の不満足な射影を示し、表現学習が不十分になることを意味する。
本研究では、測地学と正確な計算により、深部生成モデルの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-04-03T13:13:19Z) - Geometric Scattering on Measure Spaces [12.0756034112778]
測度空間上での幾何散乱の一般統一モデルを導入する。
未知多様体をランダムにサンプリングして得られる有限測度空間を考える。
本稿では, 関連するグラフ散乱変換が基礎多様体上の散乱変換を近似するデータ駆動グラフを構築するための2つの方法を提案する。
論文 参考訳(メタデータ) (2022-08-17T22:40:09Z) - Leveraging Equivariant Features for Absolute Pose Regression [9.30597356471664]
変換と回転の同変である畳み込みニューラルネットワークは,カメラの動きの表現を直接特徴空間に誘導することを示す。
次に、この幾何学的性質により、画像平面保存変換の全グループの下でトレーニングデータを暗黙的に増大させることができることを示す。
論文 参考訳(メタデータ) (2022-04-05T12:44:20Z) - Rayleigh EigenDirections (REDs): GAN latent space traversals for
multidimensional features [20.11085769303415]
本稿では,深部生成モデルの潜在空間における経路を求める手法を提案する。
領域内の顔の同一性や画素などの画像の多次元的特徴を操作できる。
我々の研究は、多くの機会が潜在空間の幾何学と意味論の局所的解析にかかっていることを示唆している。
論文 参考訳(メタデータ) (2022-01-25T16:11:33Z) - Low-Rank Subspaces in GANs [101.48350547067628]
この研究は、GAN生成をより正確に制御できる低ランクな部分空間を導入している。
LowRankGAN は属性多様体の低次元表現を見つけることができる。
さまざまなデータセットでトレーニングされた最先端のGANモデル(StyleGAN2やBigGANなど)の実験は、私たちのLowRankGANの有効性を示しています。
論文 参考訳(メタデータ) (2021-06-08T16:16:32Z) - Manifold Topology Divergence: a Framework for Comparing Data Manifolds [109.0784952256104]
本研究では,深部生成モデルの評価を目的としたデータ多様体の比較フレームワークを開発する。
クロスバーコードに基づき,manifold Topology Divergence score(MTop-Divergence)を導入する。
MTop-Divergenceは,様々なモードドロップ,モード内崩壊,モード発明,画像乱れを正確に検出する。
論文 参考訳(メタデータ) (2021-06-08T00:30:43Z) - Diamond in the rough: Improving image realism by traversing the GAN
latent space [0.0]
改良されたフォトリアリズムと整合する潜在空間の方向を求める教師なし手法を提案する。
提案手法は,生成画像の忠実度を高めつつ,ネットワークを不変にしておく。
私たちは、イメージ空間の最小の変化をもたらす潜在空間の方向を見つけるために、単純なジェネレータインバージョンを使用します。
論文 参考訳(メタデータ) (2021-04-12T14:45:29Z) - Unsupervised Discovery of Disentangled Manifolds in GANs [74.24771216154105]
解釈可能な生成プロセスは、様々な画像編集アプリケーションに有用である。
本稿では,任意の学習された生成逆数ネットワークが与えられた潜在空間における解釈可能な方向を検出する枠組みを提案する。
論文 参考訳(メタデータ) (2020-11-24T02:18:08Z) - Closed-Form Factorization of Latent Semantics in GANs [65.42778970898534]
画像合成のために訓練されたGAN(Generative Adversarial Networks)の潜在空間に、解釈可能な次元の豊富なセットが出現することが示されている。
本研究では,GANが学習した内部表現について検討し,その基礎となる変動要因を教師なしで明らかにする。
本稿では,事前学習した重みを直接分解することで,潜在意味発見のためのクローズドフォーム因数分解アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-13T18:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。