論文の概要: All Roads Lead to Rome? Exploring Representational Similarities Between Latent Spaces of Generative Image Models
- arxiv url: http://arxiv.org/abs/2407.13449v1
- Date: Thu, 18 Jul 2024 12:23:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 15:30:45.977508
- Title: All Roads Lead to Rome? Exploring Representational Similarities Between Latent Spaces of Generative Image Models
- Title(参考訳): ローマへの全道? 生成的画像モデルの潜在空間間の類似性を探る
- Authors: Charumathi Badrinath, Usha Bhalla, Alex Oesterling, Suraj Srinivas, Himabindu Lakkaraju,
- Abstract要約: VAE、GAN、正規化フロー(NF)、拡散モデル(DM)の4つの生成画像モデルの潜時空間類似度を測定する。
我々の手法は、凍結された潜在空間間の線型写像を任意のエンコーダとデコーダのペアの「スティッチ」に訓練することを含む。
主な知見は,潜時空間間の線形写像が,潜時サイズの違いがあっても,ほとんどの視覚情報を保存できることである。
- 参考スコア(独自算出の注目度): 22.364723506539974
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Do different generative image models secretly learn similar underlying representations? We investigate this by measuring the latent space similarity of four different models: VAEs, GANs, Normalizing Flows (NFs), and Diffusion Models (DMs). Our methodology involves training linear maps between frozen latent spaces to "stitch" arbitrary pairs of encoders and decoders and measuring output-based and probe-based metrics on the resulting "stitched'' models. Our main findings are that linear maps between latent spaces of performant models preserve most visual information even when latent sizes differ; for CelebA models, gender is the most similarly represented probe-able attribute. Finally we show on an NF that latent space representations converge early in training.
- Abstract(参考訳): 異なる生成画像モデルは、秘密裏に類似した表現を学習するのか?
VAE, GAN, 正規化フロー (NF) , 拡散モデル (DM) の4種類のモデルにおいて, 潜時空間の類似度を測定して検討した。
提案手法では, 任意のエンコーダとデコーダの"スティッチ"のために, 凍結した潜在空間間の線形写像をトレーニングし, 結果の"スティッチド"モデル上で出力ベースおよびプローブベースメトリクスを測定する。
主な知見は,潜時空間間の線形写像は,潜時サイズが異なる場合でもほとんどの視覚情報を保ち,CelebAモデルでは,ジェンダーが最もよく表されるプローブ可能な属性である。
最後に、学習初期に潜在空間表現が収束することを示す。
関連論文リスト
- FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - VTAE: Variational Transformer Autoencoder with Manifolds Learning [144.0546653941249]
深層生成モデルは、多くの潜伏変数を通して非線形データ分布の学習に成功している。
ジェネレータの非線形性は、潜在空間がデータ空間の不満足な射影を示し、表現学習が不十分になることを意味する。
本研究では、測地学と正確な計算により、深部生成モデルの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-04-03T13:13:19Z) - Comparing the latent space of generative models [0.0]
潜在ベクトル生成モデルの潜在空間におけるデータポイントの異なるエンコーディングは、データの背後にある様々な説明要因の多かれ少なかれ効果的で不整合な特徴づけをもたらす可能性がある。
単純な線形写像は、情報の大半を保存しながら、潜在空間から別の空間に渡すのに十分である。
論文 参考訳(メタデータ) (2022-07-14T10:39:02Z) - Linear Connectivity Reveals Generalization Strategies [54.947772002394736]
微調整されたモデルのいくつかは、それらの間の線形経路における損失を増大させる大きな障壁を持つ。
テスト損失面上で線形に接続されているが、クラスタ外のモデルから切り離されている異なるモデルのクラスタが見つかる。
我々の研究は、損失面の幾何学がモデルを異なる関数へと導く方法を示している。
論文 参考訳(メタデータ) (2022-05-24T23:43:02Z) - Manifold Topology Divergence: a Framework for Comparing Data Manifolds [109.0784952256104]
本研究では,深部生成モデルの評価を目的としたデータ多様体の比較フレームワークを開発する。
クロスバーコードに基づき,manifold Topology Divergence score(MTop-Divergence)を導入する。
MTop-Divergenceは,様々なモードドロップ,モード内崩壊,モード発明,画像乱れを正確に検出する。
論文 参考訳(メタデータ) (2021-06-08T00:30:43Z) - Generative Models as Distributions of Functions [72.2682083758999]
生成モデルは一般的に、画像のようなグリッドのようなデータに基づいて訓練される。
本稿では,離散格子を放棄し,連続関数による個々のデータポイントのパラメータ化を行う。
論文 参考訳(メタデータ) (2021-02-09T11:47:55Z) - Atlas Generative Models and Geodesic Interpolation [0.20305676256390928]
我々は,Atlas Generative Models (AGMs) の一般クラスを定義する。
グラフに基づく測地線のアルゴリズムをAGMの設定に一般化してこれを実証し、その性能を実験的に検証する。
論文 参考訳(メタデータ) (2021-01-30T16:35:25Z) - Isometric Gaussian Process Latent Variable Model for Dissimilarity Data [0.0]
本稿では、潜在変数がモデル化データの距離と位相の両方を尊重する確率モデルを提案する。
このモデルは、対距離の観測に基づく変分推論によって推定される。
論文 参考訳(メタデータ) (2020-06-21T08:56:18Z) - Learning Bijective Feature Maps for Linear ICA [73.85904548374575]
画像データに適した既存の確率的深層生成モデル (DGM) は, 非線形ICAタスクでは不十分であることを示す。
そこで本研究では,2次元特徴写像と線形ICAモデルを組み合わせることで,高次元データに対する解釈可能な潜在構造を学習するDGMを提案する。
画像上のフローベースモデルや線形ICA、変分オートエンコーダよりも、高速に収束し、訓練が容易なモデルを作成し、教師なしの潜在因子発見を実現する。
論文 参考訳(メタデータ) (2020-02-18T17:58:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。