論文の概要: IntroVAC: Introspective Variational Classifiers for Learning
Interpretable Latent Subspaces
- arxiv url: http://arxiv.org/abs/2008.00760v2
- Date: Mon, 14 Sep 2020 07:23:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 05:39:05.292806
- Title: IntroVAC: Introspective Variational Classifiers for Learning
Interpretable Latent Subspaces
- Title(参考訳): IntroVAC:解釈可能な潜在部分空間学習のためのイントロスペクティブ変分法
- Authors: Marco Maggipinto and Matteo Terzi and Gian Antonio Susto
- Abstract要約: IntroVACは、追加ラベルから情報を活用することで、解釈可能な潜在部分空間を学習する。
IntroVACは、画像属性の微調整を可能にする潜在空間における意味のある方向を学習可能であることを示す。
- 参考スコア(独自算出の注目度): 6.574517227976925
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning useful representations of complex data has been the subject of
extensive research for many years. With the diffusion of Deep Neural Networks,
Variational Autoencoders have gained lots of attention since they provide an
explicit model of the data distribution based on an encoder/decoder
architecture which is able to both generate images and encode them in a
low-dimensional subspace. However, the latent space is not easily interpretable
and the generation capabilities show some limitations since images typically
look blurry and lack details. In this paper, we propose the Introspective
Variational Classifier (IntroVAC), a model that learns interpretable latent
subspaces by exploiting information from an additional label and provides
improved image quality thanks to an adversarial training strategy.We show that
IntroVAC is able to learn meaningful directions in the latent space enabling
fine-grained manipulation of image attributes. We validate our approach on the
CelebA dataset.
- Abstract(参考訳): 複雑なデータの有用な表現を学ぶことは、長年にわたって広範な研究の対象となっている。
ディープニューラルネットワークの普及に伴い、変分オートコーダは、画像の生成と低次元のサブ空間でのエンコードが可能なエンコーダ/デコーダアーキテクチャに基づくデータ分散の明示的なモデルを提供するため、多くの注目を集めている。
しかし、遅延空間は容易に解釈できないため、画像がぼやけていて詳細が欠けているため、生成能力にはいくつかの制限がある。
本稿では,追加ラベルからの情報を活用して解釈可能な潜在部分空間を学習し,対角的学習戦略により画質を向上させるモデルであるIntroVACを提案する。
CelebAデータセットに対する我々のアプローチを検証する。
関連論文リスト
- Decoding Diffusion: A Scalable Framework for Unsupervised Analysis of Latent Space Biases and Representations Using Natural Language Prompts [68.48103545146127]
本稿では拡散潜在空間の教師なし探索のための新しい枠組みを提案する。
我々は、自然言語のプロンプトと画像キャプションを直接利用して、遅延方向をマップする。
本手法は,拡散モデルに符号化された意味的知識をよりスケーラブルで解釈可能な理解を提供する。
論文 参考訳(メタデータ) (2024-10-25T21:44:51Z) - Learned representation-guided diffusion models for large-image generation [58.192263311786824]
自己教師型学習(SSL)からの埋め込みを条件とした拡散モデルを訓練する新しいアプローチを導入する。
我々の拡散モデルは、これらの特徴を高品質な病理組織学およびリモートセンシング画像に投影することに成功した。
実画像のバリエーションを生成して実データを増やすことにより、パッチレベルおよび大規模画像分類タスクの下流精度が向上する。
論文 参考訳(メタデータ) (2023-12-12T14:45:45Z) - SODA: Bottleneck Diffusion Models for Representation Learning [75.7331354734152]
本稿では,表現学習のための自己教師付き拡散モデルSODAを紹介する。
このモデルには、ソースビューをコンパクトな表現に蒸留するイメージエンコーダが組み込まれており、関連する新規ビューの生成を導く。
エンコーダと復調復調復調復調復調復調復調復調復号器の密集ボトルネックを付与することにより,拡散モデルを強力な表現学習器に変換することができることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:53:34Z) - SSMG: Spatial-Semantic Map Guided Diffusion Model for Free-form
Layout-to-Image Generation [68.42476385214785]
本稿では,レイアウトから派生した特徴写像を用いた空間意味マップガイド(SSMG)拡散モデルを提案する。
SSMGは,従来の研究に比べて空間的,意味的な制御性に優れた生成品質を実現する。
また,RSA(Relation-Sensitive Attention)機構とLSA(Location-Sensitive Attention)機構を提案する。
論文 参考訳(メタデータ) (2023-08-20T04:09:12Z) - InfoDiffusion: Representation Learning Using Information Maximizing
Diffusion Models [35.566528358691336]
InfoDiffusionは低次元潜伏変数を持つ拡散モデルを拡張するアルゴリズムである。
情報拡散は、観測された変数と隠れた変数の相互情報に規則化された学習目標に依存する。
インフォディフュージョンは、最先端の生成的およびコントラスト的手法と競合する非絡み合いおよび人間解釈可能な潜在表現を学習する。
論文 参考訳(メタデータ) (2023-06-14T21:48:38Z) - Disentangling Variational Autoencoders [0.0]
変分オートエンコーダ(VAE)は、高次元データの入力セットを低次元の潜在空間に投影する。
文献から3つの異なるVAEモデルを実装し、6万枚の手書き数字のデータセットでそれらをトレーニングする。
本稿では,復号化画像の品質と遅延空間の歪みレベルとのトレードオフについて検討する。
論文 参考訳(メタデータ) (2022-11-14T19:22:41Z) - Toward a Geometrical Understanding of Self-supervised Contrastive
Learning [55.83778629498769]
自己教師付き学習(SSL)は、人間のアノテーションがなければ、伝達学習に有効なデータ表現を作成するための最重要技術の一つである。
メインストリームSSL技術は、エンコーダとプロジェクタという2つのカスケードニューラルネットワークを備えた、特定のディープニューラルネットワークアーキテクチャに依存している。
本稿では,データ拡張ポリシーの強みがデータ埋め込みに与える影響について検討する。
論文 参考訳(メタデータ) (2022-05-13T23:24:48Z) - Unsupervised Representation Learning from Pathology Images with
Multi-directional Contrastive Predictive Coding [0.33148826359547523]
本稿では,デジタル病理パッチを用いたcpcフレームワークの修正について述べる。
これは潜在コンテキストを構築するための代替マスクを導入することで実現される。
提案法は, 組織学的パッチの深部分類を改良できることを示す。
論文 参考訳(メタデータ) (2021-05-11T21:17:13Z) - Unsupervised Discovery of Disentangled Manifolds in GANs [74.24771216154105]
解釈可能な生成プロセスは、様々な画像編集アプリケーションに有用である。
本稿では,任意の学習された生成逆数ネットワークが与えられた潜在空間における解釈可能な方向を検出する枠組みを提案する。
論文 参考訳(メタデータ) (2020-11-24T02:18:08Z) - Generating Annotated High-Fidelity Images Containing Multiple Coherent
Objects [10.783993190686132]
コンテキスト情報を明示的に必要とせずに、複数のオブジェクトで画像を合成できるマルチオブジェクト生成フレームワークを提案する。
我々は,Multi-MNISTおよびCLEVRデータセットを用いた実験により,コヒーレンシーと忠実さの保存方法を示す。
論文 参考訳(メタデータ) (2020-06-22T11:33:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。