論文の概要: A Mutual Information Perspective on Multiple Latent Variable Generative Models for Positive View Generation
- arxiv url: http://arxiv.org/abs/2501.13718v1
- Date: Thu, 23 Jan 2025 14:46:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:58:05.205212
- Title: A Mutual Information Perspective on Multiple Latent Variable Generative Models for Positive View Generation
- Title(参考訳): 肯定的視点生成のための多重潜在変数生成モデルに関する相互情報視点
- Authors: Dario Serez, Marco Cristani, Alessio Del Bue, Vittorio Murino, Pietro Morerio,
- Abstract要約: 画像生成において、Multiple Latent Variable Generative Models (MLVGM) は複数の潜伏変数を用いて最終像を徐々に形成する。
本稿では,相互情報(MI)を指標として,MLVGMにおける各潜伏変数の影響を定量化する新しいフレームワークを提案する。
我々の研究はMLVGMの理解と活用の原則的なアプローチを確立し、生成モデルと自己教師型学習の両方を前進させる。
- 参考スコア(独自算出の注目度): 34.061732576446246
- License:
- Abstract: In image generation, Multiple Latent Variable Generative Models (MLVGMs) employ multiple latent variables to gradually shape the final images, from global characteristics to finer and local details (e.g., StyleGAN, NVAE), emerging as powerful tools for diverse applications. Yet their generative dynamics and latent variable utilization remain only empirically observed. In this work, we propose a novel framework to systematically quantify the impact of each latent variable in MLVGMs, using Mutual Information (MI) as a guiding metric. Our analysis reveals underutilized variables and can guide the use of MLVGMs in downstream applications. With this foundation, we introduce a method for generating synthetic data for Self-Supervised Contrastive Representation Learning (SSCRL). By leveraging the hierarchical and disentangled variables of MLVGMs, and guided by the previous analysis, we apply tailored latent perturbations to produce diverse views for SSCRL, without relying on real data altogether. Additionally, we introduce a Continuous Sampling (CS) strategy, where the generator dynamically creates new samples during SSCRL training, greatly increasing data variability. Our comprehensive experiments demonstrate the effectiveness of these contributions, showing that MLVGMs' generated views compete on par with or even surpass views generated from real data. This work establishes a principled approach to understanding and exploiting MLVGMs, advancing both generative modeling and self-supervised learning.
- Abstract(参考訳): 画像生成において、MLVGM(Multiple Latent Variable Generative Models)は、グローバルな特徴からより微細で局所的な詳細(例えば、StyleGAN、NVAE)まで、最終的なイメージを徐々に形成するために複数の潜時変数を使用する。
しかし、それらの生成力学と潜伏変数の利用は、実験的にのみ観察される。
本研究では,MLVGMにおける各潜伏変数の影響を,相互情報(MI)を指標として体系的に定量化する枠組みを提案する。
我々の分析では、未利用変数を明らかにし、下流アプリケーションでのMLVGMの使用をガイドすることができる。
本稿では,SSCRL(Self-Supervised Contrastive Representation Learning)のための合成データ生成手法を提案する。
MLVGMの階層変数と非絡み合い変数を活用し、前回の分析で導かれるように、我々はSSCRLの多様なビューを生成するために、実際のデータを完全に依存することなく、調整された潜在摂動を適用した。
さらに、SSCRLトレーニング中にジェネレータが新しいサンプルを動的に生成し、データのばらつきを大幅に増大させる連続サンプリング(CS)戦略を導入する。
総合的な実験により、MLVGMが生成したビューは、実際のデータから生成されたビューと同程度、あるいは超えていることを示す。
この研究は、MLVGMの理解と活用に対する原則的なアプローチを確立し、生成モデリングと自己教師型学習の両方を前進させる。
関連論文リスト
- Can Generative Models Improve Self-Supervised Representation Learning? [0.7999703756441756]
生成モデルを利用して意味論的に一貫した画像拡張を生成することにより、自己教師付き学習(SSL)パラダイムを充実させるフレームワークを提案する。
その結果,下流タスクにおいて,学習した視覚表現の精度を最大10%向上させることができた。
論文 参考訳(メタデータ) (2024-03-09T17:17:07Z) - Synthetic location trajectory generation using categorical diffusion
models [50.809683239937584]
拡散モデル(DPM)は急速に進化し、合成データのシミュレーションにおける主要な生成モデルの一つとなっている。
本稿では,個人が訪れた物理的位置を表す変数列である合成個別位置軌跡(ILT)の生成にDPMを用いることを提案する。
論文 参考訳(メタデータ) (2024-02-19T15:57:39Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - Learning Joint Latent Space EBM Prior Model for Multi-layer Generator [44.4434704520236]
多層ジェネレータモデルの学習における基礎的問題について検討する。
本稿では,全層にまたがる待ち行列空間上のエネルギーモデル (EBM) を提案する。
実験により、学習したモデルが高品質な画像を生成する際に表現できることが実証された。
論文 参考訳(メタデータ) (2023-06-10T00:27:37Z) - Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。
本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。
実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z) - Style-Hallucinated Dual Consistency Learning: A Unified Framework for
Visual Domain Generalization [113.03189252044773]
本稿では,様々な視覚的タスクにおけるドメインシフトを処理するための統合フレームワークであるStyle-HAllucinated Dual consistEncy Learning (SHADE)を提案する。
我々の汎用SHADEは、画像分類、セマンティックセグメンテーション、オブジェクト検出など、様々な視覚認識タスクにおける一般化を著しく向上させることができる。
論文 参考訳(メタデータ) (2022-12-18T11:42:51Z) - The Geometry of Self-supervised Learning Models and its Impact on
Transfer Learning [62.601681746034956]
自己教師型学習(SSL)はコンピュータビジョンにおいて望ましいパラダイムとして登場した。
本稿では,各特徴空間内の局所的近傍を用いて異なるSSLモデルを分析するためのデータ駆動幾何学的手法を提案する。
論文 参考訳(メタデータ) (2022-09-18T18:15:38Z) - Bayesian Active Learning for Discrete Latent Variable Models [19.852463786440122]
アクティブラーニングは、モデルのパラメータに適合するために必要なデータ量を削減しようとする。
潜在変数モデルは神経科学、心理学、その他の様々な工学、科学分野において重要な役割を果たす。
論文 参考訳(メタデータ) (2022-02-27T19:07:12Z) - Unsupervised Controllable Generation with Self-Training [90.04287577605723]
GANによる制御可能な世代は依然として困難な研究課題である。
本稿では,自己学習を通じてジェネレータを制御する潜伏符号の分布を学習するための教師なしフレームワークを提案する。
我々のフレームワークは、変分オートエンコーダのような他の変種と比較して、より良い絡み合いを示す。
論文 参考訳(メタデータ) (2020-07-17T21:50:35Z) - Generalized Hidden Parameter MDPs Transferable Model-based RL in a
Handful of Trials [13.051708608864539]
一般化隠れMDP(英: Generalized Hidden MDPs、GHP-MDPs)は、タスクによって異なる隠れパラメータの関数として、力学と報酬の両方が変化するMDPのファミリーを指す。
我々は、報酬空間と動的潜伏空間を用いた新しい課題である MuJoCo タスクに対して、最先端性能とサンプル効率を実験的に実証した。
論文 参考訳(メタデータ) (2020-02-08T02:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。