論文の概要: Denoising Multi-Beta VAE: Representation Learning for Disentanglement and Generation
- arxiv url: http://arxiv.org/abs/2507.06613v1
- Date: Wed, 09 Jul 2025 07:29:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.505081
- Title: Denoising Multi-Beta VAE: Representation Learning for Disentanglement and Generation
- Title(参考訳): マルチベータなVAE: 絡み合いと生成のための表現学習
- Authors: Anshuk Uppal, Yuhta Takida, Chieh-Hsin Lai, Yuki Mitsufuji,
- Abstract要約: 本稿では,様々な$beta$値を利用して,複数の対応する潜在表現を学習する新しい生成モデリングフレームワークを提案する。
異なる$beta$値に対応する潜在表現を円滑に遷移する非線形拡散モデルを導入する。
乱れと生成品質の両面から,我々の枠組みを評価した。
- 参考スコア(独自算出の注目度): 15.957980475573365
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Disentangled and interpretable latent representations in generative models typically come at the cost of generation quality. The $\beta$-VAE framework introduces a hyperparameter $\beta$ to balance disentanglement and reconstruction quality, where setting $\beta > 1$ introduces an information bottleneck that favors disentanglement over sharp, accurate reconstructions. To address this trade-off, we propose a novel generative modeling framework that leverages a range of $\beta$ values to learn multiple corresponding latent representations. First, we obtain a slew of representations by training a single variational autoencoder (VAE), with a new loss function that controls the information retained in each latent representation such that the higher $\beta$ value prioritize disentanglement over reconstruction fidelity. We then, introduce a non-linear diffusion model that smoothly transitions latent representations corresponding to different $\beta$ values. This model denoises towards less disentangled and more informative representations, ultimately leading to (almost) lossless representations, enabling sharp reconstructions. Furthermore, our model supports sample generation without input images, functioning as a standalone generative model. We evaluate our framework in terms of both disentanglement and generation quality. Additionally, we observe smooth transitions in the latent spaces with respect to changes in $\beta$, facilitating consistent manipulation of generated outputs.
- Abstract(参考訳): 生成モデルにおけるアンタングルおよび解釈可能な潜在表現は、通常、生成品質のコストがかかる。
$\beta > 1$の設定では、シャープで正確な再構築よりもアンタングルを優先する情報ボトルネックが導入されている。
このトレードオフに対処するために、我々は$\beta$の値の幅を利用して複数の対応する潜在表現を学習する新しい生成モデリングフレームワークを提案する。
まず,1つの変分オートエンコーダ(VAE)をトレーニングし,各潜時表現に保持される情報を制御する新たなロス関数を用いて,高い$\beta$値が復元フィデリティよりも不整合を優先するように表現のスルーを得る。
次に、異なる$\beta$値に対応する潜在表現を滑らかに遷移する非線形拡散モデルを導入する。
このモデルは、よりゆがみがなく、より情報的な表現に目を向け、最終的に(ほとんど)損失のない表現をもたらし、鋭い再構成を可能にした。
さらに,本モデルでは,入力画像のないサンプル生成をサポートし,独立した生成モデルとして機能する。
乱れと生成品質の両面から,我々の枠組みを評価した。
さらに、$\beta$の変化に関して、潜在空間における滑らかな遷移を観察し、生成した出力の一貫した操作を容易にする。
関連論文リスト
- $α$-TCVAE: On the relationship between Disentanglement and Diversity [21.811889512977924]
本稿では,新しい全相関(TC)下界を用いて最適化された変分オートエンコーダである$alpha$-TCVAEを紹介する。
本稿では,不整合表現がより優れた生成能力と多様性をもたらすという考えを支持する定量的分析について述べる。
以上の結果から,$alpha$-TCVAEはベースラインよりも不整合表現を一貫して学習し,より多様な観測結果を生成することが示された。
論文 参考訳(メタデータ) (2024-11-01T13:50:06Z) - How to train your VAE [0.0]
変分オートエンコーダ(VAE)は、機械学習における生成モデリングと表現学習の基盤となっている。
本稿では,ELBO(エビデンス・ロウアー・バウンド)における重要な構成要素であるKLディバージェンス(Kulback-Leibler)の解釈について検討する。
提案手法は, ELBOを後続確率のガウス混合体で再定義し, 正規化項を導入し, テクスチャリアリズムを高めるためにPatchGAN識別器を用いる。
論文 参考訳(メタデータ) (2023-09-22T19:52:28Z) - DiffBIR: Towards Blind Image Restoration with Generative Diffusion Prior [70.46245698746874]
DiffBIRは、視覚の異なる画像復元タスクを処理できる一般的な修復パイプラインである。
DiffBIRは, ブラインド画像復元問題を, 1) 劣化除去: 画像に依存しない内容の除去; 2) 情報再生: 失われた画像内容の生成の2段階に分離する。
第1段階では, 修復モジュールを用いて劣化を除去し, 高忠実度復元結果を得る。
第2段階では、潜伏拡散モデルの生成能力を活用して現実的な詳細を生成するIRControlNetを提案する。
論文 参考訳(メタデータ) (2023-08-29T07:11:52Z) - Precision-Recall Divergence Optimization for Generative Modeling with
GANs and Normalizing Flows [54.050498411883495]
本研究では,ジェネレーティブ・アドバイサル・ネットワークや正規化フローなどの生成モデルのための新しいトレーニング手法を開発した。
指定された精度-リコールトレードオフを達成することは、textitPR-divergencesと呼ぶ家族からのユニークな$f$-divergenceを最小化することを意味する。
当社のアプローチは,ImageNetなどのデータセットでテストした場合の精度とリコールの両面で,BigGANのような既存の最先端モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-05-30T10:07:17Z) - The Transitive Information Theory and its Application to Deep Generative
Models [0.0]
変分オートエンコーダ(VAE)は2つの反対方向に押される。
既存の方法では、圧縮と再構成の間のレート歪みのトレードオフに問題を絞り込む。
一般化のために学習した表現を再結合する機構とともに,非交叉表現の階層構造を学習するシステムを開発する。
論文 参考訳(メタデータ) (2022-03-09T22:35:02Z) - Generative Temporal Difference Learning for Infinite-Horizon Prediction [101.59882753763888]
我々は、無限確率的地平線を持つ環境力学の予測モデルである$gamma$-modelを導入する。
トレーニングタイムとテストタイムの複合的なエラーの間には、そのトレーニングが避けられないトレードオフを反映しているかについて議論する。
論文 参考訳(メタデータ) (2020-10-27T17:54:12Z) - High-Fidelity Synthesis with Disentangled Representation [60.19657080953252]
本稿では,不整合学習と高忠実度合成のためのID-GAN(Information-Distillation Generative Adrial Network)を提案する。
提案手法は, VAEモデルを用いて非交叉表現を学習し, 高忠実度合成のためのGAN生成器に追加のニュアンス変数で学習表現を蒸留する。
単純さにもかかわらず,提案手法は高効率であり,不整合表現を用いた最先端の手法に匹敵する画像生成品質を実現する。
論文 参考訳(メタデータ) (2020-01-13T14:39:40Z) - On the Difference Between the Information Bottleneck and the Deep
Information Bottleneck [81.89141311906552]
本稿では,Deep Variational Information Bottleneckとその導出に必要な仮定について再考する。
後者のマルコフ連鎖のみを満たすべき$I(T;Y)$に対して下界を最適化することで、この制限を回避する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:31:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。