論文の概要: Disentangling Disentangled Representations: Towards Improved Latent Units via Diffusion Models
- arxiv url: http://arxiv.org/abs/2410.23820v1
- Date: Thu, 31 Oct 2024 11:05:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 17:03:37.687451
- Title: Disentangling Disentangled Representations: Towards Improved Latent Units via Diffusion Models
- Title(参考訳): 異方性表現の遠方性:拡散モデルによる潜在単位の改善に向けて
- Authors: Youngjun Jun, Jiwoo Park, Kyobin Choo, Tae Eun Choi, Seong Jae Hwang,
- Abstract要約: Disentangled Expression Learning (DRL) は、観測されたデータをコア固有の要素に分解して、データの深い理解を目指している。
近年,教師なしDRLにおける拡散モデル(DM)の利用について,限定的な調査が行われている。
より解釈可能なDRLに対して属性分離型潜在ユニットを強制する動的ガウスアンチョリングを提案する。
また、よりDRLフレンドリーなU-Netを容易に修正できるスキップドロップアウト手法を提案する。
- 参考スコア(独自算出の注目度): 3.1923251959845214
- License:
- Abstract: Disentangled representation learning (DRL) aims to break down observed data into core intrinsic factors for a profound understanding of the data. In real-world scenarios, manually defining and labeling these factors are non-trivial, making unsupervised methods attractive. Recently, there have been limited explorations of utilizing diffusion models (DMs), which are already mainstream in generative modeling, for unsupervised DRL. They implement their own inductive bias to ensure that each latent unit input to the DM expresses only one distinct factor. In this context, we design Dynamic Gaussian Anchoring to enforce attribute-separated latent units for more interpretable DRL. This unconventional inductive bias explicitly delineates the decision boundaries between attributes while also promoting the independence among latent units. Additionally, we also propose Skip Dropout technique, which easily modifies the denoising U-Net to be more DRL-friendly, addressing its uncooperative nature with the disentangling feature extractor. Our methods, which carefully consider the latent unit semantics and the distinct DM structure, enhance the practicality of DM-based disentangled representations, demonstrating state-of-the-art disentanglement performance on both synthetic and real data, as well as advantages in downstream tasks.
- Abstract(参考訳): Disentangled Expression Learning (DRL) は、観測されたデータをコア固有の要素に分解して、データの深い理解を目指している。
現実のシナリオでは、これらの要素を手動で定義し、ラベル付けするのは簡単ではなく、教師なしのメソッドを魅力的にします。
近年,遺伝子モデルにおいてすでに主流となっている拡散モデル (DM) を教師なしDRLに活用する研究が限られている。
彼らはDMに入力された各潜伏単位が1つの異なる因子だけを表現することを保証するために、独自の帰納バイアスを実装している。
この文脈では、より解釈可能なDRLのために属性分離された潜在ユニットを強制するために動的ガウスアンチョリングを設計する。
この非伝統的な帰納バイアスは、属性間の決定境界を明確に規定すると同時に、潜在ユニット間の独立を促進する。
さらに,不協和性特徴抽出器による非協調性に対処するため,よりDRLフレンドリなU-Netを容易に修正できるスキップドロップアウト手法を提案する。
提案手法は,遅延単位のセマンティクスとDM構造を慎重に考慮し,DMに基づく非絡み合い表現の実用性を高め,合成データと実データの両方で最先端の非絡み合い性能を示すとともに,下流タスクの利点も示す。
関連論文リスト
- Breaking Determinism: Fuzzy Modeling of Sequential Recommendation Using Discrete State Space Diffusion Model [66.91323540178739]
シークエンシャルレコメンデーション(SR)は、ユーザーが過去の行動に基づいて興味を持つかもしれない項目を予測することを目的としている。
我々はSRを新しい情報理論の観点から再検討し、逐次モデリング手法がユーザの行動のランダム性と予測不可能性を適切に把握できないことを発見した。
ファジィ情報処理理論に触発された本論文では,制限を克服し,ユーザの関心事の進化をよりよく捉えるために,ファジィなインタラクションシーケンスの組を導入する。
論文 参考訳(メタデータ) (2024-10-31T14:52:01Z) - Efficient Distribution Matching of Representations via Noise-Injected Deep InfoMax [73.03684002513218]
我々はDeep InfoMax(DIM)を拡張し、学習した表現を選択された事前分布に自動マッチングできるようにする。
このような修正により、一様かつ通常に分散した表現を学習できることを示す。
その結果,下流作業における性能とDMの品質の中間的なトレードオフが示唆された。
論文 参考訳(メタデータ) (2024-10-09T15:40:04Z) - Bellman Diffusion: Generative Modeling as Learning a Linear Operator in the Distribution Space [72.52365911990935]
本稿では,MDPの線形性を維持する新しいDGMフレームワークであるBellman Diffusionを紹介する。
この結果から,ベルマン拡散は分布RLタスクにおける従来のヒストグラムベースベースラインよりも1.5倍高速に収束し,精度の高い画像生成装置であることがわかった。
論文 参考訳(メタデータ) (2024-10-02T17:53:23Z) - Disentanglement with Factor Quantized Variational Autoencoders [11.086500036180222]
本稿では,生成因子に関する基礎的真理情報をモデルに提供しない離散変分オートエンコーダ(VAE)モデルを提案する。
本研究では, 離散表現を学習する上で, 連続表現を学習することの利点を実証する。
FactorQVAEと呼ばれる手法は,最適化に基づく不整合アプローチと離散表現学習を組み合わせた最初の手法である。
論文 参考訳(メタデータ) (2024-09-23T09:33:53Z) - Graph-based Unsupervised Disentangled Representation Learning via Multimodal Large Language Models [42.17166746027585]
複素データ内の因子化属性とその相互関係を学習するための双方向重み付きグラフベースフレームワークを提案する。
具体的には、グラフの初期ノードとして要素を抽出する$beta$-VAEベースのモジュールを提案する。
これらの相補的加群を統合することで、我々は細粒度、実用性、教師なしの絡み合いをうまく達成できる。
論文 参考訳(メタデータ) (2024-07-26T15:32:21Z) - Closed-Loop Unsupervised Representation Disentanglement with $\beta$-VAE
Distillation and Diffusion Probabilistic Feedback [45.68054456449699]
表現の混乱は、AIが現実世界を根本的に理解し、差別と生成の両方に利益をもたらす可能性がある。
我々はtextbfCL-Dis と呼ばれる textbfCL-Disentanglement アプローチを提案する。
実画像操作や視覚解析といったアプリケーションにおけるCL-Disの優位性を示す実験がある。
論文 参考訳(メタデータ) (2024-02-04T05:03:22Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z) - Unsupervised Controllable Generation with Self-Training [90.04287577605723]
GANによる制御可能な世代は依然として困難な研究課題である。
本稿では,自己学習を通じてジェネレータを制御する潜伏符号の分布を学習するための教師なしフレームワークを提案する。
我々のフレームワークは、変分オートエンコーダのような他の変種と比較して、より良い絡み合いを示す。
論文 参考訳(メタデータ) (2020-07-17T21:50:35Z) - Closed-Form Factorization of Latent Semantics in GANs [65.42778970898534]
画像合成のために訓練されたGAN(Generative Adversarial Networks)の潜在空間に、解釈可能な次元の豊富なセットが出現することが示されている。
本研究では,GANが学習した内部表現について検討し,その基礎となる変動要因を教師なしで明らかにする。
本稿では,事前学習した重みを直接分解することで,潜在意味発見のためのクローズドフォーム因数分解アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-13T18:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。