論文の概要: Closed-Loop Unsupervised Representation Disentanglement with $\beta$-VAE
Distillation and Diffusion Probabilistic Feedback
- arxiv url: http://arxiv.org/abs/2402.02346v1
- Date: Sun, 4 Feb 2024 05:03:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 20:27:08.775990
- Title: Closed-Loop Unsupervised Representation Disentanglement with $\beta$-VAE
Distillation and Diffusion Probabilistic Feedback
- Title(参考訳): β$-vae蒸留と拡散確率フィードバックを用いた閉ループ非教師なし表現乱れ
- Authors: Xin Jin, Bohan Li, BAAO Xie, Wenyao Zhang, Jinming Liu, Ziqiang Li,
Tao Yang, Wenjun Zeng
- Abstract要約: 表現の混乱は、AIが現実世界を根本的に理解し、差別と生成の両方に利益をもたらす可能性がある。
我々はtextbfCL-Dis と呼ばれる textbfCL-Disentanglement アプローチを提案する。
実画像操作や視覚解析といったアプリケーションにおけるCL-Disの優位性を示す実験がある。
- 参考スコア(独自算出の注目度): 45.68054456449699
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Representation disentanglement may help AI fundamentally understand the real
world and thus benefit both discrimination and generation tasks. It currently
has at least three unresolved core issues: (i) heavy reliance on label
annotation and synthetic data -- causing poor generalization on natural
scenarios; (ii) heuristic/hand-craft disentangling constraints make it hard to
adaptively achieve an optimal training trade-off; (iii) lacking reasonable
evaluation metric, especially for the real label-free data. To address these
challenges, we propose a \textbf{C}losed-\textbf{L}oop unsupervised
representation \textbf{Dis}entanglement approach dubbed \textbf{CL-Dis}.
Specifically, we use diffusion-based autoencoder (Diff-AE) as a backbone while
resorting to $\beta$-VAE as a co-pilot to extract semantically disentangled
representations. The strong generation ability of diffusion model and the good
disentanglement ability of VAE model are complementary. To strengthen
disentangling, VAE-latent distillation and diffusion-wise feedback are
interconnected in a closed-loop system for a further mutual promotion. Then, a
self-supervised \textbf{Navigation} strategy is introduced to identify
interpretable semantic directions in the disentangled latent space. Finally, a
new metric based on content tracking is designed to evaluate the
disentanglement effect. Experiments demonstrate the superiority of CL-Dis on
applications like real image manipulation and visual analysis.
- Abstract(参考訳): 表現の混乱は、AIが現実世界を根本的に理解し、差別と生成の両方に利益をもたらす可能性がある。
現在、未解決のコア問題が3つあります。
(i) ラベルアノテーションと合成データに重きを置くこと -- 自然シナリオの一般化に支障をきたすこと。
二 ヒューリスティック/手工芸の解禁制約により、最適な訓練トレードオフを適応的に達成することが困難となること。
三) 正確な評価基準の欠如、特に実ラベルフリーデータについて。
これらの課題に対処するために, \textbf{C}losed-\textbf{L}oop unsupervised representation \textbf{Dis}entanglement approach called \textbf{CL-Dis} を提案する。
具体的には、拡散に基づくオートエンコーダ(Diff-AE)をバックボーンとして使用し、$\beta$-VAEをコパイロットとして使用し、意味的不整合表現を抽出する。
拡散モデルの強い生成能力とVAEモデルの優れた解離能力は相補的である。
密接化を強化するため、VAEラテント蒸留と拡散度フィードバックを閉ループシステムで相互に相互に促進するために相互接続する。
次に、自己教師付き \textbf{Navigation} 戦略を導入し、非絡み付き潜在空間における解釈可能な意味方向を特定する。
最後に, コンテンツ追跡に基づく新しい指標を考案し, 絡み合い効果の評価を行った。
実画像操作や視覚解析といったアプリケーションにおけるCL-Disの優位性を示す実験がある。
関連論文リスト
- $α$-TCVAE: On the relationship between Disentanglement and Diversity [21.811889512977924]
本稿では,新しい全相関(TC)下界を用いて最適化された変分オートエンコーダである$alpha$-TCVAEを紹介する。
本稿では,不整合表現がより優れた生成能力と多様性をもたらすという考えを支持する定量的分析について述べる。
以上の結果から,$alpha$-TCVAEはベースラインよりも不整合表現を一貫して学習し,より多様な観測結果を生成することが示された。
論文 参考訳(メタデータ) (2024-11-01T13:50:06Z) - Disentangling Disentangled Representations: Towards Improved Latent Units via Diffusion Models [3.1923251959845214]
Disentangled Expression Learning (DRL) は、観測されたデータをコア固有の要素に分解して、データの深い理解を目指している。
近年,教師なしDRLにおける拡散モデル(DM)の利用について,限定的な調査が行われている。
より解釈可能なDRLに対して属性分離型潜在ユニットを強制する動的ガウスアンチョリングを提案する。
また、よりDRLフレンドリーなU-Netを容易に修正できるスキップドロップアウト手法を提案する。
論文 参考訳(メタデータ) (2024-10-31T11:05:09Z) - Rectified Diffusion Guidance for Conditional Generation [62.00207951161297]
CFGの背後にある理論を再検討し、組合せ係数の不適切な構成(すなわち、広く使われている和対1バージョン)が生成分布の期待シフトをもたらすことを厳密に確認する。
本稿では,誘導係数を緩和したReCFGを提案する。
このようにして、修正された係数は観測されたデータをトラバースすることで容易に事前計算でき、サンプリング速度はほとんど影響を受けない。
論文 参考訳(メタデータ) (2024-10-24T13:41:32Z) - Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。
そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。
私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文 参考訳(メタデータ) (2024-05-29T01:32:17Z) - Disentangled Representation Learning with Transmitted Information Bottleneck [57.22757813140418]
textbfDisTIB (textbfTransmitted textbfInformation textbfBottleneck for textbfDisd representation learning) は情報圧縮と保存のバランスを保った新しい目的である。
論文 参考訳(メタデータ) (2023-11-03T03:18:40Z) - PDE+: Enhancing Generalization via PDE with Adaptive Distributional
Diffusion [66.95761172711073]
ニューラルネットワークの一般化は、機械学習における中心的な課題です。
本稿では、入力データを調整することに集中するのではなく、ニューラルネットワークの基盤機能を直接拡張することを提案する。
私たちはこの理論的フレームワークを、$textbfPDE+$$textbfPDE$ with $textbfA$daptive $textbfD$istributional $textbfD$iffusionとして実践しました。
論文 参考訳(メタデータ) (2023-05-25T08:23:26Z) - Uncertain Facial Expression Recognition via Multi-task Assisted
Correction [43.02119884581332]
MTACと呼ばれる不確実な表情認識に対処するためのマルチタスク支援補正法を提案する。
具体的には、信頼度推定ブロックと重み付け正則化モジュールを用いて、固体試料をハイライトし、バッチ毎に不確かさサンプルを抑圧する。
RAF-DB、AffectNet、AffWild2データセットの実験は、MTACが合成および実際の不確実性に直面した際のベースラインよりも大幅に改善されていることを示した。
論文 参考訳(メタデータ) (2022-12-14T10:28:08Z) - Regularizing Variational Autoencoder with Diversity and Uncertainty
Awareness [61.827054365139645]
変分オートエンコーダ(VAE)は、償却変分推論に基づいて潜伏変数の後部を近似する。
よりディバースで不確実な潜在空間を学習するための代替モデルDU-VAEを提案する。
論文 参考訳(メタデータ) (2021-10-24T07:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。