論文の概要: Closed-Loop Unsupervised Representation Disentanglement with $\beta$-VAE
Distillation and Diffusion Probabilistic Feedback
- arxiv url: http://arxiv.org/abs/2402.02346v1
- Date: Sun, 4 Feb 2024 05:03:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 20:27:08.775990
- Title: Closed-Loop Unsupervised Representation Disentanglement with $\beta$-VAE
Distillation and Diffusion Probabilistic Feedback
- Title(参考訳): β$-vae蒸留と拡散確率フィードバックを用いた閉ループ非教師なし表現乱れ
- Authors: Xin Jin, Bohan Li, BAAO Xie, Wenyao Zhang, Jinming Liu, Ziqiang Li,
Tao Yang, Wenjun Zeng
- Abstract要約: 表現の混乱は、AIが現実世界を根本的に理解し、差別と生成の両方に利益をもたらす可能性がある。
我々はtextbfCL-Dis と呼ばれる textbfCL-Disentanglement アプローチを提案する。
実画像操作や視覚解析といったアプリケーションにおけるCL-Disの優位性を示す実験がある。
- 参考スコア(独自算出の注目度): 45.68054456449699
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Representation disentanglement may help AI fundamentally understand the real
world and thus benefit both discrimination and generation tasks. It currently
has at least three unresolved core issues: (i) heavy reliance on label
annotation and synthetic data -- causing poor generalization on natural
scenarios; (ii) heuristic/hand-craft disentangling constraints make it hard to
adaptively achieve an optimal training trade-off; (iii) lacking reasonable
evaluation metric, especially for the real label-free data. To address these
challenges, we propose a \textbf{C}losed-\textbf{L}oop unsupervised
representation \textbf{Dis}entanglement approach dubbed \textbf{CL-Dis}.
Specifically, we use diffusion-based autoencoder (Diff-AE) as a backbone while
resorting to $\beta$-VAE as a co-pilot to extract semantically disentangled
representations. The strong generation ability of diffusion model and the good
disentanglement ability of VAE model are complementary. To strengthen
disentangling, VAE-latent distillation and diffusion-wise feedback are
interconnected in a closed-loop system for a further mutual promotion. Then, a
self-supervised \textbf{Navigation} strategy is introduced to identify
interpretable semantic directions in the disentangled latent space. Finally, a
new metric based on content tracking is designed to evaluate the
disentanglement effect. Experiments demonstrate the superiority of CL-Dis on
applications like real image manipulation and visual analysis.
- Abstract(参考訳): 表現の混乱は、AIが現実世界を根本的に理解し、差別と生成の両方に利益をもたらす可能性がある。
現在、未解決のコア問題が3つあります。
(i) ラベルアノテーションと合成データに重きを置くこと -- 自然シナリオの一般化に支障をきたすこと。
二 ヒューリスティック/手工芸の解禁制約により、最適な訓練トレードオフを適応的に達成することが困難となること。
三) 正確な評価基準の欠如、特に実ラベルフリーデータについて。
これらの課題に対処するために, \textbf{C}losed-\textbf{L}oop unsupervised representation \textbf{Dis}entanglement approach called \textbf{CL-Dis} を提案する。
具体的には、拡散に基づくオートエンコーダ(Diff-AE)をバックボーンとして使用し、$\beta$-VAEをコパイロットとして使用し、意味的不整合表現を抽出する。
拡散モデルの強い生成能力とVAEモデルの優れた解離能力は相補的である。
密接化を強化するため、VAEラテント蒸留と拡散度フィードバックを閉ループシステムで相互に相互に促進するために相互接続する。
次に、自己教師付き \textbf{Navigation} 戦略を導入し、非絡み付き潜在空間における解釈可能な意味方向を特定する。
最後に, コンテンツ追跡に基づく新しい指標を考案し, 絡み合い効果の評価を行った。
実画像操作や視覚解析といったアプリケーションにおけるCL-Disの優位性を示す実験がある。
関連論文リスト
- Disentangled Representation Learning with Transmitted Information
Bottleneck [73.0553263960709]
textbfDisTIB (textbfTransmitted textbfInformation textbfBottleneck for textbfDisd representation learning) は情報圧縮と保存のバランスを保った新しい目的である。
論文 参考訳(メタデータ) (2023-11-03T03:18:40Z) - How to train your VAE [0.0]
変分オートエンコーダ(VAE)は、機械学習における生成モデリングと表現学習の基盤となっている。
本稿では,ELBO(エビデンス・ロウアー・バウンド)における重要な構成要素であるKulback Leibler (KL) Divergenceの解釈について検討する。
提案手法は, ELBOをガウスの混合体で再定義し, 分散崩壊を防止するための正規化項を導入し, テクスチャリアリズムを高めるためにPatchGAN識別器を用いる。
論文 参考訳(メタデータ) (2023-09-22T19:52:28Z) - PDE+: Enhancing Generalization via PDE with Adaptive Distributional
Diffusion [66.95761172711073]
ニューラルネットワークの一般化は、機械学習における中心的な課題です。
本稿では、入力データを調整することに集中するのではなく、ニューラルネットワークの基盤機能を直接拡張することを提案する。
私たちはこの理論的フレームワークを、$textbfPDE+$$textbfPDE$ with $textbfA$daptive $textbfD$istributional $textbfD$iffusionとして実践しました。
論文 参考訳(メタデータ) (2023-05-25T08:23:26Z) - Uncertain Facial Expression Recognition via Multi-task Assisted
Correction [43.02119884581332]
MTACと呼ばれる不確実な表情認識に対処するためのマルチタスク支援補正法を提案する。
具体的には、信頼度推定ブロックと重み付け正則化モジュールを用いて、固体試料をハイライトし、バッチ毎に不確かさサンプルを抑圧する。
RAF-DB、AffectNet、AffWild2データセットの実験は、MTACが合成および実際の不確実性に直面した際のベースラインよりも大幅に改善されていることを示した。
論文 参考訳(メタデータ) (2022-12-14T10:28:08Z) - Encouraging Disentangled and Convex Representation with Controllable
Interpolation Regularization [15.725515910594725]
制御不能な不整合表現学習(C-Dis-RL)に焦点を当てる。
制御可能な補間正規化法(CIR)を提案する。
論文 参考訳(メタデータ) (2021-12-06T16:52:07Z) - Regularizing Variational Autoencoder with Diversity and Uncertainty
Awareness [61.827054365139645]
変分オートエンコーダ(VAE)は、償却変分推論に基づいて潜伏変数の後部を近似する。
よりディバースで不確実な潜在空間を学習するための代替モデルDU-VAEを提案する。
論文 参考訳(メタデータ) (2021-10-24T07:58:13Z) - Dive into Ambiguity: Latent Distribution Mining and Pairwise Uncertainty
Estimation for Facial Expression Recognition [59.52434325897716]
DMUE(DMUE)という,アノテーションのあいまいさを2つの視点から解決するソリューションを提案する。
前者に対しては,ラベル空間における潜伏分布をよりよく記述するために,補助的マルチブランチ学習フレームワークを導入する。
後者の場合、インスタンス間の意味的特徴のペアワイズ関係を完全に活用して、インスタンス空間のあいまいさの程度を推定する。
論文 参考訳(メタデータ) (2021-04-01T03:21:57Z) - An Information Bottleneck Approach for Controlling Conciseness in
Rationale Extraction [84.49035467829819]
我々は,情報ボトルネック(IB)の目的を最適化することで,このトレードオフをよりよく管理できることを示す。
我々の完全教師なしのアプローチは、文上のスパース二項マスクを予測する説明器と、抽出された合理性のみを考慮したエンドタスク予測器を共同で学習する。
論文 参考訳(メタデータ) (2020-05-01T23:26:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。