Fugu-MT 論文翻訳(概要): Closed-Loop Unsupervised Representation Disentanglement with $\beta$-VAE Distillation and Diffusion Probabilistic Feedback

論文の概要: Closed-Loop Unsupervised Representation Disentanglement with $\beta$-VAE Distillation and Diffusion Probabilistic Feedback

arxiv url: http://arxiv.org/abs/2402.02346v1
Date: Sun, 4 Feb 2024 05:03:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-06 20:27:08.775990
Title: Closed-Loop Unsupervised Representation Disentanglement with $\beta$-VAE Distillation and Diffusion Probabilistic Feedback
Title（参考訳）: β$-vae蒸留と拡散確率フィードバックを用いた閉ループ非教師なし表現乱れ
Authors: Xin Jin, Bohan Li, BAAO Xie, Wenyao Zhang, Jinming Liu, Ziqiang Li, Tao Yang, Wenjun Zeng
Abstract要約: 表現の混乱は、AIが現実世界を根本的に理解し、差別と生成の両方に利益をもたらす可能性がある。我々はtextbfCL-Dis と呼ばれる textbfCL-Disentanglement アプローチを提案する。実画像操作や視覚解析といったアプリケーションにおけるCL-Disの優位性を示す実験がある。
参考スコア（独自算出の注目度）: 45.68054456449699
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Representation disentanglement may help AI fundamentally understand the real world and thus benefit both discrimination and generation tasks. It currently has at least three unresolved core issues: (i) heavy reliance on label annotation and synthetic data -- causing poor generalization on natural scenarios; (ii) heuristic/hand-craft disentangling constraints make it hard to adaptively achieve an optimal training trade-off; (iii) lacking reasonable evaluation metric, especially for the real label-free data. To address these challenges, we propose a \textbf{C}losed-\textbf{L}oop unsupervised representation \textbf{Dis}entanglement approach dubbed \textbf{CL-Dis}. Specifically, we use diffusion-based autoencoder (Diff-AE) as a backbone while resorting to $\beta$-VAE as a co-pilot to extract semantically disentangled representations. The strong generation ability of diffusion model and the good disentanglement ability of VAE model are complementary. To strengthen disentangling, VAE-latent distillation and diffusion-wise feedback are interconnected in a closed-loop system for a further mutual promotion. Then, a self-supervised \textbf{Navigation} strategy is introduced to identify interpretable semantic directions in the disentangled latent space. Finally, a new metric based on content tracking is designed to evaluate the disentanglement effect. Experiments demonstrate the superiority of CL-Dis on applications like real image manipulation and visual analysis.
Abstract（参考訳）: 表現の混乱は、AIが現実世界を根本的に理解し、差別と生成の両方に利益をもたらす可能性がある。現在、未解決のコア問題が3つあります。 (i) ラベルアノテーションと合成データに重きを置くこと -- 自然シナリオの一般化に支障をきたすこと。二ヒューリスティック/手工芸の解禁制約により、最適な訓練トレードオフを適応的に達成することが困難となること。三) 正確な評価基準の欠如、特に実ラベルフリーデータについて。これらの課題に対処するために, \textbf{C}losed-\textbf{L}oop unsupervised representation \textbf{Dis}entanglement approach called \textbf{CL-Dis} を提案する。具体的には、拡散に基づくオートエンコーダ(Diff-AE)をバックボーンとして使用し、$\beta$-VAEをコパイロットとして使用し、意味的不整合表現を抽出する。拡散モデルの強い生成能力とVAEモデルの優れた解離能力は相補的である。密接化を強化するため、VAEラテント蒸留と拡散度フィードバックを閉ループシステムで相互に相互に促進するために相互接続する。次に、自己教師付き \textbf{Navigation} 戦略を導入し、非絡み付き潜在空間における解釈可能な意味方向を特定する。最後に, コンテンツ追跡に基づく新しい指標を考案し, 絡み合い効果の評価を行った。実画像操作や視覚解析といったアプリケーションにおけるCL-Disの優位性を示す実験がある。

関連論文リスト

Causality-aligned Prompt Learning via Diffusion-based Counterfactual Generation [45.395353088233556]
理論的には、$textbfDi$ffusion-based $textbfC$ounterf$textbfa$ctual $textbfp$rompt学習フレームワークを導入します。本手法は,画像分類,画像テキスト検索,視覚的質問応答などのタスクにおいて,特に目に見えないカテゴリにおいて優れた優位性を示す。
論文参考訳（メタデータ） (2025-07-26T09:27:52Z)
Navigating Sparse Molecular Data with Stein Diffusion Guidance [48.21071466968102]
最適制御(SOC)は、微調整拡散モデルのための原則的フレームワークとして登場した。予測されたクリーンなサンプルに対して,既成の分類器を用いて拡散モデルを導出する,トレーニング不要な手法のクラスが開発されている。本稿では,サロゲート最適制御目標に基づく新しいトレーニングフリーガイダンスフレームワークを提案する。
論文参考訳（メタデータ） (2025-07-07T21:14:27Z)
$α$-TCVAE: On the relationship between Disentanglement and Diversity [21.811889512977924]
本稿では,新しい全相関(TC)下界を用いて最適化された変分オートエンコーダである$alpha$-TCVAEを紹介する。本稿では,不整合表現がより優れた生成能力と多様性をもたらすという考えを支持する定量的分析について述べる。以上の結果から,$alpha$-TCVAEはベースラインよりも不整合表現を一貫して学習し,より多様な観測結果を生成することが示された。
論文参考訳（メタデータ） (2024-11-01T13:50:06Z)
Disentangling Disentangled Representations: Towards Improved Latent Units via Diffusion Models [3.1923251959845214]
Disentangled Expression Learning (DRL) は、観測されたデータをコア固有の要素に分解して、データの深い理解を目指している。近年,教師なしDRLにおける拡散モデル(DM)の利用について,限定的な調査が行われている。より解釈可能なDRLに対して属性分離型潜在ユニットを強制する動的ガウスアンチョリングを提案する。また、よりDRLフレンドリーなU-Netを容易に修正できるスキップドロップアウト手法を提案する。
論文参考訳（メタデータ） (2024-10-31T11:05:09Z)
Rectified Diffusion Guidance for Conditional Generation [62.00207951161297]
CFGの背後にある理論を再検討し、組合せ係数の不適切な構成(すなわち、広く使われている和対1バージョン)が生成分布の期待シフトをもたらすことを厳密に確認する。本稿では,誘導係数を緩和したReCFGを提案する。このようにして、修正された係数は観測されたデータをトラバースすることで容易に事前計算でき、サンプリング速度はほとんど影響を受けない。
論文参考訳（メタデータ） (2024-10-24T13:41:32Z)
Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文参考訳（メタデータ） (2024-05-29T01:32:17Z)
Disentangled Representation Learning with Transmitted Information Bottleneck [57.22757813140418]
textbfDisTIB (textbfTransmitted textbfInformation textbfBottleneck for textbfDisd representation learning) は情報圧縮と保存のバランスを保った新しい目的である。
論文参考訳（メタデータ） (2023-11-03T03:18:40Z)
PDE+: Enhancing Generalization via PDE with Adaptive Distributional Diffusion [66.95761172711073]
ニューラルネットワークの一般化は、機械学習における中心的な課題です。本稿では、入力データを調整することに集中するのではなく、ニューラルネットワークの基盤機能を直接拡張することを提案する。私たちはこの理論的フレームワークを、$textbfPDE+$$textbfPDE$ with $textbfA$daptive $textbfD$istributional $textbfD$iffusionとして実践しました。
論文参考訳（メタデータ） (2023-05-25T08:23:26Z)
Uncertain Facial Expression Recognition via Multi-task Assisted Correction [43.02119884581332]
MTACと呼ばれる不確実な表情認識に対処するためのマルチタスク支援補正法を提案する。具体的には、信頼度推定ブロックと重み付け正則化モジュールを用いて、固体試料をハイライトし、バッチ毎に不確かさサンプルを抑圧する。 RAF-DB、AffectNet、AffWild2データセットの実験は、MTACが合成および実際の不確実性に直面した際のベースラインよりも大幅に改善されていることを示した。
論文参考訳（メタデータ） (2022-12-14T10:28:08Z)
Encouraging Disentangled and Convex Representation with Controllable Interpolation Regularization [15.725515910594725]
制御不能な不整合表現学習(C-Dis-RL)に焦点を当てる。制御可能な補間正規化法(CIR)を提案する。
論文参考訳（メタデータ） (2021-12-06T16:52:07Z)
Regularizing Variational Autoencoder with Diversity and Uncertainty Awareness [61.827054365139645]
変分オートエンコーダ(VAE)は、償却変分推論に基づいて潜伏変数の後部を近似する。よりディバースで不確実な潜在空間を学習するための代替モデルDU-VAEを提案する。
論文参考訳（メタデータ） (2021-10-24T07:58:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。