論文の概要: Automated Learning of Semantic Embedding Representations for Diffusion Models
- arxiv url: http://arxiv.org/abs/2505.05732v1
- Date: Fri, 09 May 2025 02:10:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-12 20:40:10.126476
- Title: Automated Learning of Semantic Embedding Representations for Diffusion Models
- Title(参考訳): 拡散モデルのための意味的埋め込み表現の自動学習
- Authors: Limai Jiang, Yunpeng Cai,
- Abstract要約: 拡散モデルの表現能力を拡大するために,マルチレベル・デノナイジング・オートエンコーダ・フレームワークを用いる。
我々の研究は、DDMが生成タスクに適合するだけでなく、汎用的なディープラーニングアプリケーションにも有利である可能性を正当化している。
- 参考スコア(独自算出の注目度): 1.688134675717698
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative models capture the true distribution of data, yielding semantically rich representations. Denoising diffusion models (DDMs) exhibit superior generative capabilities, though efficient representation learning for them are lacking. In this work, we employ a multi-level denoising autoencoder framework to expand the representation capacity of DDMs, which introduces sequentially consistent Diffusion Transformers and an additional timestep-dependent encoder to acquire embedding representations on the denoising Markov chain through self-conditional diffusion learning. Intuitively, the encoder, conditioned on the entire diffusion process, compresses high-dimensional data into directional vectors in latent under different noise levels, facilitating the learning of image embeddings across all timesteps. To verify the semantic adequacy of embeddings generated through this approach, extensive experiments are conducted on various datasets, demonstrating that optimally learned embeddings by DDMs surpass state-of-the-art self-supervised representation learning methods in most cases, achieving remarkable discriminative semantic representation quality. Our work justifies that DDMs are not only suitable for generative tasks, but also potentially advantageous for general-purpose deep learning applications.
- Abstract(参考訳): 生成モデルはデータの真の分布を捉え、意味的にリッチな表現をもたらす。
拡散モデル(DDM)は、効率的な表現学習が欠如しているにもかかわらず、優れた生成能力を示す。
本研究では,DDMの表現能力を高めるためにマルチレベル自動エンコーダフレームワークを用い,逐次的に一貫した拡散変換器と時間に依存しないエンコーダを導入し,自己条件拡散学習によるマルコフ連鎖への埋め込み表現を取得する。
直感的には、エンコーダは拡散過程全体を条件に、高次元データを様々なノイズレベル下で遅延した方向ベクトルに圧縮し、すべての時間ステップにまたがる画像埋め込みの学習を容易にする。
提案手法により生成した埋め込みのセマンティックな妥当性を検証するため, DDMによる埋め込みが最先端の自己管理型表現学習法を超えることが実証され, 識別的意味表現の質が著しく向上することが実証された。
我々の研究は、DDMが生成タスクに適合するだけでなく、汎用的なディープラーニングアプリケーションにも有利である可能性を正当化している。
関連論文リスト
- Efficient Distribution Matching of Representations via Noise-Injected Deep InfoMax [73.03684002513218]
我々はDeep InfoMax(DIM)を拡張し、学習した表現を選択された事前分布に自動マッチングできるようにする。
このような修正により、一様かつ通常に分散した表現を学習できることを示す。
その結果,下流作業における性能とDMの品質の中間的なトレードオフが示唆された。
論文 参考訳(メタデータ) (2024-10-09T15:40:04Z) - Denoising Diffusion Autoencoders are Unified Self-supervised Learners [58.194184241363175]
本稿では,拡散モデルにおけるネットワーク,すなわち拡散オートエンコーダ(DDAE)が,自己教師型学習者の統合であることを示す。
DDAEはすでに、補助エンコーダを使わずに、中間層内で線形分離可能な表現を強く学習している。
CIFAR-10 と Tiny-ImageNet の線形評価精度は95.9% と 50.0% である。
論文 参考訳(メタデータ) (2023-03-17T04:20:47Z) - Representation Learning with Diffusion Models [0.0]
拡散モデル (DM) は画像合成タスクや密度推定において最先端の結果を得た。
拡散モデル(LRDM)を用いてそのような表現を学習するためのフレームワークを提案する。
特に、DMと表現エンコーダは、生成的認知過程に特有の豊かな表現を学習するために、共同で訓練される。
論文 参考訳(メタデータ) (2022-10-20T07:26:47Z) - f-DM: A Multi-stage Diffusion Model via Progressive Signal
Transformation [56.04628143914542]
拡散モデル(DM)は、最近、様々な領域で生成モデリングを行うためのSoTAツールとして登場した。
本稿では、プログレッシブ信号変換が可能なDMの一般化されたファミリであるf-DMを提案する。
我々は、ダウンサンプリング、ぼやけ、学習された変換を含む様々な機能を持つ画像生成タスクにf-DMを適用した。
論文 参考訳(メタデータ) (2022-10-10T18:49:25Z) - Diffusion-Based Representation Learning [65.55681678004038]
教師付き信号のない表現学習を実現するために,デノナイズスコアマッチングフレームワークを拡張した。
対照的に、拡散に基づく表現学習は、デノナイジングスコアマッチング目的の新しい定式化に依存している。
同じ手法を用いて,半教師付き画像分類における最先端モデルの改善を実現する無限次元潜在符号の学習を提案する。
論文 参考訳(メタデータ) (2021-05-29T09:26:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。