論文の概要: Latent Diffusion Models with Masked AutoEncoders
- arxiv url: http://arxiv.org/abs/2507.09984v2
- Date: Wed, 23 Jul 2025 06:50:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 12:00:05.624802
- Title: Latent Diffusion Models with Masked AutoEncoders
- Title(参考訳): マスクオートエンコーダを用いた潜時拡散モデル
- Authors: Junho Lee, Jeongwoo Shin, Hyungwook Choi, Joonseok Lee,
- Abstract要約: 我々は3つの重要な特性を識別する:潜時滑らかさ、知覚的圧縮品質、再構成品質。
Masked AutoEncoders が維持する階層的特徴を生かした変動型 Masked AutoEncoders (VMAEs) を提案する。
私たちはVMAEを潜在拡散モデルフレームワークに統合し、仮面オートエンコーダ(LDMAE)を用いた潜拡散モデルを導入しました。
- 参考スコア(独自算出の注目度): 16.96990728780005
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In spite of the remarkable potential of Latent Diffusion Models (LDMs) in image generation, the desired properties and optimal design of the autoencoders have been underexplored. In this work, we analyze the role of autoencoders in LDMs and identify three key properties: latent smoothness, perceptual compression quality, and reconstruction quality. We demonstrate that existing autoencoders fail to simultaneously satisfy all three properties, and propose Variational Masked AutoEncoders (VMAEs), taking advantage of the hierarchical features maintained by Masked AutoEncoders. We integrate VMAEs into the LDM framework, introducing Latent Diffusion Models with Masked AutoEncoders (LDMAEs).
- Abstract(参考訳): 画像生成における遅延拡散モデル(LDM)の顕著な可能性にもかかわらず、オートエンコーダの望ましい特性と最適設計は過小評価されている。
本研究では, LDMにおけるオートエンコーダの役割を分析し, 潜時的滑らかさ, 知覚的圧縮品質, 再構成品質の3つの重要な特性を同定する。
本研究では,既存のオートエンコーダが3つの特性を同時に満たさないことを示すとともに,Masked AutoEncodersが維持する階層的特徴を生かして,VMAE(Invariantal Masked AutoEncoders)を提案する。
我々は VMAE を LDM フレームワークに統合し,Masked AutoEncoders (LDMAE) を用いた遅延拡散モデルを導入する。
関連論文リスト
- H3AE: High Compression, High Speed, and High Quality AutoEncoder for Video Diffusion Models [76.1519545010611]
オートエンコーダ(AE)は、画像およびビデオ生成のための潜時拡散モデルの成功の鍵である。
本研究では,アーキテクチャ設計の選択について検討し,効率的な高圧縮ビデオAEを得るために計算分布を最適化する。
我々のAEは、モバイル上での超高圧縮比とリアルタイム復号化速度を達成しつつ、再現率の点で先行技術より優れています。
論文 参考訳(メタデータ) (2025-04-14T17:59:06Z) - TIDE : Temporal-Aware Sparse Autoencoders for Interpretable Diffusion Transformers in Image Generation [34.73820805875123]
TIDE (Temporal-aware Sparse Autoencoders for Interpretable Diffusion transformErs) は,DiTアクティベーション層内の時間的再構築を段階的に促進する新しいフレームワークである。
TIDEはスパースオートエンコーダ(SAE)とスパースボトルネック層を使用して、解釈可能かつ階層的な特徴を抽出する。
提案手法は,1e-3の平均2乗誤差(MSE)とコサイン類似度(0.97。
論文 参考訳(メタデータ) (2025-03-10T08:35:51Z) - Masked Autoencoders Are Effective Tokenizers for Diffusion Models [56.08109308294133]
MAETokは自己エンコーダであり、再構築の忠実さを維持しながら意味的にリッチな潜在空間を学習する。
MaETokは1.69のgFIDで76倍高速トレーニングが可能で、512x512世代で31倍高い推論スループットを実現している。
論文 参考訳(メタデータ) (2025-02-05T18:42:04Z) - Comparison of Autoencoders for tokenization of ASL datasets [0.0]
本研究では,ASL画像データセットのためのエンコーダ・デコーダアーキテクチャの開発と評価に焦点をあてる。
フィードフォワードオートエンコーダ、畳み込みオートエンコーダ、拡散オートエンコーダの3つのアプローチを比較した。
Diffusion Autoencoderは他より優れており、最小平均二乗誤差(MSE)と最高平均オピニオンスコア(MOS)を達成する。
論文 参考訳(メタデータ) (2025-01-12T21:39:06Z) - Factorized Video Autoencoders for Efficient Generative Modelling [44.00676320678128]
本稿では,入力サイズと直交的に成長する4平面の因数分解潜在空間にデータを投影するオートエンコーダを提案する。
提案した4面ラテント空間は高忠実度再構成に必要なリッチな表現を保っていることを示す。
論文 参考訳(メタデータ) (2024-12-05T18:58:17Z) - Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - LiteVAE: Lightweight and Efficient Variational Autoencoders for Latent Diffusion Models [27.795088366122297]
潜在拡散モデル(LDM)のための新しいオートエンコーダ設計である LiteVAE を導入する。
LiteVAEは2次元離散ウェーブレット変換を使用して、標準変分オートエンコーダ(VAE)よりもスケーラビリティと計算効率を向上させる。
論文 参考訳(メタデータ) (2024-05-23T12:06:00Z) - MaeFuse: Transferring Omni Features with Pretrained Masked Autoencoders for Infrared and Visible Image Fusion via Guided Training [95.24751989263117]
MaeFuseは、赤外線および可視画像融合(IVIF)用に設計された新しいオートエンコーダモデルである。
提案モデルでは,MAE(Masked Autoencoders)の事前訓練エンコーダを用いて,低レベル再構成と高レベル視覚タスクのためのオムニ特徴抽出機能を備えている。
MaeFuseは、融合技術という領域で新しい視点を導入するだけでなく、様々な公開データセットで顕著なパフォーマンスで際立っている。
論文 参考訳(メタデータ) (2024-04-17T02:47:39Z) - Unified Generation, Reconstruction, and Representation: Generalized Diffusion with Adaptive Latent Encoding-Decoding [90.77521413857448]
深層生成モデルは,3つのコア機能 – 新たなインスタンスの生成,入力の再構築,コンパクト表現の学習 – に固定されている。
一般化逆変換拡散確率モデル(EDDPM)を導入する。
EDDPMはパラメタライズされた符号化復号を導入することで標準拡散におけるガウス雑音化を一般化する。
テキスト、タンパク質、画像の実験は、多様なデータやタスクを扱う柔軟性を示している。
論文 参考訳(メタデータ) (2024-02-29T10:08:57Z) - Diffusion Models as Masked Autoencoders [52.442717717898056]
拡散モデルに対する近年の関心を踏まえて、生成的に事前学習された視覚表現を再考する。
拡散モデルによる直接事前学習では強い表現は得られないが、マスク付き入力上での拡散モデルと公式拡散モデルをマスク付きオートエンコーダ(DiffMAE)として条件付ける。
設計選択の長所と短所について包括的な研究を行い、拡散モデルとマスク付きオートエンコーダ間の接続を構築する。
論文 参考訳(メタデータ) (2023-04-06T17:59:56Z) - CMAE-V: Contrastive Masked Autoencoders for Video Action Recognition [140.22700085735215]
視覚行動認識のためのCMAEは、純粋なマスク付きオートエンコーダに基づいて、それよりも強力な特徴表現を生成することができる。
ハイブリッドアーキテクチャであるCMAE-Vは、Kinetics-400とSome-something V2データセットで82.2%と71.6%の精度を達成できる。
論文 参考訳(メタデータ) (2023-01-15T05:07:41Z) - Closing the gap: Exact maximum likelihood training of generative
autoencoders using invertible layers [7.76925617801895]
VAE方式のオートエンコーダは非可逆層を用いて構築可能であることを示す。
これは、エンコーダ、デコーダ、および以前のアーキテクチャの選択において完全な自由を残しながら達成される。
この手法は,ログライクリフ,サンプル品質,デノーミング性能の観点から,アーキテクチャ的に等価なVAEよりも著しく高い性能を示す。
論文 参考訳(メタデータ) (2022-05-19T13:16:09Z) - Variance Constrained Autoencoding [0.0]
エンコーダの場合、同時に分布制約を強制し、出力歪みを最小化しようとすると、生成的および再構成的品質が低下することを示す。
本稿では,分散制約のみを適用した分散制約付きオートエンコーダ(VCAE)を提案する。
実験の結果,VCAEは,MNISTとCelebAの再構成および生成品質において,ワッサースタインオートエンコーダと変分オートエンコーダを改良することがわかった。
論文 参考訳(メタデータ) (2020-05-08T00:50:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。