論文の概要: DGAE: Diffusion-Guided Autoencoder for Efficient Latent Representation Learning
- arxiv url: http://arxiv.org/abs/2506.09644v1
- Date: Wed, 11 Jun 2025 12:01:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:02.913443
- Title: DGAE: Diffusion-Guided Autoencoder for Efficient Latent Representation Learning
- Title(参考訳): DGAE:効率的な潜在表現学習のための拡散誘導オートエンコーダ
- Authors: Dongxu Liu, Yuang Peng, Haomiao Tang, Yuwei Chen, Chunrui Han, Zheng Ge, Daxin Jiang, Mingxue Liao,
- Abstract要約: オートエンコーダは、画像トークン化によってピクセルを潜在空間に圧縮することで、最先端の画像およびビデオ生成モデルを強化する。
近年, 圧縮率の高いオートエンコーダの性能劣化が軽減されているが, GANによるトレーニング不安定性は未解決のままである。
本稿では、拡散モデルを用いてデコーダを誘導し、潜在表現から完全に復号化されていない情報信号を復元するDGAEを提案する。
- 参考スコア(独自算出の注目度): 42.22785629783251
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoencoders empower state-of-the-art image and video generative models by compressing pixels into a latent space through visual tokenization. Although recent advances have alleviated the performance degradation of autoencoders under high compression ratios, addressing the training instability caused by GAN remains an open challenge. While improving spatial compression, we also aim to minimize the latent space dimensionality, enabling more efficient and compact representations. To tackle these challenges, we focus on improving the decoder's expressiveness. Concretely, we propose DGAE, which employs a diffusion model to guide the decoder in recovering informative signals that are not fully decoded from the latent representation. With this design, DGAE effectively mitigates the performance degradation under high spatial compression rates. At the same time, DGAE achieves state-of-the-art performance with a 2x smaller latent space. When integrated with Diffusion Models, DGAE demonstrates competitive performance on image generation for ImageNet-1K and shows that this compact latent representation facilitates faster convergence of the diffusion model.
- Abstract(参考訳): オートエンコーダは、画像トークン化によってピクセルを潜在空間に圧縮することで、最先端の画像およびビデオ生成モデルを強化する。
近年, 圧縮率の高いオートエンコーダの性能劣化が緩和されているが, GANによるトレーニング不安定性への対処は依然としてオープンな課題である。
空間圧縮を改善する一方で、より効率的でコンパクトな表現を可能にするために、潜在空間の次元を最小化することを目的とする。
これらの課題に対処するために、デコーダの表現性を改善することに注力する。
具体的には、拡散モデルを用いて、遅延表現から完全に復号化されていない情報信号の復号を導出するDGAEを提案する。
この設計により、DGAEは空間圧縮率の高い性能劣化を効果的に軽減する。
同時に、DGAEは2倍小さい潜在空間で最先端の性能を達成する。
DGAEは拡散モデルと統合した場合、ImageNet-1Kの画像生成における競合性能を示し、このコンパクトな潜在表現が拡散モデルの高速収束を促進することを示す。
関連論文リスト
- Ultra Lowrate Image Compression with Semantic Residual Coding and Compression-aware Diffusion [28.61304513668606]
ResULICは残留誘導型超低レート画像圧縮システムである。
残差信号は意味検索と拡散に基づく生成プロセスの両方に組み込む。
最先端拡散法に比べて客観的・主観的性能に優れる。
論文 参考訳(メタデータ) (2025-05-13T06:51:23Z) - H3AE: High Compression, High Speed, and High Quality AutoEncoder for Video Diffusion Models [76.1519545010611]
オートエンコーダ(AE)は、画像およびビデオ生成のための潜時拡散モデルの成功の鍵である。
本研究では,アーキテクチャ設計の選択について検討し,効率的な高圧縮ビデオAEを得るために計算分布を最適化する。
我々のAEは、モバイル上での超高圧縮比とリアルタイム復号化速度を達成しつつ、再現率の点で先行技術より優れています。
論文 参考訳(メタデータ) (2025-04-14T17:59:06Z) - Embedding Compression Distortion in Video Coding for Machines [67.97469042910855]
現在、ビデオ伝送は人間の視覚システム(HVS)だけでなく、分析のための機械認識にも役立っている。
本稿では,機械知覚関連歪み表現を抽出し,下流モデルに埋め込む圧縮歪埋め込み(CDRE)フレームワークを提案する。
我々のフレームワークは,実行時間,パラメータ数といったオーバーヘッドを最小限に抑えて,既存のコーデックのレートタスク性能を効果的に向上させることができる。
論文 参考訳(メタデータ) (2025-03-27T13:01:53Z) - MambaIC: State Space Models for High-Performance Learned Image Compression [53.991726013454695]
多数のフィールドをまたいだリアルタイム情報伝送には,高性能な画像圧縮アルゴリズムが不可欠である。
状態空間モデル(SSM)の長距離依存性の捕捉効果に着想を得て,SSMを利用して既存手法の計算不効率に対処する。
そこで本稿では,MambaICと呼ばれる洗練されたコンテキストモデリングによる画像圧縮手法を提案する。
論文 参考訳(メタデータ) (2025-03-16T11:32:34Z) - REGEN: Learning Compact Video Embedding with (Re-)Generative Decoder [52.698595889988766]
生成モデルのためのビデオ埋め込み学習について,新しい視点を提示する。
入力ビデオの正確な再生を必要とせず、効果的な埋め込みは視覚的に妥当な再構築に焦点を当てるべきである。
本稿では,従来のエンコーダ・デコーダ・ビデオ埋め込みをエンコーダ・ジェネレータ・フレームワークに置き換えることを提案する。
論文 参考訳(メタデータ) (2025-03-11T17:51:07Z) - Deep Compression Autoencoder for Efficient High-Resolution Diffusion Models [38.84567900296605]
ディープ圧縮オートエンコーダ (DC-AE) は高分解能拡散モデルの高速化を目的とした新しいオートエンコーダモデルである。
遅延拡散モデルへの直流-AEの適用により,精度低下のない大幅な高速化を実現した。
論文 参考訳(メタデータ) (2024-10-14T17:15:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。