Fugu-MT 論文翻訳(概要): LiteVAE: Lightweight and Efficient Variational Autoencoders for Latent Diffusion Models

論文の概要: LiteVAE: Lightweight and Efficient Variational Autoencoders for Latent Diffusion Models

arxiv url: http://arxiv.org/abs/2405.14477v2
Date: Tue, 21 Jan 2025 17:15:10 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-22 19:37:18.809656
Title: LiteVAE: Lightweight and Efficient Variational Autoencoders for Latent Diffusion Models
Title（参考訳）: LiteVAE:潜在拡散モデルのための軽量かつ効率的な変分オートエンコーダ
Authors: Seyedmorteza Sadat, Jakob Buhmann, Derek Bradley, Otmar Hilliges, Romann M. Weber,
Abstract要約: 潜在拡散モデル(LDM)のための新しいオートエンコーダ設計である LiteVAE を導入する。 LiteVAEは2次元離散ウェーブレット変換を使用して、標準変分オートエンコーダ(VAE)よりもスケーラビリティと計算効率を向上させる。
参考スコア（独自算出の注目度）: 27.795088366122297
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Advances in latent diffusion models (LDMs) have revolutionized high-resolution image generation, but the design space of the autoencoder that is central to these systems remains underexplored. In this paper, we introduce LiteVAE, a new autoencoder design for LDMs, which leverages the 2D discrete wavelet transform to enhance scalability and computational efficiency over standard variational autoencoders (VAEs) with no sacrifice in output quality. We investigate the training methodologies and the decoder architecture of LiteVAE and propose several enhancements that improve the training dynamics and reconstruction quality. Our base LiteVAE model matches the quality of the established VAEs in current LDMs with a six-fold reduction in encoder parameters, leading to faster training and lower GPU memory requirements, while our larger model outperforms VAEs of comparable complexity across all evaluated metrics (rFID, LPIPS, PSNR, and SSIM).
Abstract（参考訳）: 遅延拡散モデル(LDMs)の進歩は高解像度画像生成に革命をもたらしたが、これらのシステムの中心となるオートエンコーダの設計空間はいまだ探索されていない。本稿では,2次元離散ウェーブレット変換を利用して,出力品質を犠牲にすることなく,標準変分オートエンコーダ(VAE)のスケーラビリティと計算効率を向上させる LDM の新しいオートエンコーダ設計である LiteVAE を紹介する。本稿では,LiteVAEのトレーニング手法とデコーダアーキテクチャについて検討し,トレーニングのダイナミクスと再現性を改善するためのいくつかの拡張を提案する。我々のベースとなるLiteVAEモデルは、現在のLCDにおける確立されたVAEの品質と、6倍のエンコーダパラメータの削減により、高速なトレーニングとGPUメモリ要求の低減を実現しています。

関連論文リスト

Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding [51.711605076319216]
拡散に基づく大規模言語モデル (Diffusion LLM) は、並列復号機能を持つ非自己回帰テキスト生成を約束している。本稿では,双方向拡散モデルに適したブロック単位で近似したKVキャッシュ機構を提案する。本稿では,信頼しきい値を超えるトークンを選択的に復号し,依存関係違反を軽減し,生成品質を維持できる信頼度対応並列復号方式を提案する。
論文参考訳（メタデータ） (2025-05-28T17:39:15Z)
H3AE: High Compression, High Speed, and High Quality AutoEncoder for Video Diffusion Models [76.1519545010611]
オートエンコーダ(AE)は、画像およびビデオ生成のための潜時拡散モデルの成功の鍵である。本研究では,アーキテクチャ設計の選択について検討し,効率的な高圧縮ビデオAEを得るために計算分布を最適化する。我々のAEは、モバイル上での超高圧縮比とリアルタイム復号化速度を達成しつつ、再現率の点で先行技術より優れています。
論文参考訳（メタデータ） (2025-04-14T17:59:06Z)
ZipIR: Latent Pyramid Diffusion Transformer for High-Resolution Image Restoration [75.0053551643052]
本稿では、高解像度画像復元のための効率性、スケーラビリティ、長距離モデリングを向上する新しいフレームワークZipIRを紹介する。 ZipIRは画像32xを圧縮する高度に圧縮された潜在表現を使用し、空間トークンの数を効果的に削減する。 ZipIRは既存の拡散ベースの手法を超越し、高度に劣化した入力からの高解像度画像の復元において、未整合の速度と品質を提供する。
論文参考訳（メタデータ） (2025-04-11T14:49:52Z)
LeanVAE: An Ultra-Efficient Reconstruction VAE for Video Diffusion Models [17.29580459404157]
本稿では,斬新で高効率なビデオVAEフレームワークLeanVAEを提案する。我々のモデルは最大50倍のFLOPと44倍高速な推論速度を提供する。ビデオ再生・生成におけるLeanVAEの優位性を検証した。
論文参考訳（メタデータ） (2025-03-18T14:58:59Z)
EQ-VAE: Equivariance Regularized Latent Space for Improved Generative Image Modeling [11.075247758198762]
潜在生成モデルは、イメージを潜在空間に圧縮するためのオートエンコーダに依存し、次いで、潜在分布を学習するための生成モデルが続く。 EQ-VAE(EQ-VAE)は、遅延空間における等式を強制し、再構成品質を劣化させることなく、その複雑さを低減させる単純な正規化手法である。 DiT, SiT, REPA, MaskGITなどの最先端生成モデルの性能を向上し, SD-VAE微調整を5回だけ行うことで, DiT-XL/2上で7回の高速化を実現した。
論文参考訳（メタデータ） (2025-02-13T17:21:51Z)
EVEv2: Improved Baselines for Encoder-Free Vision-Language Models [72.07868838411474]
既存のエンコーダフリービジョン言語モデル(VLM)は、エンコーダベースモデルと性能ギャップを狭めている。我々は,主流のエンコーダをベースとしたVLMと競合するエンコーダフリーVLMの効率的な戦略を開発する。統一モデルにおいて、視覚と言語を適切に階層的に関連付けることで、モダリティ間の干渉を減少させることを示す。
論文参考訳（メタデータ） (2025-02-10T18:59:58Z)
Reconstruction vs. Generation: Taming Optimization Dilemma in Latent Diffusion Models [33.519892081718716]
本稿では,視覚トークン化器のトレーニングにおいて,潜在空間と事前学習された視覚基盤モデルとの整合性を提案する。提案するVA-VAEは遅延拡散モデルの再構成世代フロンティアを著しく拡張する。私たちは、LightningDiTと呼ばれるトレーニング戦略とアーキテクチャ設計を改善した拡張DiTベースラインを構築します。
論文参考訳（メタデータ） (2025-01-02T18:59:40Z)
Factorized Video Autoencoders for Efficient Generative Modelling [44.00676320678128]
本稿では,入力サイズと直交的に成長する4平面の因数分解潜在空間にデータを投影するオートエンコーダを提案する。提案した4面ラテント空間は高忠実度再構成に必要なリッチな表現を保っていることを示す。
論文参考訳（メタデータ） (2024-12-05T18:58:17Z)
p-MoD: Building Mixture-of-Depths MLLMs via Progressive Ratio Decay [18.958138693220704]
そこで我々は,Mixture-of-Depths (MoD) 機構を利用して,効率的なマルチモーダル大言語モデル(MLLM)を構築することを提案する。我々は、Tanh-gateweight normalization (TanhNorm) と symmetric token reweighting (STRing) の2つの新しい設計でMoDモジュールを適応する。我々のモデルであるp-MoDは、ベースラインモデルの性能にマッチまたは超え、推論時に55.6%のTFLOPと53.8%のKVキャッシュストレージ、トレーニング時に77.7%のGPU時間しか持たない。
論文参考訳（メタデータ） (2024-12-05T18:58:03Z)
PassionSR: Post-Training Quantization with Adaptive Scale in One-Step Diffusion based Image Super-Resolution [87.89013794655207]
拡散に基づく画像超解像(SR)モデルでは、複数のデノナイジングステップのコストで優れた性能を示す。本稿では,一段階拡散(OSD)画像SR,PassionSRにおける適応スケールの学習後量子化手法を提案する。我々のPassionSRは、画像SRの最近の先進的な低ビット量子化法に対して大きな利点がある。
論文参考訳（メタデータ） (2024-11-26T04:49:42Z)
Boosting Latent Diffusion with Perceptual Objectives [29.107038084215514]
遅延拡散モデル (LDMs) パワー・オブ・ザ・アート高分解能画像モデル。我々は,遅延知覚損失(LPL)を定義するためにデコーダの内部的特徴を活用することを提案する。この損失により、モデルはよりシャープでリアルなイメージを作成することができる。
論文参考訳（メタデータ） (2024-11-06T16:28:21Z)
ARLON: Boosting Diffusion Transformers with Autoregressive Models for Long Video Generation [83.62931466231898]
本稿では,長期ビデオ生成のための自己回帰モデルを用いた拡散変換器を高速化するフレームワークARLONを提案する。潜在ベクトル量子変分オートコーダ(VQ-VAE)は、DiTモデルの入力潜時空間をコンパクトなビジュアルトークンに圧縮する。適応ノルムベースのセマンティックインジェクションモジュールは、ARモデルから粗い離散視覚ユニットをDiTモデルに統合する。
論文参考訳（メタデータ） (2024-10-27T16:28:28Z)
Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。 Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文参考訳（メタデータ） (2024-10-24T19:48:51Z)
Deep Autoencoder with SVD-Like Convergence and Flat Minima [1.0742675209112622]
我々は,コルモゴロフ障壁を克服するために,学習可能な重み付きハイブリッドオートエンコーダを提案する。トレーニングされたモデルは、他のモデルに比べて何千倍もシャープさが小さいことを実証的に見出した。
論文参考訳（メタデータ） (2024-10-23T00:04:26Z)
Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis [62.06970466554273]
SDXLのような最先端拡散モデルに匹敵するレベルまで、非自己回帰マスク型画像モデリング(MIM)のテキスト・ツー・イメージが増大するMeissonicを提案する。高品質なトレーニングデータを活用し、人間の嗜好スコアから得られるマイクロ条件を統合し、特徴圧縮層を用いて画像の忠実度と解像度をさらに向上する。我々のモデルは、高画質の高精細画像を生成する際に、SDXLのような既存のモデルに適合するだけでなく、しばしば性能を上回ります。
論文参考訳（メタデータ） (2024-10-10T17:59:17Z)
LinFusion: 1 GPU, 1 Minute, 16K Image [71.44735417472043]
我々は,広く普及している線形トークンミキサーの低ランク近似を導入する。蒸留したLinFusionは,元のSDと同等以上の性能を示す。 SD-v1.5、SD-v2.1、SD-XLの実験は、LinFusionが良好なゼロショットクロスレゾリューション生成を可能にすることを示した。
論文参考訳（メタデータ） (2024-09-03T17:54:39Z)
Attentive VQ-VAE [0.0]
本稿では,残像エンコーダと残像アテンション層(AREN)を統合することで,VQ-VAEモデルの能力を高める新しいアプローチを提案する。 ARENは複数のレベルで効果的に動作し、多様なアーキテクチャの複雑さを収容するように設計されている。
論文参考訳（メタデータ） (2023-09-20T21:11:36Z)
Complexity Matters: Rethinking the Latent Space for Generative Modeling [65.64763873078114]
生成的モデリングにおいて、多くの成功したアプローチは、例えば安定拡散のような低次元の潜在空間を利用する。本研究では, モデル複雑性の観点から潜在空間を再考することにより, 未探索の話題に光を当てることを目的としている。
論文参考訳（メタデータ） (2023-07-17T07:12:29Z)
Algorithm and Hardware Co-Design of Energy-Efficient LSTM Networks for Video Recognition with Hierarchical Tucker Tensor Decomposition [22.502146009817416]
長期記憶(Long Short-term memory、LSTM)は、シーケンス解析やモデリングアプリケーションで広く使われている強力なディープニューラルネットワークである。本稿では,高性能エネルギー効率LSTMネットワークに向けたアルゴリズムとハードウェアの共同設計を提案する。
論文参考訳（メタデータ） (2022-12-05T05:51:56Z)
An Efficient Deep Learning Model for Automatic Modulation Recognition Based on Parameter Estimation and Transformation [3.3941243094128035]
本稿では,位相パラメータ推定と変換に基づく効率的なDL-AMRモデルを提案する。我々のモデルは、類似の認識精度を持つベンチマークモデルよりも、トレーニング時間とテスト時間で競争力がある。
論文参考訳（メタデータ） (2021-10-11T03:28:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。