論文の概要: Toward Lightweight and Fast Decoders for Diffusion Models in Image and Video Generation
- arxiv url: http://arxiv.org/abs/2503.04871v1
- Date: Thu, 06 Mar 2025 16:21:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 12:22:55.312657
- Title: Toward Lightweight and Fast Decoders for Diffusion Models in Image and Video Generation
- Title(参考訳): 画像・映像生成における拡散モデルのための軽量・高速デコーダに向けて
- Authors: Alexey Buzovkin, Evgeny Shilov,
- Abstract要約: 大きな変分オートエンコーダデコーダは、生成を遅くし、かなりのGPUメモリを消費することができる。
軽量なVision Transformer と Taming Transformer アーキテクチャを用いたカスタムトレーニングデコーダを提案する。
COCO 2017では、画像生成の全体的なスピードアップが最大15%、サブモジュールでのデコーディングが最大20倍、ビデオタスクのUCF-101がさらに向上している。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: We investigate methods to reduce inference time and memory footprint in stable diffusion models by introducing lightweight decoders for both image and video synthesis. Traditional latent diffusion pipelines rely on large Variational Autoencoder decoders that can slow down generation and consume considerable GPU memory. We propose custom-trained decoders using lightweight Vision Transformer and Taming Transformer architectures. Experiments show up to 15% overall speed-ups for image generation on COCO2017 and up to 20 times faster decoding in the sub-module, with additional gains on UCF-101 for video tasks. Memory requirements are moderately reduced, and while there is a small drop in perceptual quality compared to the default decoder, the improvements in speed and scalability are crucial for large-scale inference scenarios such as generating 100K images. Our work is further contextualized by advances in efficient video generation, including dual masking strategies, illustrating a broader effort to improve the scalability and efficiency of generative models.
- Abstract(参考訳): 本稿では,画像合成とビデオ合成の両方に軽量デコーダを導入することにより,安定拡散モデルにおける推論時間とメモリフットプリントを削減する手法について検討する。
従来の潜伏拡散パイプラインは、生成を遅くし、かなりのGPUメモリを消費できる大きな変分オートエンコーダに依存している。
軽量なVision Transformer と Taming Transformer アーキテクチャを用いたカスタムトレーニングデコーダを提案する。
COCO2017では、画像生成の全体的なスピードアップが最大15%、サブモジュールでのデコーディングが最大20倍、ビデオタスクのUCF-101がさらに向上している。
メモリ要件は適度に減少し、デフォルトのデコーダに比べて知覚品質は低下するが、100K画像の生成など大規模な推論シナリオでは、スピードとスケーラビリティの改善が不可欠である。
我々の研究は、二重マスキング戦略を含む効率的なビデオ生成の進歩によってさらに文脈化され、生成モデルのスケーラビリティと効率を改善するためのより広範な取り組みが示される。
関連論文リスト
- Improving the Diffusability of Autoencoders [54.920783089085035]
高品質な画像やビデオを生成するための主要なアプローチとして、潜伏拡散モデルが登場している。
我々は、現代のオートエンコーダのスペクトル分析を行い、その潜在空間における不規則な高周波成分を同定する。
我々は、この高周波成分が拡散合成プロセスの粗大な微細な性質に干渉し、生成品質を阻害する仮説を立てた。
論文 参考訳(メタデータ) (2025-02-20T18:45:44Z) - Learnings from Scaling Visual Tokenizers for Reconstruction and Generation [30.942443676393584]
自動エンコーディングによるビジュアルトークン化は、ピクセルを潜在空間に圧縮することで、最先端の画像およびビデオ生成モデルを促進する。
私たちの研究は、この空白を埋めるために自動エンコーダのスケーリングを調査することを目的としています。
我々は、ImageNet-1Kを超える大規模な画像およびビデオデータセット上でViTokをトレーニングし、トークンのスケーリングに関するデータ制約を取り除く。
論文 参考訳(メタデータ) (2025-01-16T18:59:04Z) - Collaborative Decoding Makes Visual Auto-Regressive Modeling Efficient [52.96232442322824]
CoDe(Collaborative Decoding)は、Visual Auto-Regressive (VAR)フレームワーク用に設計された、新しい効率的なデコーディング戦略である。
CoDeは、大規模でのパラメータ要求の大幅な削減と、異なるスケールでの排他的生成パターンという、2つの重要な観察に乗じている。
CoDeは1.7倍のスピードアップを実現し、メモリ使用量を約50%削減し、画像品質を1.95から1.98に改善した。
論文 参考訳(メタデータ) (2024-11-26T15:13:15Z) - Adaptive Caching for Faster Video Generation with Diffusion Transformers [52.73348147077075]
拡散変換器(DiT)はより大きなモデルと重い注意機構に依存しており、推論速度が遅くなる。
本稿では,Adaptive Caching(AdaCache)と呼ばれる,ビデオDiTの高速化のためのトレーニング不要手法を提案する。
また,AdaCache内で動画情報を利用するMoReg方式を導入し,動作内容に基づいて計算割り当てを制御する。
論文 参考訳(メタデータ) (2024-11-04T18:59:44Z) - Deep Compression Autoencoder for Efficient High-Resolution Diffusion Models [38.84567900296605]
ディープ圧縮オートエンコーダ (DC-AE) は高分解能拡散モデルの高速化を目的とした新しいオートエンコーダモデルである。
遅延拡散モデルへの直流-AEの適用により,精度低下のない大幅な高速化を実現した。
論文 参考訳(メタデータ) (2024-10-14T17:15:07Z) - Binarized Low-light Raw Video Enhancement [49.65466843856074]
ディープニューラルネットワークは、低照度生ビデオの強化において優れたパフォーマンスを実現している。
本稿では,低照度生ビデオエンハンスメントに超コンパクトなバイナリニューラルネットワーク(BNN)を適用する可能性について検討する。
論文 参考訳(メタデータ) (2024-03-29T02:55:07Z) - Faster Diffusion: Rethinking the Role of the Encoder for Diffusion Model Inference [95.42299246592756]
本稿では,UNetエンコーダについて検討し,エンコーダの特徴を実証的に分析する。
エンコーダの特徴は最小限に変化するが,デコーダの特徴は時間段階によって大きく異なる。
我々は、テキスト・ツー・ビデオ、パーソナライズド・ジェネレーション、参照誘導ジェネレーションといった他のタスクに対するアプローチを検証する。
論文 参考訳(メタデータ) (2023-12-15T08:46:43Z) - Streaming-capable High-performance Architecture of Learned Image
Compression Codecs [21.53261818914534]
本稿では,様々な学習画像圧縮モデルのランタイム性能向上のための代替手法を提案する。
私たちのアーキテクチャだけでも、ニューラルモデル自体を変更することなく優れたパフォーマンスを実現しています。
私たちの実装は,ベースラインと比較してスループットとレイテンシが優れています。
論文 参考訳(メタデータ) (2022-08-02T03:15:48Z) - Conditional Entropy Coding for Efficient Video Compression [82.35389813794372]
本稿では,フレーム間の条件エントロピーをモデル化することのみに焦点を当てた,非常にシンプルで効率的なビデオ圧縮フレームワークを提案する。
まず、画像遅延符号間のエントロピーをモデル化する単純なアーキテクチャが、他のニューラルビデオ圧縮やビデオコーデックと同等の競争力を持つことを示す。
次に、このアーキテクチャの上に新しい内部学習拡張を提案し、復号速度を抑えることなく10%の節約を実現した。
論文 参考訳(メタデータ) (2020-08-20T20:01:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。