論文の概要: Spectral Progressive Diffusion for Efficient Image and Video Generation
- arxiv url: http://arxiv.org/abs/2605.18736v2
- Date: Wed, 20 May 2026 05:57:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 14:55:44.325376
- Title: Spectral Progressive Diffusion for Efficient Image and Video Generation
- Title(参考訳): 効率的な画像・映像生成のためのスペクトル進行拡散
- Authors: Howard Xiao, Brian Chao, Lior Yariv, Gordon Wetzstein,
- Abstract要約: 本稿では,事前学習した拡散モデルの認知軌道に沿って,分解能を徐々に向上させる一般的な枠組みを提案する。
我々のフレームワークは、トレーニング不要の加速と、効率と品質をさらに向上させる新しい微調整レシピをサポートします。
- 参考スコア(独自算出の注目度): 38.48147404244147
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have been shown to implicitly generate visual content autoregressively in the frequency domain, where low-frequency components are generated earlier in the denoising process while high-frequency details emerge only in later timesteps. This structure offers a natural opportunity for efficient generation, as high-resolution computation on noise-dominated frequencies is largely redundant. We propose Spectral Progressive Diffusion, a general framework that progressively grows resolution along the denoising trajectory of pretrained diffusion models. To this end, we develop a spectral noise expansion mechanism and derive an optimal resolution schedule from the model's power spectrum. Our framework supports training-free acceleration and a novel fine-tuning recipe that further improves efficiency and quality. We demonstrate significant speedups on state-of-the-art pretrained image and video generation models while preserving visual quality.
- Abstract(参考訳): 拡散モデルは、周波数領域において暗黙的に視覚コンテンツを自動回帰的に生成することが示されており、低周波成分は復調過程の早い段階で生成され、高周波の詳細は後続の時間ステップでのみ現れる。
この構造は、ノイズに支配される周波数の高分解能計算がほとんど冗長であるため、効率的な生成の自然な機会を提供する。
本稿では,事前学習した拡散モデルの認知軌道に沿って分解能を徐々に向上させる一般フレームワークであるスペクトルプログレッシブ拡散を提案する。
この目的のために、スペクトル雑音拡大機構を開発し、モデルのパワースペクトルから最適な解像度スケジュールを導出する。
我々のフレームワークは、トレーニング不要の加速と、効率と品質をさらに向上させる新しい微調整レシピをサポートします。
視覚的品質を保ちながら、最先端の事前訓練画像および映像生成モデルに顕著なスピードアップを示す。
関連論文リスト
- Frequency-aware Neural Representation for Videos [31.60687845071296]
ビデオのための周波数対応ニューラル表現であるFaNeRVを提案する。
FaNeRVは、低周波成分と高周波成分を明示的に分離し、効率的で忠実なビデオ再構成を可能にする。
標準ベンチマークの実験では、FaNeRVは最先端のINR法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2026-01-25T08:19:13Z) - Missing Fine Details in Images: Last Seen in High Frequencies [17.95197409468585]
本稿では、低周波成分と高周波成分の最適化を明示的に分離するウェーブレットベースの周波数対応可変オートエンコーダ(FA-VAE)フレームワークを提案する。
提案手法は,現在の潜在トークン化器の忠実度ギャップを橋渡しし,実写画像合成における周波数認識最適化の重要性を強調する。
論文 参考訳(メタデータ) (2025-09-05T18:49:08Z) - HiWave: Training-Free High-Resolution Image Generation via Wavelet-Based Diffusion Sampling [1.9474278832087901]
HiWaveは、超高解像度画像合成における視覚的忠実度と構造的コヒーレンスを大幅に向上させる、トレーニング不要でゼロショットのアプローチである。
ユーザによる調査では、HiWaveのパフォーマンスが80%以上の比較で最先端の代替品よりも好まれていたことが確認された。
論文 参考訳(メタデータ) (2025-06-25T13:58:37Z) - FreeEnhance: Tuning-Free Image Enhancement via Content-Consistent Noising-and-Denoising Process [120.91393949012014]
FreeEnhanceは、既製の画像拡散モデルを用いたコンテンツ一貫性のある画像強調のためのフレームワークである。
ノイズ発生段階では、FreeEnhanceは、元の画像の高頻度パターンを保存するために、より周波数の高い領域により軽いノイズを加えるように考案されている。
この段階では3つの目標特性を予測された雑音の規則化の制約として提示し,高精度で視覚的品質の高い画像の強調を行う。
論文 参考訳(メタデータ) (2024-09-11T17:58:50Z) - Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World
Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。
ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。
また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文 参考訳(メタデータ) (2023-12-11T18:54:52Z) - Reconstruct-and-Generate Diffusion Model for Detail-Preserving Image
Denoising [16.43285056788183]
再構成・生成拡散モデル(Reconstruct-and-Generate Diffusion Model, RnG)と呼ばれる新しい手法を提案する。
提案手法は, 再構成型復調ネットワークを利用して, 基礎となるクリーン信号の大半を復元する。
拡散アルゴリズムを用いて残留する高周波の詳細を生成し、視覚的品質を向上させる。
論文 参考訳(メタデータ) (2023-09-19T16:01:20Z) - ACDMSR: Accelerated Conditional Diffusion Models for Single Image
Super-Resolution [84.73658185158222]
本稿では,ACDMSRと呼ばれる拡散モデルに基づく超解像法を提案する。
提案手法は, 決定論的反復分解過程を通じて超解像を行うために, 標準拡散モデルに適応する。
提案手法は,低解像度画像に対してより視覚的に現実的な表現を生成し,現実的なシナリオにおけるその有効性を強調した。
論文 参考訳(メタデータ) (2023-07-03T06:49:04Z) - Low-Light Image Enhancement with Wavelet-based Diffusion Models [50.632343822790006]
拡散モデルは画像復元作業において有望な結果を得たが、時間を要する、過剰な計算資源消費、不安定な復元に悩まされている。
本稿では,DiffLLと呼ばれる高能率かつ高能率な拡散型低光画像強調手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T03:08:28Z) - VideoFusion: Decomposed Diffusion Models for High-Quality Video
Generation [88.49030739715701]
本研究は, フレームごとのノイズを, 全フレーム間で共有されるベースノイズ, 時間軸に沿って変化する残雑音に分解することで, 拡散過程を分解する。
様々なデータセットの実験により,ビデオフュージョンと呼ばれる我々の手法が,高品質なビデオ生成において,GANベースと拡散ベースの両方の選択肢を上回ることが確認された。
論文 参考訳(メタデータ) (2023-03-15T02:16:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。