論文の概要: Efficient Training-Free High-Resolution Synthesis with Energy Rectification in Diffusion Models
- arxiv url: http://arxiv.org/abs/2503.02537v3
- Date: Mon, 26 May 2025 14:37:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 14:32:53.53831
- Title: Efficient Training-Free High-Resolution Synthesis with Energy Rectification in Diffusion Models
- Title(参考訳): 拡散モデルによる高効率高分解能高分解能合成
- Authors: Zhen Yang, Guibao Shen, Minyang Li, Liang Hou, Mushui Liu, Luozhou Wang, Xin Tao, Pengfei Wan, Di Zhang, Ying-Cong Chen,
- Abstract要約: 拡散モデルは様々な視覚生成タスクにおいて顕著な進歩を遂げた。
しかし、トレーニング中に使用するものよりも解像度の高いコンテンツを生成すると、その性能は著しく低下する。
学習不要な高分解能合成のためのソリューションであるRectifiedHRを提案する。
- 参考スコア(独自算出の注目度): 29.69501919628436
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have achieved remarkable progress across various visual generation tasks. However, their performance significantly declines when generating content at resolutions higher than those used during training. Although numerous methods have been proposed to enable high-resolution generation, they all suffer from inefficiency. In this paper, we propose RectifiedHR, a straightforward and efficient solution for training-free high-resolution synthesis. Specifically, we propose a noise refresh strategy that unlocks the model's training-free high-resolution synthesis capability and improves efficiency. Additionally, we are the first to observe the phenomenon of energy decay, which may cause image blurriness during the high-resolution synthesis process. To address this issue, we introduce average latent energy analysis and find that tuning the classifier-free guidance hyperparameter can significantly improve generation performance. Our method is entirely training-free and demonstrates efficient performance. Furthermore, we show that RectifiedHR is compatible with various diffusion model techniques, enabling advanced features such as image editing, customized generation, and video synthesis. Extensive comparisons with numerous baseline methods validate the superior effectiveness and efficiency of RectifiedHR.
- Abstract(参考訳): 拡散モデルは様々な視覚生成タスクにおいて顕著な進歩を遂げた。
しかし、トレーニング中に使用するものよりも解像度の高いコンテンツを生成すると、その性能は著しく低下する。
高分解能生成を実現するために多くの方法が提案されているが、いずれも非効率性に悩まされている。
本稿では,学習不要な高分解能合成のための単純かつ効率的な解法であるRectifiedHRを提案する。
具体的には、学習不要な高分解能合成能力を解放し、効率を向上するノイズリフレッシュ戦略を提案する。
さらに、我々は、高分解能合成過程において画像のぼかしを引き起こすであろうエネルギー崩壊現象を初めて観測した。
この問題に対処するため、平均潜時エネルギー分析を導入し、分類器フリーガイダンスハイパーパラメータのチューニングにより、生成性能が大幅に向上することを示した。
本手法は完全にトレーニング不要であり,効率的な性能を示す。
さらに、RectifiedHRは様々な拡散モデル技術と互換性があり、画像編集、カスタマイズ生成、ビデオ合成といった高度な機能を実現する。
多数のベースライン法との比較により,RectifiedHRの有効性と有効性が確認された。
関連論文リスト
- A Wavelet Diffusion GAN for Image Super-Resolution [7.986370916847687]
拡散モデルは,高忠実度画像生成のためのGAN(Generative Adversarial Network)の優れた代替品として登場した。
しかし、そのリアルタイム実現性は、遅いトレーニングと推論速度によって妨げられている。
本研究では,ウェーブレットを用いた単一画像超解法のための条件拡散GANスキームを提案する。
論文 参考訳(メタデータ) (2024-10-23T15:34:06Z) - Effective Diffusion Transformer Architecture for Image Super-Resolution [63.254644431016345]
画像超解像のための効果的な拡散変換器(DiT-SR)を設計する。
実際には、DiT-SRは全体のU字型アーキテクチャを活用し、すべての変圧器ブロックに対して均一な等方性設計を採用する。
我々は、広く使われているAdaLNの制限を分析し、周波数適応型時間-ステップ条件付けモジュールを提案する。
論文 参考訳(メタデータ) (2024-09-29T07:14:16Z) - One Step Diffusion-based Super-Resolution with Time-Aware Distillation [60.262651082672235]
拡散に基づく画像超解像(SR)法は,低解像度画像から細部まで細部まで,高解像度画像の再構成に有望であることを示す。
近年,拡散型SRモデルの知識蒸留によるサンプリング効率の向上が試みられている。
我々は,効率的な画像超解像を実現するため,TAD-SRというタイムアウェア拡散蒸留法を提案する。
論文 参考訳(メタデータ) (2024-08-14T11:47:22Z) - DiffuseHigh: Training-free Progressive High-Resolution Image Synthesis through Structure Guidance [11.44012694656102]
テキストから画像への拡散モデルのような大規模生成モデルは、様々な領域で広く注目を集めている。
既存の大規模拡散モデルでは、最大1K解像度の画像を生成できる。
本稿では,高分解能画像の生成を導くために,生成した低分解能画像を完全に活用する新しいプログレッシブアプローチを提案する。
論文 参考訳(メタデータ) (2024-06-26T16:10:31Z) - Efficient Degradation-aware Any Image Restoration [83.92870105933679]
我々は,低ランク体制下での学習者(DaLe)を用いた効率的なオールインワン画像復元システムである textitDaAIR を提案する。
モデルキャパシティを入力劣化に動的に割り当てることにより、総合学習と特定の学習を統合した効率的な復調器を実現する。
論文 参考訳(メタデータ) (2024-05-24T11:53:27Z) - OmniSSR: Zero-shot Omnidirectional Image Super-Resolution using Stable Diffusion Model [6.83367289911244]
ODI(Omnidirectional Image)は、現実世界の視覚タスクで一般的に使われ、高解像度のODIは関連する視覚タスクのパフォーマンス向上に役立つ。
ODIの既存の超解像法のほとんどはエンドツーエンドの学習戦略を用いており、結果として生成された画像の劣る現実性をもたらす。
論文 参考訳(メタデータ) (2024-04-16T06:39:37Z) - CoDi: Conditional Diffusion Distillation for Higher-Fidelity and Faster
Image Generation [49.3016007471979]
大規模な生成拡散モデルは、テキスト・ツー・イメージ生成に革命をもたらし、条件付き生成タスクに大きな可能性を秘めている。
しかし、彼らの普及は高い計算コストによって妨げられ、リアルタイムの応用が制限される。
本稿では,事前学習した潜伏拡散モデルに付加的な画像条件入力を適応させるCoDiという新しい手法を提案する。
論文 参考訳(メタデータ) (2023-10-02T17:59:18Z) - ACDMSR: Accelerated Conditional Diffusion Models for Single Image
Super-Resolution [84.73658185158222]
本稿では,ACDMSRと呼ばれる拡散モデルに基づく超解像法を提案する。
提案手法は, 決定論的反復分解過程を通じて超解像を行うために, 標準拡散モデルに適応する。
提案手法は,低解像度画像に対してより視覚的に現実的な表現を生成し,現実的なシナリオにおけるその有効性を強調した。
論文 参考訳(メタデータ) (2023-07-03T06:49:04Z) - Uncovering the Over-smoothing Challenge in Image Super-Resolution: Entropy-based Quantification and Contrastive Optimization [67.99082021804145]
我々はDetail Enhanced Contrastive Loss (DECLoss)と呼ばれるCOO問題に対する明確な解決策を提案する。
DECLossはコントラスト学習のクラスタリング特性を利用して、潜在的な高分解能分布の分散を直接的に低減する。
我々は複数の超高解像度ベンチマーク上でDECLosを評価し,PSNR指向モデルの知覚品質を向上させることを実証した。
論文 参考訳(メタデータ) (2022-01-04T08:30:09Z) - A Generic Approach for Enhancing GANs by Regularized Latent Optimization [79.00740660219256]
本稿では,事前学習したGANを効果的かつシームレスに拡張できる,エミュレーティブモデル推論と呼ばれる汎用フレームワークを提案する。
我々の基本的な考え方は、ワッサーシュタイン勾配流法を用いて与えられた要求に対する最適潜時分布を効率的に推算することである。
論文 参考訳(メタデータ) (2021-12-07T05:22:50Z) - A Simple Baseline for StyleGAN Inversion [133.5868210969111]
StyleGANのインバージョンは、トレーニング済みのStyleGANを実際の顔画像編集タスクに使用できるようにする上で重要な役割を果たす。
既存の最適化ベースの手法は高品質な結果を生み出すことができるが、最適化には時間がかかることが多い。
StyleGANインバージョンのための新しいフィードフォワードネットワークを提示し、効率と品質の面で大幅に改善します。
論文 参考訳(メタデータ) (2021-04-15T17:59:49Z) - Efficient texture-aware multi-GAN for image inpainting [5.33024001730262]
近年のGAN (Generative Adversarial Network) のインペイント手法は顕著に改善されている。
本稿では,性能とレンダリング効率の両方を改善するマルチGANアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-09-30T14:58:03Z) - Deep Generative Adversarial Residual Convolutional Networks for
Real-World Super-Resolution [31.934084942626257]
我々は,超解像残差畳み込み生成共役ネットワーク(SRResCGAN)を提案する。
これは、生成したLRドメインからHRドメインの画素単位の監督でモデルを逆トレーニングすることで、現実世界の劣化設定に従う。
提案するネットワークは,画像の高精細化と凸最適化によるエネルギーベース目的関数の最小化により,残差学習を利用する。
論文 参考訳(メタデータ) (2020-05-03T00:12:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。