論文の概要: RectifiedHR: Enable Efficient High-Resolution Image Generation via Energy Rectification
- arxiv url: http://arxiv.org/abs/2503.02537v1
- Date: Tue, 04 Mar 2025 12:03:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 18:50:39.516383
- Title: RectifiedHR: Enable Efficient High-Resolution Image Generation via Energy Rectification
- Title(参考訳): リクティファイトHR:エネルギーリクティフィケーションによる高効率高分解能画像生成を可能にする
- Authors: Zhen Yang, Guibao Shen, Liang Hou, Mushui Liu, Luozhou Wang, Xin Tao, Pengfei Wan, Di Zhang, Ying-Cong Chen,
- Abstract要約: 拡散モデルの性能は、トレーニング期間中に使用した画像よりも解像度の高い画像を生成するときに低下する。
トレーニング不要な高解像度画像生成のための効率的かつ簡単な解法であるRectifiedHRを提案する。
- 参考スコア(独自算出の注目度): 30.683067011674556
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have achieved remarkable advances in various image generation tasks. However, their performance notably declines when generating images at resolutions higher than those used during the training period. Despite the existence of numerous methods for producing high-resolution images, they either suffer from inefficiency or are hindered by complex operations. In this paper, we propose RectifiedHR, an efficient and straightforward solution for training-free high-resolution image generation. Specifically, we introduce the noise refresh strategy, which theoretically only requires a few lines of code to unlock the model's high-resolution generation ability and improve efficiency. Additionally, we first observe the phenomenon of energy decay that may cause image blurriness during the high-resolution image generation process. To address this issue, we propose an Energy Rectification strategy, where modifying the hyperparameters of the classifier-free guidance effectively improves the generation performance. Our method is entirely training-free and boasts a simple implementation logic. Through extensive comparisons with numerous baseline methods, our RectifiedHR demonstrates superior effectiveness and efficiency.
- Abstract(参考訳): 拡散モデルは様々な画像生成タスクにおいて顕著な進歩を遂げた。
しかし、トレーニング期間中に使用した画像よりも解像度の高い画像を生成すると、その性能は著しく低下する。
高解像度画像を作成するための多くの方法が存在するにもかかわらず、それらは非効率性に悩まされるか、複雑な操作によって妨げられる。
本稿では、トレーニング不要な高解像度画像生成のための効率的かつ簡単なソリューションであるRectifiedHRを提案する。
具体的には、理論的には、高解像度生成能力を解き放ち、効率を向上させるために、数行のコードしか必要としないノイズリフレッシュ戦略を導入する。
さらに,高分解能画像生成過程において,画像のぼやけを生じる可能性のあるエネルギー崩壊現象も観察した。
この問題に対処するために,分類器フリーガイダンスのハイパーパラメータを変更することで,生成性能を効果的に向上するエネルギ・リクティファイション・ストラテジーを提案する。
我々の手法は完全にトレーニング不要であり、シンプルな実装ロジックを誇っている。
多数のベースライン手法と広範囲に比較することで,我々のRectifiedHRは優れた有効性と効率性を示す。
関連論文リスト
- RectifiedHR: High-Resolution Diffusion via Energy Profiling and Adaptive Guidance Scheduling [0.0]
拡散モデルによる高分解能画像合成は、しばしば、視覚的品質を低下させるエネルギー不安定性とガイダンスアーティファクトに悩まされる。
我々は,サンプリング中の潜時エネルギー景観を分析し,安定したエネルギー軌道を維持する適応型分類器フリーガイダンス(CFG)のスケジュールを提案する。
提案手法では, 誘導強度を時間とともに調整し, 安定度(0.9998) と整合度(0.9873) を固定誘導法と比較する。
論文 参考訳(メタデータ) (2025-07-13T01:21:10Z) - SimpleGVR: A Simple Baseline for Latent-Cascaded Video Super-Resolution [55.14432034345353]
後続の超解像モデルの設計原理について検討し,その設計原理について検討する。
まず、ベースモデルの出力特性をよりよく模倣し、VSRモデルと上流ジェネレータとの整合性を確保するための2つのトレーニングペアを生成する方法を提案する。
第2に,(1)時間ステップサンプリング戦略,(2)低分解能(LR)入力に対する雑音増強効果の系統的解析を通じて,VSRモデル行動に対する批判的洞察を提供する。
論文 参考訳(メタデータ) (2025-06-24T17:57:26Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - A Wavelet Diffusion GAN for Image Super-Resolution [7.986370916847687]
拡散モデルは,高忠実度画像生成のためのGAN(Generative Adversarial Network)の優れた代替品として登場した。
しかし、そのリアルタイム実現性は、遅いトレーニングと推論速度によって妨げられている。
本研究では,ウェーブレットを用いた単一画像超解法のための条件拡散GANスキームを提案する。
論文 参考訳(メタデータ) (2024-10-23T15:34:06Z) - Effective Diffusion Transformer Architecture for Image Super-Resolution [63.254644431016345]
画像超解像のための効果的な拡散変換器(DiT-SR)を設計する。
実際には、DiT-SRは全体のU字型アーキテクチャを活用し、すべての変圧器ブロックに対して均一な等方性設計を採用する。
我々は、広く使われているAdaLNの制限を分析し、周波数適応型時間-ステップ条件付けモジュールを提案する。
論文 参考訳(メタデータ) (2024-09-29T07:14:16Z) - Taming Diffusion Prior for Image Super-Resolution with Domain Shift SDEs [36.65594293655289]
DoSSRは、事前訓練された拡散モデルの生成力を生かしたドメインシフト拡散に基づくSRモデルである。
このアプローチの核となるのは、既存の拡散モデルとシームレスに統合されるドメインシフト方程式です。
提案手法は, 合成および実世界のデータセットに対して, 5つのサンプリングステップしか必要とせず, 最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-09-26T12:16:11Z) - One Step Diffusion-based Super-Resolution with Time-Aware Distillation [60.262651082672235]
拡散に基づく画像超解像(SR)法は,低解像度画像から細部まで細部まで,高解像度画像の再構成に有望であることを示す。
近年,拡散型SRモデルの知識蒸留によるサンプリング効率の向上が試みられている。
我々は,効率的な画像超解像を実現するため,TAD-SRというタイムアウェア拡散蒸留法を提案する。
論文 参考訳(メタデータ) (2024-08-14T11:47:22Z) - DiffuseHigh: Training-free Progressive High-Resolution Image Synthesis through Structure Guidance [11.44012694656102]
テキストから画像への拡散モデルのような大規模生成モデルは、様々な領域で広く注目を集めている。
既存の大規模拡散モデルでは、最大1K解像度の画像を生成できる。
本稿では,高分解能画像の生成を導くために,生成した低分解能画像を完全に活用する新しいプログレッシブアプローチを提案する。
論文 参考訳(メタデータ) (2024-06-26T16:10:31Z) - Efficient Degradation-aware Any Image Restoration [83.92870105933679]
我々は,低ランク体制下での学習者(DaLe)を用いた効率的なオールインワン画像復元システムである textitDaAIR を提案する。
モデルキャパシティを入力劣化に動的に割り当てることにより、総合学習と特定の学習を統合した効率的な復調器を実現する。
論文 参考訳(メタデータ) (2024-05-24T11:53:27Z) - OmniSSR: Zero-shot Omnidirectional Image Super-Resolution using Stable Diffusion Model [6.83367289911244]
ODI(Omnidirectional Image)は、現実世界の視覚タスクで一般的に使われ、高解像度のODIは関連する視覚タスクのパフォーマンス向上に役立つ。
ODIの既存の超解像法のほとんどはエンドツーエンドの学習戦略を用いており、結果として生成された画像の劣る現実性をもたらす。
論文 参考訳(メタデータ) (2024-04-16T06:39:37Z) - Make a Cheap Scaling: A Self-Cascade Diffusion Model for
Higher-Resolution Adaptation [112.08287900261898]
本稿では,高解像度画像への高速適応と映像生成のための新しい自己カスケード拡散モデルを提案する。
提案手法は5Xトレーニングの高速化を実現し,さらに0.002Mのチューニングパラメータしか必要としない。
実験により,提案手法は10kステップの微調整によって高速に高分解能画像やビデオ合成に適応できることを示した。
論文 参考訳(メタデータ) (2024-02-16T07:48:35Z) - Boosting Latent Diffusion with Flow Matching [22.68317748373856]
フローマッチングは、高速なトレーニングと推論の相補的な特徴から魅力的なアプローチであるが、多種多様な合成は少ない。
凍結拡散モデルと畳み込みデコーダのフローマッチングを導入することにより,高分解能画像合成が可能となることを示す。
最先端の高解像度画像合成は、最小の計算コストで10242ドルのピクセルで達成される。
論文 参考訳(メタデータ) (2023-12-12T15:30:24Z) - CoDi: Conditional Diffusion Distillation for Higher-Fidelity and Faster
Image Generation [49.3016007471979]
大規模な生成拡散モデルは、テキスト・ツー・イメージ生成に革命をもたらし、条件付き生成タスクに大きな可能性を秘めている。
しかし、彼らの普及は高い計算コストによって妨げられ、リアルタイムの応用が制限される。
本稿では,事前学習した潜伏拡散モデルに付加的な画像条件入力を適応させるCoDiという新しい手法を提案する。
論文 参考訳(メタデータ) (2023-10-02T17:59:18Z) - ACDMSR: Accelerated Conditional Diffusion Models for Single Image
Super-Resolution [84.73658185158222]
本稿では,ACDMSRと呼ばれる拡散モデルに基づく超解像法を提案する。
提案手法は, 決定論的反復分解過程を通じて超解像を行うために, 標準拡散モデルに適応する。
提案手法は,低解像度画像に対してより視覚的に現実的な表現を生成し,現実的なシナリオにおけるその有効性を強調した。
論文 参考訳(メタデータ) (2023-07-03T06:49:04Z) - Uncovering the Over-smoothing Challenge in Image Super-Resolution: Entropy-based Quantification and Contrastive Optimization [67.99082021804145]
我々はDetail Enhanced Contrastive Loss (DECLoss)と呼ばれるCOO問題に対する明確な解決策を提案する。
DECLossはコントラスト学習のクラスタリング特性を利用して、潜在的な高分解能分布の分散を直接的に低減する。
我々は複数の超高解像度ベンチマーク上でDECLosを評価し,PSNR指向モデルの知覚品質を向上させることを実証した。
論文 参考訳(メタデータ) (2022-01-04T08:30:09Z) - A Generic Approach for Enhancing GANs by Regularized Latent Optimization [79.00740660219256]
本稿では,事前学習したGANを効果的かつシームレスに拡張できる,エミュレーティブモデル推論と呼ばれる汎用フレームワークを提案する。
我々の基本的な考え方は、ワッサーシュタイン勾配流法を用いて与えられた要求に対する最適潜時分布を効率的に推算することである。
論文 参考訳(メタデータ) (2021-12-07T05:22:50Z) - A Simple Baseline for StyleGAN Inversion [133.5868210969111]
StyleGANのインバージョンは、トレーニング済みのStyleGANを実際の顔画像編集タスクに使用できるようにする上で重要な役割を果たす。
既存の最適化ベースの手法は高品質な結果を生み出すことができるが、最適化には時間がかかることが多い。
StyleGANインバージョンのための新しいフィードフォワードネットワークを提示し、効率と品質の面で大幅に改善します。
論文 参考訳(メタデータ) (2021-04-15T17:59:49Z) - Efficient texture-aware multi-GAN for image inpainting [5.33024001730262]
近年のGAN (Generative Adversarial Network) のインペイント手法は顕著に改善されている。
本稿では,性能とレンダリング効率の両方を改善するマルチGANアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-09-30T14:58:03Z) - Deep Generative Adversarial Residual Convolutional Networks for
Real-World Super-Resolution [31.934084942626257]
我々は,超解像残差畳み込み生成共役ネットワーク(SRResCGAN)を提案する。
これは、生成したLRドメインからHRドメインの画素単位の監督でモデルを逆トレーニングすることで、現実世界の劣化設定に従う。
提案するネットワークは,画像の高精細化と凸最適化によるエネルギーベース目的関数の最小化により,残差学習を利用する。
論文 参考訳(メタデータ) (2020-05-03T00:12:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。