Fugu-MT 論文翻訳(概要): Efficient Training-Free High-Resolution Synthesis with Energy Rectification in Diffusion Models

論文の概要: Efficient Training-Free High-Resolution Synthesis with Energy Rectification in Diffusion Models

arxiv url: http://arxiv.org/abs/2503.02537v3
Date: Mon, 26 May 2025 14:37:27 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-27 14:32:53.53831
Title: Efficient Training-Free High-Resolution Synthesis with Energy Rectification in Diffusion Models
Title（参考訳）: 拡散モデルによる高効率高分解能高分解能合成
Authors: Zhen Yang, Guibao Shen, Minyang Li, Liang Hou, Mushui Liu, Luozhou Wang, Xin Tao, Pengfei Wan, Di Zhang, Ying-Cong Chen,
Abstract要約: 拡散モデルは様々な視覚生成タスクにおいて顕著な進歩を遂げた。しかし、トレーニング中に使用するものよりも解像度の高いコンテンツを生成すると、その性能は著しく低下する。学習不要な高分解能合成のためのソリューションであるRectifiedHRを提案する。
参考スコア（独自算出の注目度）: 29.69501919628436
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Diffusion models have achieved remarkable progress across various visual generation tasks. However, their performance significantly declines when generating content at resolutions higher than those used during training. Although numerous methods have been proposed to enable high-resolution generation, they all suffer from inefficiency. In this paper, we propose RectifiedHR, a straightforward and efficient solution for training-free high-resolution synthesis. Specifically, we propose a noise refresh strategy that unlocks the model's training-free high-resolution synthesis capability and improves efficiency. Additionally, we are the first to observe the phenomenon of energy decay, which may cause image blurriness during the high-resolution synthesis process. To address this issue, we introduce average latent energy analysis and find that tuning the classifier-free guidance hyperparameter can significantly improve generation performance. Our method is entirely training-free and demonstrates efficient performance. Furthermore, we show that RectifiedHR is compatible with various diffusion model techniques, enabling advanced features such as image editing, customized generation, and video synthesis. Extensive comparisons with numerous baseline methods validate the superior effectiveness and efficiency of RectifiedHR.
Abstract（参考訳）: 拡散モデルは様々な視覚生成タスクにおいて顕著な進歩を遂げた。しかし、トレーニング中に使用するものよりも解像度の高いコンテンツを生成すると、その性能は著しく低下する。高分解能生成を実現するために多くの方法が提案されているが、いずれも非効率性に悩まされている。本稿では,学習不要な高分解能合成のための単純かつ効率的な解法であるRectifiedHRを提案する。具体的には、学習不要な高分解能合成能力を解放し、効率を向上するノイズリフレッシュ戦略を提案する。さらに、我々は、高分解能合成過程において画像のぼかしを引き起こすであろうエネルギー崩壊現象を初めて観測した。この問題に対処するため、平均潜時エネルギー分析を導入し、分類器フリーガイダンスハイパーパラメータのチューニングにより、生成性能が大幅に向上することを示した。本手法は完全にトレーニング不要であり,効率的な性能を示す。さらに、RectifiedHRは様々な拡散モデル技術と互換性があり、画像編集、カスタマイズ生成、ビデオ合成といった高度な機能を実現する。多数のベースライン法との比較により,RectifiedHRの有効性と有効性が確認された。

関連論文リスト

RectifiedHR: High-Resolution Diffusion via Energy Profiling and Adaptive Guidance Scheduling [0.0]
拡散モデルによる高分解能画像合成は、しばしば、視覚的品質を低下させるエネルギー不安定性とガイダンスアーティファクトに悩まされる。我々は,サンプリング中の潜時エネルギー景観を分析し,安定したエネルギー軌道を維持する適応型分類器フリーガイダンス(CFG)のスケジュールを提案する。提案手法では, 誘導強度を時間とともに調整し, 安定度(0.9998) と整合度(0.9873) を固定誘導法と比較する。
論文参考訳（メタデータ） (2025-07-13T01:21:10Z)
SimpleGVR: A Simple Baseline for Latent-Cascaded Video Super-Resolution [55.14432034345353]
後続の超解像モデルの設計原理について検討し,その設計原理について検討する。まず、ベースモデルの出力特性をよりよく模倣し、VSRモデルと上流ジェネレータとの整合性を確保するための2つのトレーニングペアを生成する方法を提案する。第2に,(1)時間ステップサンプリング戦略,(2)低分解能(LR)入力に対する雑音増強効果の系統的解析を通じて,VSRモデル行動に対する批判的洞察を提供する。
論文参考訳（メタデータ） (2025-06-24T17:57:26Z)
Latent Wavelet Diffusion For Ultra-High-Resolution Image Synthesis [56.311477476580926]
超高分解能(2K-4K)画像合成におけるディテールとテクスチャの忠実度を大幅に向上させる軽量トレーニングフレームワークであるLatent Wavelet Diffusion (LWD)を提案する。 LWDはウェーブレットエネルギーマップから導かれる新しい周波数対応マスキング戦略を導入し、潜在空間の詳細な領域にトレーニングプロセスを動的に焦点をあてる。
論文参考訳（メタデータ） (2025-05-31T07:28:32Z)
One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文参考訳（メタデータ） (2025-03-09T09:39:57Z)
A Wavelet Diffusion GAN for Image Super-Resolution [7.986370916847687]
拡散モデルは,高忠実度画像生成のためのGAN(Generative Adversarial Network)の優れた代替品として登場した。しかし、そのリアルタイム実現性は、遅いトレーニングと推論速度によって妨げられている。本研究では,ウェーブレットを用いた単一画像超解法のための条件拡散GANスキームを提案する。
論文参考訳（メタデータ） (2024-10-23T15:34:06Z)
Effective Diffusion Transformer Architecture for Image Super-Resolution [63.254644431016345]
画像超解像のための効果的な拡散変換器(DiT-SR)を設計する。実際には、DiT-SRは全体のU字型アーキテクチャを活用し、すべての変圧器ブロックに対して均一な等方性設計を採用する。我々は、広く使われているAdaLNの制限を分析し、周波数適応型時間-ステップ条件付けモジュールを提案する。
論文参考訳（メタデータ） (2024-09-29T07:14:16Z)
Taming Diffusion Prior for Image Super-Resolution with Domain Shift SDEs [36.65594293655289]
DoSSRは、事前訓練された拡散モデルの生成力を生かしたドメインシフト拡散に基づくSRモデルである。このアプローチの核となるのは、既存の拡散モデルとシームレスに統合されるドメインシフト方程式です。提案手法は, 合成および実世界のデータセットに対して, 5つのサンプリングステップしか必要とせず, 最先端の性能を実現する。
論文参考訳（メタデータ） (2024-09-26T12:16:11Z)
One Step Diffusion-based Super-Resolution with Time-Aware Distillation [60.262651082672235]
拡散に基づく画像超解像(SR)法は,低解像度画像から細部まで細部まで,高解像度画像の再構成に有望であることを示す。近年,拡散型SRモデルの知識蒸留によるサンプリング効率の向上が試みられている。我々は,効率的な画像超解像を実現するため,TAD-SRというタイムアウェア拡散蒸留法を提案する。
論文参考訳（メタデータ） (2024-08-14T11:47:22Z)
DiffuseHigh: Training-free Progressive High-Resolution Image Synthesis through Structure Guidance [11.44012694656102]
テキストから画像への拡散モデルのような大規模生成モデルは、様々な領域で広く注目を集めている。既存の大規模拡散モデルでは、最大1K解像度の画像を生成できる。本稿では,高分解能画像の生成を導くために,生成した低分解能画像を完全に活用する新しいプログレッシブアプローチを提案する。
論文参考訳（メタデータ） (2024-06-26T16:10:31Z)
Efficient Degradation-aware Any Image Restoration [83.92870105933679]
我々は,低ランク体制下での学習者(DaLe)を用いた効率的なオールインワン画像復元システムである textitDaAIR を提案する。モデルキャパシティを入力劣化に動的に割り当てることにより、総合学習と特定の学習を統合した効率的な復調器を実現する。
論文参考訳（メタデータ） (2024-05-24T11:53:27Z)
OmniSSR: Zero-shot Omnidirectional Image Super-Resolution using Stable Diffusion Model [6.83367289911244]
ODI(Omnidirectional Image)は、現実世界の視覚タスクで一般的に使われ、高解像度のODIは関連する視覚タスクのパフォーマンス向上に役立つ。 ODIの既存の超解像法のほとんどはエンドツーエンドの学習戦略を用いており、結果として生成された画像の劣る現実性をもたらす。
論文参考訳（メタデータ） (2024-04-16T06:39:37Z)
Make a Cheap Scaling: A Self-Cascade Diffusion Model for Higher-Resolution Adaptation [112.08287900261898]
本稿では,高解像度画像への高速適応と映像生成のための新しい自己カスケード拡散モデルを提案する。提案手法は5Xトレーニングの高速化を実現し,さらに0.002Mのチューニングパラメータしか必要としない。実験により,提案手法は10kステップの微調整によって高速に高分解能画像やビデオ合成に適応できることを示した。
論文参考訳（メタデータ） (2024-02-16T07:48:35Z)
Boosting Latent Diffusion with Flow Matching [22.68317748373856]
フローマッチングは、高速なトレーニングと推論の相補的な特徴から魅力的なアプローチであるが、多種多様な合成は少ない。凍結拡散モデルと畳み込みデコーダのフローマッチングを導入することにより,高分解能画像合成が可能となることを示す。最先端の高解像度画像合成は、最小の計算コストで10242ドルのピクセルで達成される。
論文参考訳（メタデータ） (2023-12-12T15:30:24Z)
CoDi: Conditional Diffusion Distillation for Higher-Fidelity and Faster Image Generation [49.3016007471979]
大規模な生成拡散モデルは、テキスト・ツー・イメージ生成に革命をもたらし、条件付き生成タスクに大きな可能性を秘めている。しかし、彼らの普及は高い計算コストによって妨げられ、リアルタイムの応用が制限される。本稿では,事前学習した潜伏拡散モデルに付加的な画像条件入力を適応させるCoDiという新しい手法を提案する。
論文参考訳（メタデータ） (2023-10-02T17:59:18Z)
ACDMSR: Accelerated Conditional Diffusion Models for Single Image Super-Resolution [84.73658185158222]
本稿では,ACDMSRと呼ばれる拡散モデルに基づく超解像法を提案する。提案手法は, 決定論的反復分解過程を通じて超解像を行うために, 標準拡散モデルに適応する。提案手法は,低解像度画像に対してより視覚的に現実的な表現を生成し,現実的なシナリオにおけるその有効性を強調した。
論文参考訳（メタデータ） (2023-07-03T06:49:04Z)
Uncovering the Over-smoothing Challenge in Image Super-Resolution: Entropy-based Quantification and Contrastive Optimization [67.99082021804145]
我々はDetail Enhanced Contrastive Loss (DECLoss)と呼ばれるCOO問題に対する明確な解決策を提案する。 DECLossはコントラスト学習のクラスタリング特性を利用して、潜在的な高分解能分布の分散を直接的に低減する。我々は複数の超高解像度ベンチマーク上でDECLosを評価し,PSNR指向モデルの知覚品質を向上させることを実証した。
論文参考訳（メタデータ） (2022-01-04T08:30:09Z)
A Generic Approach for Enhancing GANs by Regularized Latent Optimization [79.00740660219256]
本稿では,事前学習したGANを効果的かつシームレスに拡張できる,エミュレーティブモデル推論と呼ばれる汎用フレームワークを提案する。我々の基本的な考え方は、ワッサーシュタイン勾配流法を用いて与えられた要求に対する最適潜時分布を効率的に推算することである。
論文参考訳（メタデータ） (2021-12-07T05:22:50Z)
A Simple Baseline for StyleGAN Inversion [133.5868210969111]
StyleGANのインバージョンは、トレーニング済みのStyleGANを実際の顔画像編集タスクに使用できるようにする上で重要な役割を果たす。既存の最適化ベースの手法は高品質な結果を生み出すことができるが、最適化には時間がかかることが多い。 StyleGANインバージョンのための新しいフィードフォワードネットワークを提示し、効率と品質の面で大幅に改善します。
論文参考訳（メタデータ） (2021-04-15T17:59:49Z)
Efficient texture-aware multi-GAN for image inpainting [5.33024001730262]
近年のGAN (Generative Adversarial Network) のインペイント手法は顕著に改善されている。本稿では,性能とレンダリング効率の両方を改善するマルチGANアーキテクチャを提案する。
論文参考訳（メタデータ） (2020-09-30T14:58:03Z)
Deep Generative Adversarial Residual Convolutional Networks for Real-World Super-Resolution [31.934084942626257]
我々は,超解像残差畳み込み生成共役ネットワーク(SRResCGAN)を提案する。これは、生成したLRドメインからHRドメインの画素単位の監督でモデルを逆トレーニングすることで、現実世界の劣化設定に従う。提案するネットワークは,画像の高精細化と凸最適化によるエネルギーベース目的関数の最小化により,残差学習を利用する。
論文参考訳（メタデータ） (2020-05-03T00:12:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。