論文の概要: HiWave: Training-Free High-Resolution Image Generation via Wavelet-Based Diffusion Sampling
- arxiv url: http://arxiv.org/abs/2506.20452v1
- Date: Wed, 25 Jun 2025 13:58:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.769641
- Title: HiWave: Training-Free High-Resolution Image Generation via Wavelet-Based Diffusion Sampling
- Title(参考訳): HiWave:ウェーブレットによる拡散サンプリングによる無トレーニング高分解能画像生成
- Authors: Tobias Vontobel, Seyedmorteza Sadat, Farnood Salehi, Romann M. Weber,
- Abstract要約: HiWaveは、超高解像度画像合成における視覚的忠実度と構造的コヒーレンスを大幅に向上させる、トレーニング不要でゼロショットのアプローチである。
ユーザによる調査では、HiWaveのパフォーマンスが80%以上の比較で最先端の代替品よりも好まれていたことが確認された。
- 参考スコア(独自算出の注目度): 1.9474278832087901
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have emerged as the leading approach for image synthesis, demonstrating exceptional photorealism and diversity. However, training diffusion models at high resolutions remains computationally prohibitive, and existing zero-shot generation techniques for synthesizing images beyond training resolutions often produce artifacts, including object duplication and spatial incoherence. In this paper, we introduce HiWave, a training-free, zero-shot approach that substantially enhances visual fidelity and structural coherence in ultra-high-resolution image synthesis using pretrained diffusion models. Our method employs a two-stage pipeline: generating a base image from the pretrained model followed by a patch-wise DDIM inversion step and a novel wavelet-based detail enhancer module. Specifically, we first utilize inversion methods to derive initial noise vectors that preserve global coherence from the base image. Subsequently, during sampling, our wavelet-domain detail enhancer retains low-frequency components from the base image to ensure structural consistency, while selectively guiding high-frequency components to enrich fine details and textures. Extensive evaluations using Stable Diffusion XL demonstrate that HiWave effectively mitigates common visual artifacts seen in prior methods, achieving superior perceptual quality. A user study confirmed HiWave's performance, where it was preferred over the state-of-the-art alternative in more than 80% of comparisons, highlighting its effectiveness for high-quality, ultra-high-resolution image synthesis without requiring retraining or architectural modifications.
- Abstract(参考訳): 拡散モデルは画像合成の主要なアプローチとして現れ、例外的なフォトリアリズムと多様性を実証している。
しかし、高解像度でのトレーニング拡散モデルは依然として計算的に禁止されており、既存のゼロショット生成技術は、訓練解像度を超えて画像を合成することで、オブジェクト複製や空間的不整合を含むアーティファクトを生成することが多い。
本稿では、事前学習拡散モデルを用いた超高分解能画像合成において、視覚的忠実度と構造的コヒーレンスを大幅に向上させる、トレーニング不要なゼロショットアプローチであるHiWaveを紹介する。
提案手法では,事前訓練したモデルからベース画像を生成し,パッチワイドDDIMインバージョンステップとウェーブレットを用いたディテールエンハンサーモジュールを付加する。
具体的には、まず、ベース画像から大域的コヒーレンスを保存する初期雑音ベクトルを導出するインバージョン手法を用いる。
その後、サンプリング中、ウェーブレット領域のディテールエンハンサーは、微細なディテールとテクスチャを豊かにするために、高周波数成分を選択的に誘導しながら、ベース画像から低周波成分を保持し、構造的整合性を確保する。
安定拡散XLを用いた広範囲な評価は、HiWaveが従来手法で見られた一般的な視覚的アーティファクトを効果的に軽減し、知覚品質が優れたことを証明している。
ユーザ調査により、HiWaveのパフォーマンスは80%以上の比較で最先端の代替品よりも好まれており、リトレーニングやアーキテクチャの変更を必要とせず、高品質で超高解像度の画像合成の有効性を強調した。
関連論文リスト
- Quaternion Wavelet-Conditioned Diffusion Models for Image Super-Resolution [7.986370916847687]
本稿では、第4次ウェーブレット前処理フレームワークと遅延拡散モデルを統合する新しいSRフレームワークResQuを紹介する。
提案手法は,四元系ウェーブレットの埋め込みを利用して,様々な段階で動的に統合される条件付けプロセスを強化する。
提案手法は,多くの場合において,知覚品質および標準評価指標における既存手法よりも優れる,優れたSR結果が得られる。
論文 参考訳(メタデータ) (2025-05-01T06:17:33Z) - A Hybrid Wavelet-Fourier Method for Next-Generation Conditional Diffusion Models [0.0]
本稿では、拡散パラダイムをハイブリッド周波数表現に適応させる新しい生成モデリングフレームワーク、Wavelet-Fourier-Diffusionを提案する。
ハイブリッド周波数に基づく表現は,大域的コヒーレンスと微妙なテクスチャ合成の制御をいかに改善するかを示す。
論文 参考訳(メタデータ) (2025-04-04T17:11:04Z) - Arbitrary-steps Image Super-resolution via Diffusion Inversion [68.78628844966019]
本研究では,拡散インバージョンに基づく新しい画像超解像(SR)手法を提案する。
本研究では,拡散モデルの中間状態を構築するための部分雑音予測戦略を設計する。
トレーニングが完了すると、このノイズ予測器を使用して、拡散軌道に沿ってサンプリングプロセスを部分的に初期化し、望ましい高分解能結果を生成する。
論文 参考訳(メタデータ) (2024-12-12T07:24:13Z) - Effective Diffusion Transformer Architecture for Image Super-Resolution [63.254644431016345]
画像超解像のための効果的な拡散変換器(DiT-SR)を設計する。
実際には、DiT-SRは全体のU字型アーキテクチャを活用し、すべての変圧器ブロックに対して均一な等方性設計を採用する。
我々は、広く使われているAdaLNの制限を分析し、周波数適応型時間-ステップ条件付けモジュールを提案する。
論文 参考訳(メタデータ) (2024-09-29T07:14:16Z) - Timestep-Aware Diffusion Model for Extreme Image Rescaling [47.89362819768323]
本稿では,時間認識拡散モデル(TADM)と呼ばれる,画像再スケーリングのための新しいフレームワークを提案する。
TADMは、事前訓練されたオートエンコーダの潜在空間で再スケーリング操作を行う。
これは、事前訓練されたテキスト・ツー・イメージ拡散モデルによって学習された強力な自然画像の先行を効果的に活用する。
論文 参考訳(メタデータ) (2024-08-17T09:51:42Z) - ScaleCrafter: Tuning-free Higher-Resolution Visual Generation with
Diffusion Models [126.35334860896373]
本研究では,事前学習した拡散モデルから,トレーニング画像サイズよりもはるかに高解像度で画像を生成する能力について検討する。
注意ベースや共同拡散アプローチのような、高分解能な生成のための既存の研究は、これらの問題にうまく対処できない。
本稿では,推論中の畳み込み知覚場を動的に調整できる簡易かつ効果的な再拡張法を提案する。
論文 参考訳(メタデータ) (2023-10-11T17:52:39Z) - Stage-by-stage Wavelet Optimization Refinement Diffusion Model for
Sparse-View CT Reconstruction [14.037398189132468]
本稿では,Sparse-view CT再構成のためのSWORD(Stage-by-stage Optimization Refinement Diffusion)モデルを提案する。
具体的には、低周波および高周波生成モデルを統合する統一的な数学的モデルを構築し、最適化手順で解を実現する。
提案手法は,低周波発生,高周波高精細化,領域変換の3段階を含む,確立された最適化理論に根ざした。
論文 参考訳(メタデータ) (2023-08-30T10:48:53Z) - Low-Light Image Enhancement with Wavelet-based Diffusion Models [50.632343822790006]
拡散モデルは画像復元作業において有望な結果を得たが、時間を要する、過剰な計算資源消費、不安定な復元に悩まされている。
本稿では,DiffLLと呼ばれる高能率かつ高能率な拡散型低光画像強調手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T03:08:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。