論文の概要: A Hybrid Wavelet-Fourier Method for Next-Generation Conditional Diffusion Models
- arxiv url: http://arxiv.org/abs/2504.03821v1
- Date: Fri, 04 Apr 2025 17:11:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:13:09.530466
- Title: A Hybrid Wavelet-Fourier Method for Next-Generation Conditional Diffusion Models
- Title(参考訳): 次世代条件拡散モデルのためのハイブリッドウェーブレット・フーリエ法
- Authors: Andrew Kiruluta, Andreas Lemos,
- Abstract要約: 本稿では、拡散パラダイムをハイブリッド周波数表現に適応させる新しい生成モデリングフレームワーク、Wavelet-Fourier-Diffusionを提案する。
ハイブリッド周波数に基づく表現は,大域的コヒーレンスと微妙なテクスチャ合成の制御をいかに改善するかを示す。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: We present a novel generative modeling framework,Wavelet-Fourier-Diffusion, which adapts the diffusion paradigm to hybrid frequency representations in order to synthesize high-quality, high-fidelity images with improved spatial localization. In contrast to conventional diffusion models that rely exclusively on additive noise in pixel space, our approach leverages a multi-transform that combines wavelet sub-band decomposition with partial Fourier steps. This strategy progressively degrades and then reconstructs images in a hybrid spectral domain during the forward and reverse diffusion processes. By supplementing traditional Fourier-based analysis with the spatial localization capabilities of wavelets, our model can capture both global structures and fine-grained features more effectively. We further extend the approach to conditional image generation by integrating embeddings or conditional features via cross-attention. Experimental evaluations on CIFAR-10, CelebA-HQ, and a conditional ImageNet subset illustrate that our method achieves competitive or superior performance relative to baseline diffusion models and state-of-the-art GANs, as measured by Fr\'echet Inception Distance (FID) and Inception Score (IS). We also show how the hybrid frequency-based representation improves control over global coherence and fine texture synthesis, paving the way for new directions in multi-scale generative modeling.
- Abstract(参考訳): 本稿では,高画質の高忠実像を空間的局所化を改良して合成するために,拡散パラダイムをハイブリッド周波数表現に適応させる新しい生成モデルであるWavelet-Fourier-Diffusionを提案する。
画素空間の付加雑音にのみ依存する従来の拡散モデルとは対照的に,ウェーブレット部分バンド分解と部分フーリエステップを組み合わせた多重変換を用いる。
この戦略は、前方および逆拡散過程において、徐々に劣化し、ハイブリッドスペクトル領域の画像を再構成する。
従来のフーリエ解析をウェーブレットの空間的局所化能力で補うことで,大域構造と微細な特徴をより効率的に捉えることができる。
埋め込みや条件特徴をクロスアテンションを通じて統合することで、条件画像生成へのアプローチをさらに拡張する。
CIFAR-10, CelebA-HQ, および条件付き ImageNet サブセットを用いた実験により, Fr'echet Inception Distance (FID) と Inception Score (IS) によって測定されたベースライン拡散モデルと最先端のGANに対して, 本手法が競合的あるいは優れた性能を達成することを示す。
また、ハイブリッド周波数に基づく表現は、大域的コヒーレンスときめ細かいテクスチャ合成の制御を改善し、マルチスケールな生成モデルにおける新しい方向への道を開く方法を示す。
関連論文リスト
- Arbitrary-steps Image Super-resolution via Diffusion Inversion [68.78628844966019]
本研究では,拡散インバージョンに基づく新しい画像超解像(SR)手法を提案する。
本研究では,拡散モデルの中間状態を構築するための部分雑音予測戦略を設計する。
トレーニングが完了すると、このノイズ予測器を使用して、拡散軌道に沿ってサンプリングプロセスを部分的に初期化し、望ましい高分解能結果を生成する。
論文 参考訳(メタデータ) (2024-12-12T07:24:13Z) - Oscillation Inversion: Understand the structure of Large Flow Model through the Lens of Inversion Method [60.88467353578118]
実世界のイメージを逆転させる固定点インスパイアされた反復的アプローチは収束を達成せず、異なるクラスタ間で振動することを示す。
本稿では,画像強調,ストロークベースのリカラー化,および視覚的プロンプト誘導画像編集を容易にする,シンプルで高速な分布転送手法を提案する。
論文 参考訳(メタデータ) (2024-11-17T17:45:37Z) - Edge-preserving noise for diffusion models [4.435514696080208]
本稿では,拡散確率モデル(DDPM)を一般化した新しいエッジ保存拡散モデルを提案する。
特に、エッジ保存と等方性ガウスノイズの間で異なるエッジ対応ノイズスケジューラを導入する。
モデルの生成過程はより高速に収束し, 対象の分布とより密に一致していることを示す。
論文 参考訳(メタデータ) (2024-10-02T13:29:52Z) - Effective Diffusion Transformer Architecture for Image Super-Resolution [63.254644431016345]
画像超解像のための効果的な拡散変換器(DiT-SR)を設計する。
実際には、DiT-SRは全体のU字型アーキテクチャを活用し、すべての変圧器ブロックに対して均一な等方性設計を採用する。
我々は、広く使われているAdaLNの制限を分析し、周波数適応型時間-ステップ条件付けモジュールを提案する。
論文 参考訳(メタデータ) (2024-09-29T07:14:16Z) - Sequential Posterior Sampling with Diffusion Models [15.028061496012924]
条件付き画像合成における逐次拡散後サンプリングの効率を向上させるため,遷移力学をモデル化する新しい手法を提案する。
本研究では,高フレームレート心エコー画像の現実的データセットに対するアプローチの有効性を実証する。
提案手法は,画像の拡散モデルとリアルタイム推論を必要とする他の領域における拡散モデルのリアルタイム適用の可能性を開く。
論文 参考訳(メタデータ) (2024-09-09T07:55:59Z) - A Dual Domain Multi-exposure Image Fusion Network based on the
Spatial-Frequency Integration [57.14745782076976]
マルチ露光画像融合は、異なる露光で画像を統合することにより、単一の高ダイナミック画像を生成することを目的としている。
本稿では,MEF-SFI と呼ばれる空間周波数統合フレームワークによるマルチ露光画像融合の新たな視点を提案する。
提案手法は,最先端のマルチ露光画像融合手法に対する視覚的近似核融合結果を実現する。
論文 参考訳(メタデータ) (2023-12-17T04:45:15Z) - DiffSCI: Zero-Shot Snapshot Compressive Imaging via Iterative Spectral
Diffusion Model [18.25548360119976]
マルチスペクトル画像(MSI)におけるスナップショット圧縮画像(SCI)再構成の精度向上を目指した。
DiffSCIと呼ばれる新しいゼロショット拡散モデルを提案する。
我々は,DiffSCIが自己監督的,ゼロショット的アプローチよりも顕著な性能向上を示すことを示すため,広範囲な試験を行った。
論文 参考訳(メタデータ) (2023-11-19T20:27:14Z) - Stage-by-stage Wavelet Optimization Refinement Diffusion Model for
Sparse-View CT Reconstruction [14.037398189132468]
本稿では,Sparse-view CT再構成のためのSWORD(Stage-by-stage Optimization Refinement Diffusion)モデルを提案する。
具体的には、低周波および高周波生成モデルを統合する統一的な数学的モデルを構築し、最適化手順で解を実現する。
提案手法は,低周波発生,高周波高精細化,領域変換の3段階を含む,確立された最適化理論に根ざした。
論文 参考訳(メタデータ) (2023-08-30T10:48:53Z) - Real-World Image Variation by Aligning Diffusion Inversion Chain [53.772004619296794]
生成した画像と実世界の画像の間にはドメインギャップがあり、これは実世界の画像の高品質なバリエーションを生成する上での課題である。
実世界画像のアライメントによる変化(RIVAL)と呼ばれる新しい推論パイプラインを提案する。
我々のパイプラインは、画像生成プロセスとソース画像の反転チェーンを整列させることにより、画像の変動の生成品質を向上させる。
論文 参考訳(メタデータ) (2023-05-30T04:09:47Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。