論文の概要: Wavelet-based Variational Autoencoders for High-Resolution Image Generation
- arxiv url: http://arxiv.org/abs/2504.13214v1
- Date: Wed, 16 Apr 2025 13:51:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-28 20:58:10.258991
- Title: Wavelet-based Variational Autoencoders for High-Resolution Image Generation
- Title(参考訳): 高分解能画像生成のためのウェーブレットに基づく変分オートエンコーダ
- Authors: Andrew Kiruluta,
- Abstract要約: 変分オートエンコーダ(VAE)は、コンパクトな潜在表現を学習できる強力な生成モデルである。
本稿では,マルチスケールのハールウェーブレット係数を用いて潜在空間を構築するウェーブレットベースアプローチ(ウェーブレット-VAE)について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Variational Autoencoders (VAEs) are powerful generative models capable of learning compact latent representations. However, conventional VAEs often generate relatively blurry images due to their assumption of an isotropic Gaussian latent space and constraints in capturing high-frequency details. In this paper, we explore a novel wavelet-based approach (Wavelet-VAE) in which the latent space is constructed using multi-scale Haar wavelet coefficients. We propose a comprehensive method to encode the image features into multi-scale detail and approximation coefficients and introduce a learnable noise parameter to maintain stochasticity. We thoroughly discuss how to reformulate the reparameterization trick, address the KL divergence term, and integrate wavelet sparsity principles into the training objective. Our experimental evaluation on CIFAR-10 and other high-resolution datasets demonstrates that the Wavelet-VAE improves visual fidelity and recovers higher-resolution details compared to conventional VAEs. We conclude with a discussion of advantages, potential limitations, and future research directions for wavelet-based generative modeling.
- Abstract(参考訳): 変分オートエンコーダ(VAE)は、コンパクトな潜在表現を学習できる強力な生成モデルである。
しかし、従来のVAEは、等方性ガウス潜在空間の仮定と高周波の詳細の取得に制約があるため、比較的ぼやけた画像を生成することが多い。
本稿では,マルチスケールのハールウェーブレット係数を用いて潜在空間を構築するウェーブレットベースアプローチ(ウェーブレット-VAE)について検討する。
本稿では,画像特徴をマルチスケールのディテールと近似係数にエンコードする包括的手法を提案し,確率性を維持するために学習可能な雑音パラメータを導入する。
我々は、再パラメータ化の手法を徹底的に検討し、KLの発散項に対処し、ウェーブレットの疎結合原理をトレーニング目標に組み込む方法について論じる。
CIFAR-10や他の高分解能データセットに対する実験により、Wavelet-VAEは従来のVAEと比較して視力を改善し、高分解能の細部を復元することを示した。
本稿では,ウェーブレットを用いた生成モデルにおける利点,潜在的な限界,今後の研究方向性について論じる。
関連論文リスト
- Quaternion Wavelet-Conditioned Diffusion Models for Image Super-Resolution [4.307648859471193]
本稿では、第4次ウェーブレット前処理フレームワークと遅延拡散モデルを統合する新しいSRフレームワークResQuを紹介する。
提案手法は,四元系ウェーブレットの埋め込みを利用して,様々な段階で動的に統合される条件付けプロセスを強化する。
提案手法は,多くの場合において,知覚品質および標準評価指標における既存手法よりも優れる,優れたSR結果が得られる。
論文 参考訳(メタデータ) (2025-05-01T06:17:33Z) - A Hybrid Wavelet-Fourier Method for Next-Generation Conditional Diffusion Models [0.0]
本稿では、拡散パラダイムをハイブリッド周波数表現に適応させる新しい生成モデリングフレームワーク、Wavelet-Fourier-Diffusionを提案する。
ハイブリッド周波数に基づく表現は,大域的コヒーレンスと微妙なテクスチャ合成の制御をいかに改善するかを示す。
論文 参考訳(メタデータ) (2025-04-04T17:11:04Z) - VRVVC: Variable-Rate NeRF-Based Volumetric Video Compression [59.14355576912495]
NeRFベースのビデオは、FVV(Photorealistic Free-Viewpoint Video)体験を提供することによって、ビジュアルメディアに革命をもたらした。
大量のデータボリュームは、ストレージと送信に重大な課題をもたらす。
ビデオ圧縮のための新しいエンドツーエンドの可変レートフレームワークであるVRVVCを提案する。
論文 参考訳(メタデータ) (2024-12-16T01:28:04Z) - Local Implicit Wavelet Transformer for Arbitrary-Scale Super-Resolution [15.610136214020947]
暗黙の神経表現は、最近、画像の任意のスケールの超解像(SR)において有望な可能性を証明している。
既存のほとんどの手法は、クエリされた座標と近くの特徴のアンサンブルに基づいて、SR画像中のピクセルを予測する。
本稿では,高周波テクスチャの再現性を高めるために,LIWT(Local Implicit Wavelet Transformer)を提案する。
論文 参考訳(メタデータ) (2024-11-10T12:21:14Z) - WiNet: Wavelet-based Incremental Learning for Efficient Medical Image Registration [68.25711405944239]
深部画像登録は異常な精度と高速な推測を示した。
近年の進歩は、粗大から粗大の方法で密度変形場を推定するために、複数のカスケードまたはピラミッドアーキテクチャを採用している。
本稿では,様々なスケールにわたる変位/速度場に対して,スケールワイブレット係数を漸進的に推定するモデル駆動WiNetを提案する。
論文 参考訳(メタデータ) (2024-07-18T11:51:01Z) - Stage-by-stage Wavelet Optimization Refinement Diffusion Model for
Sparse-View CT Reconstruction [14.037398189132468]
本稿では,Sparse-view CT再構成のためのSWORD(Stage-by-stage Optimization Refinement Diffusion)モデルを提案する。
具体的には、低周波および高周波生成モデルを統合する統一的な数学的モデルを構築し、最適化手順で解を実現する。
提案手法は,低周波発生,高周波高精細化,領域変換の3段階を含む,確立された最適化理論に根ざした。
論文 参考訳(メタデータ) (2023-08-30T10:48:53Z) - Low-Light Image Enhancement with Wavelet-based Diffusion Models [50.632343822790006]
拡散モデルは画像復元作業において有望な結果を得たが、時間を要する、過剰な計算資源消費、不安定な復元に悩まされている。
本稿では,DiffLLと呼ばれる高能率かつ高能率な拡散型低光画像強調手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T03:08:28Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - Reflected Diffusion Models [93.26107023470979]
本稿では,データのサポートに基づいて進化する反射微分方程式を逆転する反射拡散モデルを提案する。
提案手法は,一般化されたスコアマッチング損失を用いてスコア関数を学習し,標準拡散モデルの主要成分を拡張する。
論文 参考訳(メタデータ) (2023-04-10T17:54:38Z) - Universal Face Restoration With Memorized Modulation [73.34750780570909]
本稿では,ユニバーサルブラインド顔修復(BFR)のための記憶変調(RMM)フレームワークを提案する。
ランダムノイズと教師なしウェーブレットメモリを適用し、顔強調生成装置を適応的に変調する。
実験により,提案手法が最先端の手法と比較して優れていること,野生における優れた一般化が示された。
論文 参考訳(メタデータ) (2021-10-03T15:55:07Z) - Wavelet Transform-assisted Adaptive Generative Modeling for Colorization [15.814591440291652]
本研究では,ウェーブレット領域におけるスコアベース生成モデルを利用した新しい手法を提案する。
ウェーブレット変換によるマルチスケールおよびマルチチャネル表現を利用することで,重畳されたウェーブレット係数成分から先行情報を学習する。
実験により, 提案モデルが着色品質, 特に着色性, 多様性に顕著な改善が認められた。
論文 参考訳(メタデータ) (2021-07-09T07:12:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。