論文の概要: Discrete Wavelet Transform as a Facilitator for Expressive Latent Space Representation in Variational Autoencoders in Satellite Imagery
- arxiv url: http://arxiv.org/abs/2510.00376v1
- Date: Wed, 01 Oct 2025 00:49:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.305051
- Title: Discrete Wavelet Transform as a Facilitator for Expressive Latent Space Representation in Variational Autoencoders in Satellite Imagery
- Title(参考訳): 衛星画像における変分オートエンコーダにおける表現的潜在空間表現のためのファシリテータとしての離散ウェーブレット変換
- Authors: Arpan Mahara, Md Rezaul Karim Khan, Naphtali Rishe, Wenjia Wang, Seyed Masoud Sadjadi,
- Abstract要約: ラテント拡散モデル(LDM)は、変分オートエンコーダ(VAE)によって構築された圧縮潜在空間内での操作により画素空間拡散の計算複雑性を緩和する
本稿では、離散ウェーブレット変換(DWT)を利用して、衛星画像用に設計されたVAEの潜在空間表現を強化する革新的な視点を提案する。
- 参考スコア(独自算出の注目度): 14.217227268354364
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Latent Diffusion Models (LDM), a subclass of diffusion models, mitigate the computational complexity of pixel-space diffusion by operating within a compressed latent space constructed by Variational Autoencoders (VAEs), demonstrating significant advantages in Remote Sensing (RS) applications. Though numerous studies enhancing LDMs have been conducted, investigations explicitly targeting improvements within the intrinsic latent space remain scarce. This paper proposes an innovative perspective, utilizing the Discrete Wavelet Transform (DWT) to enhance the VAE's latent space representation, designed for satellite imagery. The proposed method, ExpDWT-VAE, introduces dual branches: one processes spatial domain input through convolutional operations, while the other extracts and processes frequency-domain features via 2D Haar wavelet decomposition, convolutional operation, and inverse DWT reconstruction. These branches merge to create an integrated spatial-frequency representation, further refined through convolutional and diagonal Gaussian mapping into a robust latent representation. We utilize a new satellite imagery dataset housed by the TerraFly mapping system to validate our method. Experimental results across several performance metrics highlight the efficacy of the proposed method at enhancing latent space representation.
- Abstract(参考訳): 拡散モデルのサブクラスである潜時拡散モデル(LDM)は、可変オートエンコーダ(VAE)によって構築された圧縮潜時空間内で操作することで、ピクセル空間拡散の計算複雑性を緩和し、リモートセンシング(RS)アプリケーションにおいて大きな優位性を示す。
LDMを増強する研究は数多く行われているが、固有の潜伏空間における改善を明示的に狙う研究はいまだに少ない。
本稿では、離散ウェーブレット変換(DWT)を利用して、衛星画像用に設計されたVAEの潜在空間表現を強化する革新的な視点を提案する。
提案手法であるExpDWT-VAEは、畳み込み操作により空間領域入力を処理し、一方は2次元ハールウェーブレット分解、畳み込み操作、逆DWT再構成により周波数領域特徴を抽出・処理する。
これらの分枝は統合された空間周波数表現を生成するために融合し、畳み込みと対角のガウス写像によって頑健な潜在表現へとさらに洗練される。
本研究では、TerraFlyマッピングシステムに格納された新しい衛星画像データセットを用いて、本手法の有効性を検証する。
実験結果から,提案手法の有効性が示された。
関連論文リスト
- Wavelet-Guided Dual-Frequency Encoding for Remote Sensing Change Detection [67.84730634802204]
リモートセンシング画像の変化検出は,自然災害監視,都市拡張追跡,インフラ管理など,さまざまな工学的応用において重要な役割を担っている。
既存のほとんどの手法は空間領域モデリングに依存しており、特徴表現の限られた多様性は微妙な変化領域の検出を妨げる。
本研究では、特にウェーブレット領域における周波数領域の特徴モデリングが周波数成分の微細な違いを増幅し、空間領域において捉えにくいエッジ変化の知覚を高めることを観察する。
論文 参考訳(メタデータ) (2025-08-07T11:14:16Z) - LatentINDIGO: An INN-Guided Latent Diffusion Algorithm for Image Restoration [19.74964267336191]
本研究では,ウェーブレットにインスパイアされたインバータブルニューラルネットワーク(INN)を導入し,フォワード変換により劣化をシミュレートし,逆変換により失われた詳細を再構成する。
提案アルゴリズムは, 合成および実世界の低画質画像に対して, 最先端の性能を達成し, 任意の出力サイズに容易に適応できる。
論文 参考訳(メタデータ) (2025-05-19T10:17:16Z) - Cross Paradigm Representation and Alignment Transformer for Image Deraining [40.66823807648992]
クロスパラダイム表現・アライメント変換器(CPRAformer)を提案する。
その中心となる考え方は階層的な表現とアライメントであり、両方のパラダイムの強みを活用して画像再構成を支援する。
トランスフォーマーブロックでは,スパースプロンプトチャネル自己アテンション(SPC-SA)と空間画素改善自己アテンション(SPR-SA)の2種類の自己アテンションを使用する。
論文 参考訳(メタデータ) (2025-04-23T06:44:46Z) - Virtual-mask Informed Prior for Sparse-view Dual-Energy CT Reconstruction [9.118267161536087]
摂動のチャネル間の高い相関を利用してスパースビュー再構成のための二重領域仮想マスクインフォーム拡散モデルを提案する。
実験結果から,本手法は複数のデータセットにまたがって優れた性能を示すことがわかった。
論文 参考訳(メタデータ) (2025-04-10T13:54:26Z) - Implicit Gaussian Splatting with Efficient Multi-Level Tri-Plane Representation [45.582869951581785]
Implicit Gaussian Splatting (IGS)は、明示的なポイントクラウドと暗黙的な機能埋め込みを統合する革新的なハイブリッドモデルである。
本稿では,空間正規化を具体化したレベルベースプログレッシブトレーニング手法を提案する。
我々のアルゴリズムは、数MBしか使用せず、ストレージ効率とレンダリング忠実さを効果的にバランスして、高品質なレンダリングを実現することができる。
論文 参考訳(メタデータ) (2024-08-19T14:34:17Z) - Binarized Diffusion Model for Image Super-Resolution [61.963833405167875]
超圧縮アルゴリズムであるバイナリ化は、高度な拡散モデル(DM)を効果的に加速する可能性を提供する
既存の二項化法では性能が著しく低下する。
画像SRのための新しいバイナライズ拡散モデルBI-DiffSRを提案する。
論文 参考訳(メタデータ) (2024-06-09T10:30:25Z) - Reinforcement Learning for SAR View Angle Inversion with Differentiable
SAR Renderer [7.112962861847319]
本研究の目的は,合成開口レーダ(SAR)画像における目標モデルによるレーダー視角の反転である。
エージェントと環境との相互作用を容易にするために、微分可能SARレンダリング(DSR)という電磁シミュレータが組み込まれている。
論文 参考訳(メタデータ) (2024-01-02T11:47:58Z) - VTAE: Variational Transformer Autoencoder with Manifolds Learning [144.0546653941249]
深層生成モデルは、多くの潜伏変数を通して非線形データ分布の学習に成功している。
ジェネレータの非線形性は、潜在空間がデータ空間の不満足な射影を示し、表現学習が不十分になることを意味する。
本研究では、測地学と正確な計算により、深部生成モデルの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-04-03T13:13:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。