論文の概要: Missing Fine Details in Images: Last Seen in High Frequencies
- arxiv url: http://arxiv.org/abs/2509.05441v2
- Date: Tue, 09 Sep 2025 15:59:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 12:33:22.822199
- Title: Missing Fine Details in Images: Last Seen in High Frequencies
- Title(参考訳): 画像の細部が不鮮明: 高い周波数で最後の写真
- Authors: Tejaswini Medi, Hsien-Yi Wang, Arianna Rampini, Margret Keuper,
- Abstract要約: 本稿では、低周波成分と高周波成分の最適化を明示的に分離するウェーブレットベースの周波数対応可変オートエンコーダ(FA-VAE)フレームワークを提案する。
提案手法は,現在の潜在トークン化器の忠実度ギャップを橋渡しし,実写画像合成における周波数認識最適化の重要性を強調する。
- 参考スコア(独自算出の注目度): 17.95197409468585
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Latent generative models have shown remarkable progress in high-fidelity image synthesis, typically using a two-stage training process that involves compressing images into latent embeddings via learned tokenizers in the first stage. The quality of generation strongly depends on how expressive and well-optimized these latent embeddings are. While various methods have been proposed to learn effective latent representations, generated images often lack realism, particularly in textured regions with sharp transitions, due to loss of fine details governed by high frequencies. We conduct a detailed frequency decomposition of existing state-of-the-art (SOTA) latent tokenizers and show that conventional objectives inherently prioritize low-frequency reconstruction, often at the expense of high-frequency fidelity. Our analysis reveals these latent tokenizers exhibit a bias toward low-frequency information during optimization, leading to over-smoothed outputs and visual artifacts that diminish perceptual quality. To address this, we propose a wavelet-based, frequency-aware variational autoencoder (FA-VAE) framework that explicitly decouples the optimization of low- and high-frequency components. This decoupling enables improved reconstruction of fine textures while preserving global structure. Moreover, we integrate our frequency-preserving latent embeddings into a SOTA latent diffusion model, resulting in sharper and more realistic image generation. Our approach bridges the fidelity gap in current latent tokenizers and emphasizes the importance of frequency-aware optimization for realistic image synthesis, with broader implications for applications in content creation, neural rendering, and medical imaging.
- Abstract(参考訳): 遅延生成モデルは高忠実度画像合成において顕著な進歩を見せており、通常は2段階のトレーニングプロセスを用いて、学習したトークン化剤を経由した遅延埋め込みに画像を圧縮する。
生成の質は、これらの潜伏埋め込みがいかに表現的かつ適切に最適化されているかに大きく依存する。
効率的な潜在表現を学習するための様々な手法が提案されているが、生成された画像は高頻度で制御された細部が失われるため、特に鋭い遷移を伴うテクスチャのある領域においてリアリズムを欠いていることが多い。
我々は既存のSOTA (State-of-the-art) 潜在トークンの詳細な周波数分解を行い、従来の目的が本質的に低周波再構成を優先しており、しばしば高周波忠実度を犠牲にしていることを示す。
分析の結果、これらの潜伏トークン化剤は最適化中に低周波情報に対するバイアスを示し、過度にスムースな出力と視覚的アーティファクトが知覚品質を低下させることがわかった。
そこで我々は,低周波成分と高周波成分の最適化を明示的に分離するウェーブレットベースの周波数対応可変オートエンコーダ(FA-VAE)フレームワークを提案する。
このデカップリングにより、グローバルな構造を維持しつつ、微細なテクスチャの再構築を改善できる。
さらに、周波数保存潜伏埋め込みをSOTA潜伏拡散モデルに統合し、よりシャープでリアルな画像生成を実現する。
提案手法は, リアルタイム画像合成における周波数認識最適化の重要性を強調し, コンテンツ生成, ニューラルレンダリング, 医用画像の応用に広く影響を及ぼす。
関連論文リスト
- Frequency-Aware Autoregressive Modeling for Efficient High-Resolution Image Synthesis [40.93077975823353]
視覚的自己回帰モデリングは、次のスケールの予測パラダイムに基づいており、画像の品質とモデルのスケーラビリティにおいて顕著な優位性を示している。
しかし、高解像度の段階での計算オーバーヘッドは、相当数のトークンが関与しているため、依然として重要な課題である。
Sparsevarは、次世代の予測のためのプラグイン・アンド・プレイ・アクセラレーション・フレームワークで、追加のトレーニングを必要とせず、推論中に低周波トークンを動的に排除する。
論文 参考訳(メタデータ) (2025-07-28T01:13:24Z) - Frequency-Domain Fusion Transformer for Image Inpainting [6.4194162137514725]
本稿では,周波数領域融合を取り入れたトランスフォーマーによる画像描画手法を提案する。
実験により,提案手法は高周波数情報を保存することにより,画像の塗装品質を効果的に向上することを示した。
論文 参考訳(メタデータ) (2025-06-23T09:19:04Z) - Learning Multi-scale Spatial-frequency Features for Image Denoising [58.883244886588336]
本稿では,マルチスケール適応型デュアルドメインネットワーク(MADNet)を提案する。
画像ピラミッド入力を用いて低解像度画像からノイズのない結果を復元する。
高周波情報と低周波情報の相互作用を実現するために,適応型空間周波数学習ユニットを設計する。
論文 参考訳(メタデータ) (2025-06-19T13:28:09Z) - Freqformer: Image-Demoiréing Transformer via Efficient Frequency Decomposition [83.40450475728792]
本稿では,Freqformerについて述べる。Freqformerは,ターゲット周波数分離による画像復号化に特化して設計されたトランスフォーマーベースのフレームワークである。
本手法は,モワールパターンを高周波数空間局在化テクスチャと低周波数スケールローバスト色歪みに明確に分割する有効な周波数分解を行う。
様々なデモアのベンチマーク実験により、Freqformerは、コンパクトなモデルサイズで最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-05-25T12:23:10Z) - Leveraging Diffusion Knowledge for Generative Image Compression with Fractal Frequency-Aware Band Learning [16.077768397480902]
生成的画像圧縮アプローチは、シャープな再構築ではなく、詳細で現実的な画像を生成する。
拡散知識を取り入れた新しい深層学習に基づく画像圧縮手法を提案する。
提案手法は, 従来よりも低歪みで, 高いリアリズム, より優れたリアリズムの歪みを実現する。
論文 参考訳(メタデータ) (2025-03-14T11:41:33Z) - "Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。
提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文 参考訳(メタデータ) (2025-03-11T17:59:41Z) - NFIG: Autoregressive Image Generation with Next-Frequency Prediction [50.69346038028673]
textbfNext-textbfFrequency textbfImage textbfGeneration (textbfNFIG) は、画像生成プロセスを複数の周波数誘導段階に分解する新しいフレームワークである。
提案手法では,まず低周波成分を生成し,より少ないトークンで大域構造を確立する。
論文 参考訳(メタデータ) (2025-03-10T08:59:10Z) - MSF: Efficient Diffusion Model Via Multi-Scale Latent Factorize [18.73205699076486]
マルチスケールの潜在因数分解を利用した拡散フレームワークを提案する。
我々のフレームワークは、事前訓練された変分オートエンコーダから遅延する特徴を低周波ベース信号に分解する。
提案アーキテクチャは,残差学習段階におけるサンプリングステップの削減を容易にする。
論文 参考訳(メタデータ) (2025-01-23T03:18:23Z) - Inverting Adversarially Robust Networks for Image Synthesis [37.927552662984034]
本稿では,特徴反転モデルの知覚的プリミティブとしてロバスト表現を用いることを提案する。
画像として頑健な表現を採用することにより,CNNに基づく特徴反転モデルの再構成精度が大幅に向上することを示す。
そこで本研究では,ロバストな表現に基づく符号化復号ネットワークを提案し,異常検出,スタイル転送,画像復号化などの応用にその利点を示す。
論文 参考訳(メタデータ) (2021-06-13T05:51:00Z) - Focal Frequency Loss for Image Reconstruction and Synthesis [125.7135706352493]
周波数領域の狭さが画像再構成と合成品質をさらに改善できることを示す。
本稿では,合成が難しい周波数成分に適応的に焦点を合わせることのできる,新しい焦点周波数損失を提案する。
論文 参考訳(メタデータ) (2020-12-23T17:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。