論文の概要: FAVAE-Effective Frequency Aware Latent Tokenizer
- arxiv url: http://arxiv.org/abs/2509.05441v1
- Date: Fri, 05 Sep 2025 18:49:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.510465
- Title: FAVAE-Effective Frequency Aware Latent Tokenizer
- Title(参考訳): FAVAEによる遅延トケナイザの周波数認識
- Authors: Tejaswini Medi, Hsien-Yi Wang, Arianna Rampini, Margret Keuper,
- Abstract要約: 本稿では、低周波成分と高周波成分の最適化を明示的に分離するウェーブレットベースの周波数対応可変オートエンコーダ(FA-VAE)フレームワークを提案する。
提案手法は,現在の潜在トークン化器における忠実度ギャップを橋渡しし,実写画像表現における周波数認識の最適化の重要性を強調する。
- 参考スコア(独自算出の注目度): 17.95197409468585
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Latent generative models have shown remarkable progress in high-fidelity image synthesis, typically using a two-stage training process that involves compressing images into latent embeddings via learned tokenizers in the first stage. The quality of generation strongly depends on how expressive and well-optimized these latent embeddings are. While various methods have been proposed to learn effective latent representations, the reconstructed images often lack realism, particularly in textured regions with sharp transitions, due to loss of fine details governed by high frequencies. We conduct a detailed frequency decomposition of existing state-of-the-art (SOTA) latent tokenizers and show that conventional objectives inherently prioritize low-frequency reconstruction, often at the expense of high-frequency fidelity. Our analysis reveals these latent tokenizers exhibit a bias toward low-frequency information, when jointly optimized, leading to over-smoothed outputs and visual artifacts that diminish perceptual quality. To address this, we propose a wavelet-based, frequency-aware variational autoencoder (FA-VAE) framework that explicitly decouples the optimization of low- and high-frequency components. This decoupling enables improved reconstruction of fine textures while preserving global structure. Our approach bridges the fidelity gap in current latent tokenizers and emphasizes the importance of frequency-aware optimization for realistic image representation, with broader implications for applications in content creation, neural rendering, and medical imaging.
- Abstract(参考訳): 遅延生成モデルは高忠実度画像合成において顕著な進歩を見せており、通常は2段階のトレーニングプロセスを用いて、学習したトークン化剤を経由した遅延埋め込みに画像を圧縮する。
生成の質は、これらの潜伏埋め込みがいかに表現的かつ適切に最適化されているかに大きく依存する。
効率的な潜在表現を学習するための様々な手法が提案されているが、再構成された画像は、特に高頻度で制御された細部が失われるため、シャープな遷移を持つテクスチャ化された領域において、リアリズムを欠いていることが多い。
我々は既存のSOTA (State-of-the-art) 潜在トークンの詳細な周波数分解を行い、従来の目的が本質的に低周波再構成を優先しており、しばしば高周波忠実度を犠牲にしていることを示す。
分析の結果、これらの潜伏トークン化剤は、共同最適化された場合、低周波情報に対するバイアスを示し、過度にスムースな出力と知覚品質を低下させる視覚的アーティファクトをもたらすことが明らかとなった。
そこで我々は,低周波成分と高周波成分の最適化を明示的に分離するウェーブレットベースの周波数対応可変オートエンコーダ(FA-VAE)フレームワークを提案する。
このデカップリングにより、グローバルな構造を維持しつつ、微細なテクスチャの再構築を改善できる。
提案手法は,現在の潜在トークン化装置における忠実度ギャップを橋渡しし,リアルな画像表現のための周波数認識最適化の重要性を強調し,コンテンツ生成,ニューラルレンダリング,医用画像の応用に幅広い意味を持つ。
関連論文リスト
- Frequency-Aware Autoregressive Modeling for Efficient High-Resolution Image Synthesis [40.93077975823353]
視覚的自己回帰モデリングは、次のスケールの予測パラダイムに基づいており、画像の品質とモデルのスケーラビリティにおいて顕著な優位性を示している。
しかし、高解像度の段階での計算オーバーヘッドは、相当数のトークンが関与しているため、依然として重要な課題である。
Sparsevarは、次世代の予測のためのプラグイン・アンド・プレイ・アクセラレーション・フレームワークで、追加のトレーニングを必要とせず、推論中に低周波トークンを動的に排除する。
論文 参考訳(メタデータ) (2025-07-28T01:13:24Z) - Frequency-Domain Fusion Transformer for Image Inpainting [6.4194162137514725]
本稿では,周波数領域融合を取り入れたトランスフォーマーによる画像描画手法を提案する。
実験により,提案手法は高周波数情報を保存することにより,画像の塗装品質を効果的に向上することを示した。
論文 参考訳(メタデータ) (2025-06-23T09:19:04Z) - Learning Multi-scale Spatial-frequency Features for Image Denoising [58.883244886588336]
本稿では,マルチスケール適応型デュアルドメインネットワーク(MADNet)を提案する。
画像ピラミッド入力を用いて低解像度画像からノイズのない結果を復元する。
高周波情報と低周波情報の相互作用を実現するために,適応型空間周波数学習ユニットを設計する。
論文 参考訳(メタデータ) (2025-06-19T13:28:09Z) - Freqformer: Image-Demoiréing Transformer via Efficient Frequency Decomposition [83.40450475728792]
本稿では,Freqformerについて述べる。Freqformerは,ターゲット周波数分離による画像復号化に特化して設計されたトランスフォーマーベースのフレームワークである。
本手法は,モワールパターンを高周波数空間局在化テクスチャと低周波数スケールローバスト色歪みに明確に分割する有効な周波数分解を行う。
様々なデモアのベンチマーク実験により、Freqformerは、コンパクトなモデルサイズで最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-05-25T12:23:10Z) - Leveraging Diffusion Knowledge for Generative Image Compression with Fractal Frequency-Aware Band Learning [16.077768397480902]
生成的画像圧縮アプローチは、シャープな再構築ではなく、詳細で現実的な画像を生成する。
拡散知識を取り入れた新しい深層学習に基づく画像圧縮手法を提案する。
提案手法は, 従来よりも低歪みで, 高いリアリズム, より優れたリアリズムの歪みを実現する。
論文 参考訳(メタデータ) (2025-03-14T11:41:33Z) - "Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。
提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文 参考訳(メタデータ) (2025-03-11T17:59:41Z) - NFIG: Autoregressive Image Generation with Next-Frequency Prediction [50.69346038028673]
textbfNext-textbfFrequency textbfImage textbfGeneration (textbfNFIG) は、画像生成プロセスを複数の周波数誘導段階に分解する新しいフレームワークである。
提案手法では,まず低周波成分を生成し,より少ないトークンで大域構造を確立する。
論文 参考訳(メタデータ) (2025-03-10T08:59:10Z) - MSF: Efficient Diffusion Model Via Multi-Scale Latent Factorize [18.73205699076486]
マルチスケールの潜在因数分解を利用した拡散フレームワークを提案する。
我々のフレームワークは、事前訓練された変分オートエンコーダから遅延する特徴を低周波ベース信号に分解する。
提案アーキテクチャは,残差学習段階におけるサンプリングステップの削減を容易にする。
論文 参考訳(メタデータ) (2025-01-23T03:18:23Z) - Inverting Adversarially Robust Networks for Image Synthesis [37.927552662984034]
本稿では,特徴反転モデルの知覚的プリミティブとしてロバスト表現を用いることを提案する。
画像として頑健な表現を採用することにより,CNNに基づく特徴反転モデルの再構成精度が大幅に向上することを示す。
そこで本研究では,ロバストな表現に基づく符号化復号ネットワークを提案し,異常検出,スタイル転送,画像復号化などの応用にその利点を示す。
論文 参考訳(メタデータ) (2021-06-13T05:51:00Z) - Focal Frequency Loss for Image Reconstruction and Synthesis [125.7135706352493]
周波数領域の狭さが画像再構成と合成品質をさらに改善できることを示す。
本稿では,合成が難しい周波数成分に適応的に焦点を合わせることのできる,新しい焦点周波数損失を提案する。
論文 参考訳(メタデータ) (2020-12-23T17:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。