論文の概要: Catch Missing Details: Image Reconstruction with Frequency Augmented
Variational Autoencoder
- arxiv url: http://arxiv.org/abs/2305.02541v1
- Date: Thu, 4 May 2023 04:30:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-05 17:08:48.058659
- Title: Catch Missing Details: Image Reconstruction with Frequency Augmented
Variational Autoencoder
- Title(参考訳): キャッチミスの詳細:周波数拡張変分オートエンコーダによる画像再構成
- Authors: Xinmiao Lin, Yikang Li, Jenhao Hsiao, Chiuman Ho, Yu Kong
- Abstract要約: 高い圧縮速度は、ピクセル空間の詳細を反映した高周波数スペクトル上での視覚信号の損失を増大させる。
周波数補修モジュール (FCM) アーキテクチャを提案し, 欠落した周波数情報を捕捉し, 復元品質を向上する。
CAT (Cross-attention Autoregressive Transformer) はテキスト中のより正確な意味的属性を得るために提案されている。
- 参考スコア(独自算出の注目度): 23.071921863922494
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The popular VQ-VAE models reconstruct images through learning a discrete
codebook but suffer from a significant issue in the rapid quality degradation
of image reconstruction as the compression rate rises. One major reason is that
a higher compression rate induces more loss of visual signals on the higher
frequency spectrum which reflect the details on pixel space. In this paper, a
Frequency Complement Module (FCM) architecture is proposed to capture the
missing frequency information for enhancing reconstruction quality. The FCM can
be easily incorporated into the VQ-VAE structure, and we refer to the new model
as Frequency Augmented VAE (FA-VAE). In addition, a Dynamic Spectrum Loss (DSL)
is introduced to guide the FCMs to balance between various frequencies
dynamically for optimal reconstruction. FA-VAE is further extended to the
text-to-image synthesis task, and a Cross-attention Autoregressive Transformer
(CAT) is proposed to obtain more precise semantic attributes in texts.
Extensive reconstruction experiments with different compression rates are
conducted on several benchmark datasets, and the results demonstrate that the
proposed FA-VAE is able to restore more faithfully the details compared to SOTA
methods. CAT also shows improved generation quality with better image-text
semantic alignment.
- Abstract(参考訳): 一般的なVQ-VAEモデルは、離散的なコードブックを学習することで画像再構成を行うが、圧縮率が上昇するにつれて画像再構成の高速な品質劣化に悩まされる。
主な理由は、高い圧縮速度が、ピクセル空間の詳細を反映した高周波数スペクトルの視覚信号の損失を増加させるからである。
本稿では,周波数補完モジュール(FCM)アーキテクチャを提案する。
FCMはVQ-VAE構造に容易に組み込むことができ、新しいモデルをFA-VAE( Frequency Augmented VAE)と呼ぶ。
さらに、動的スペクトル損失(DSL)を導入し、最適再構成のために様々な周波数間で動的にバランスをとるようFCMを誘導する。
FA-VAEはテキスト間の合成タスクにさらに拡張され、テキストのより正確なセマンティック属性を得るために、CAT(Cross-attention Autoregressive Transformer)が提案される。
複数のベンチマークデータセットにおいて圧縮率の異なる広範囲な再構成実験を行い,提案手法がsoma法と比較してより忠実に詳細を復元できることを実証した。
CATはまた、画像テキストのセマンティックアライメントを改善することで、生成品質を改善している。
関連論文リスト
- SC-CDM: Enhancing Quality of Image Semantic Communication with a Compact Diffusion Model [27.462224078883786]
無線画像伝送のための生成SC(SC-CDM)を提案する。
我々は,Swin Transformerを効率的な意味的特徴抽出と圧縮のための新しいバックボーンとして再設計することを目指している。
我々はさらに、CNNベースのDeepJSCC上でPak Signal-to-Noise Ratio(PSNR)を17%以上増加させます。
論文 参考訳(メタデータ) (2024-10-03T01:01:04Z) - AdaIR: Adaptive All-in-One Image Restoration via Frequency Mining and Modulation [99.57024606542416]
周波数マイニングと変調に基づく適応的なオールインワン画像復元ネットワークを提案する。
我々のアプローチは、異なる周波数サブバンド上の画像内容に異なる劣化タイプが影響を及ぼすという観察によって動機付けられている。
提案モデルでは,入力劣化に応じて情報周波数サブバンドをアクセントすることで適応的再構成を実現する。
論文 参考訳(メタデータ) (2024-03-21T17:58:14Z) - Hierarchical Frequency-based Upsampling and Refining for Compressed Video Quality Enhancement [14.653248860008981]
圧縮ビデオ品質向上のための階層型周波数ベースアップサンプリング・精製ニューラルネットワーク(HFUR)を提案する。
ImpFreqUpは暗黙のDCT変換によって引き起こされたDCTドメインを利用して、粗い粒度転送によってDCTドメインの損失を正確に再構築する。
HIRを導入して、スケール間の相互協力と情報補償を容易にし、特徴マップをさらに洗練し、最終的な出力の視覚的品質を向上する。
論文 参考訳(メタデータ) (2024-03-18T08:13:26Z) - mdctGAN: Taming transformer-based GAN for speech super-resolution with
Modified DCT spectra [4.721572768262729]
音声超解像(SSR)は、高分解能(HR)音声を対応する低分解能(LR)音声から復元することを目的としている。
近年のSSR法は、位相再構成の重要性を無視して、等級スペクトルの再構成に重点を置いている。
修正離散コサイン変換(MDCT)に基づく新しいSSRフレームワークであるmdctGANを提案する。
論文 参考訳(メタデータ) (2023-05-18T16:49:46Z) - Contextual Learning in Fourier Complex Field for VHR Remote Sensing
Images [64.84260544255477]
変圧器を用いたモデルでは、一般解像度(224x224ピクセル)の自然画像から高次文脈関係を学習する優れた可能性を示した
そこで本研究では,高次文脈情報のモデル化を行う複雑な自己意識(CSA)機構を提案する。
CSAブロックの様々な層を積み重ねることで、VHR空中画像からグローバルな文脈情報を学習するFourier Complex Transformer(FCT)モデルを提案する。
論文 参考訳(メタデータ) (2022-10-28T08:13:33Z) - Hybrid Parallel Imaging and Compressed Sensing MRI Reconstruction with
GRAPPA Integrated Multi-loss Supervised GAN [2.7110495144693374]
本稿では, 再構成画像のデエイリアスのために, マルチモーダルな損失を抑える新しいGAN(Generative Adversarial Network)を提案する。
提案手法は, 画像品質の向上に寄与し, 5倍, 10倍の高速化を実現した。
論文 参考訳(メタデータ) (2022-09-19T07:26:45Z) - ReconFormer: Accelerated MRI Reconstruction Using Recurrent Transformer [60.27951773998535]
本稿では,MRI再構成のためのリカレントトランスモデルである textbfReconFormer を提案する。
高度にアンダーサンプリングされたk空間データから高純度磁気共鳴像を反復的に再構成することができる。
パラメータ効率が向上し,最先端手法よりも大幅に向上したことを示す。
論文 参考訳(メタデータ) (2022-01-23T21:58:19Z) - Fourier Space Losses for Efficient Perceptual Image Super-Resolution [131.50099891772598]
提案した損失関数の適用のみで,最近導入された効率的なジェネレータアーキテクチャの性能向上が可能であることを示す。
フーリエ空間における周波数に対する損失の直接的強調は知覚的画質を著しく向上させることを示す。
訓練されたジェネレータは、最先端の知覚的SR法である RankSRGAN と SRFlow よりも2.4倍、48倍高速である。
論文 参考訳(メタデータ) (2021-06-01T20:34:52Z) - Adaptive Gradient Balancing for UndersampledMRI Reconstruction and
Image-to-Image Translation [60.663499381212425]
本研究では,新しい適応勾配バランス手法を併用したwasserstein生成逆ネットワークを用いて,画質の向上を図る。
MRIでは、他の技術よりも鮮明な画像を生成する高品質の再構築を維持しながら、アーティファクトを最小限に抑えます。
論文 参考訳(メタデータ) (2021-04-05T13:05:22Z) - Focal Frequency Loss for Image Reconstruction and Synthesis [125.7135706352493]
周波数領域の狭さが画像再構成と合成品質をさらに改善できることを示す。
本稿では,合成が難しい周波数成分に適応的に焦点を合わせることのできる,新しい焦点周波数損失を提案する。
論文 参考訳(メタデータ) (2020-12-23T17:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。