論文の概要: Catch Missing Details: Image Reconstruction with Frequency Augmented
Variational Autoencoder
- arxiv url: http://arxiv.org/abs/2305.02541v2
- Date: Fri, 3 Nov 2023 21:48:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 22:52:24.524579
- Title: Catch Missing Details: Image Reconstruction with Frequency Augmented
Variational Autoencoder
- Title(参考訳): キャッチミスの詳細:周波数拡張変分オートエンコーダによる画像再構成
- Authors: Xinmiao Lin, Yikang Li, Jenhao Hsiao, Chiuman Ho, Yu Kong
- Abstract要約: 高い圧縮速度は、ピクセル空間の詳細を反映した高周波数スペクトル上での視覚信号の損失を増大させる。
周波数補修モジュール (FCM) アーキテクチャを提案し, 欠落した周波数情報を捕捉し, 復元品質を向上する。
CAT (Cross-attention Autoregressive Transformer) はテキスト中のより正確な意味的属性を得るために提案されている。
- 参考スコア(独自算出の注目度): 27.149365819904745
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The popular VQ-VAE models reconstruct images through learning a discrete
codebook but suffer from a significant issue in the rapid quality degradation
of image reconstruction as the compression rate rises. One major reason is that
a higher compression rate induces more loss of visual signals on the higher
frequency spectrum which reflect the details on pixel space. In this paper, a
Frequency Complement Module (FCM) architecture is proposed to capture the
missing frequency information for enhancing reconstruction quality. The FCM can
be easily incorporated into the VQ-VAE structure, and we refer to the new model
as Frequency Augmented VAE (FA-VAE). In addition, a Dynamic Spectrum Loss (DSL)
is introduced to guide the FCMs to balance between various frequencies
dynamically for optimal reconstruction. FA-VAE is further extended to the
text-to-image synthesis task, and a Cross-attention Autoregressive Transformer
(CAT) is proposed to obtain more precise semantic attributes in texts.
Extensive reconstruction experiments with different compression rates are
conducted on several benchmark datasets, and the results demonstrate that the
proposed FA-VAE is able to restore more faithfully the details compared to SOTA
methods. CAT also shows improved generation quality with better image-text
semantic alignment.
- Abstract(参考訳): 一般的なVQ-VAEモデルは、離散的なコードブックを学習することで画像再構成を行うが、圧縮率が上昇するにつれて画像再構成の高速な品質劣化に悩まされる。
主な理由は、高い圧縮速度が、ピクセル空間の詳細を反映した高周波数スペクトルの視覚信号の損失を増加させるからである。
本稿では,周波数補完モジュール(FCM)アーキテクチャを提案する。
FCMはVQ-VAE構造に容易に組み込むことができ、新しいモデルをFA-VAE( Frequency Augmented VAE)と呼ぶ。
さらに、動的スペクトル損失(DSL)を導入し、最適再構成のために様々な周波数間で動的にバランスをとるようFCMを誘導する。
FA-VAEはテキスト間の合成タスクにさらに拡張され、テキストのより正確なセマンティック属性を得るために、CAT(Cross-attention Autoregressive Transformer)が提案される。
複数のベンチマークデータセットにおいて圧縮率の異なる広範囲な再構成実験を行い,提案手法がsoma法と比較してより忠実に詳細を復元できることを実証した。
CATはまた、画像テキストのセマンティックアライメントを改善することで、生成品質を改善している。
関連論文リスト
- Frequency-Aware Transformer for Learned Image Compression [68.11950589091056]
学習画像圧縮(lic)のためのマルチスケール指向性アナリシスを初めて実現した周波数認識変換器(FAT)ブロックを提案する。
FATブロックは、自然画像のマルチスケールおよび指向性周波数成分をキャプチャするための周波数分解ウィンドウアテンション(FDWA)モジュールを含む。
また、周波数変調フィードフォワードネットワーク(FMFFN)を導入し、異なる周波数成分を適応的に変調し、周波数歪み性能を向上させる。
論文 参考訳(メタデータ) (2023-10-25T05:59:25Z) - mdctGAN: Taming transformer-based GAN for speech super-resolution with
Modified DCT spectra [4.721572768262729]
音声超解像(SSR)は、高分解能(HR)音声を対応する低分解能(LR)音声から復元することを目的としている。
近年のSSR法は、位相再構成の重要性を無視して、等級スペクトルの再構成に重点を置いている。
修正離散コサイン変換(MDCT)に基づく新しいSSRフレームワークであるmdctGANを提案する。
論文 参考訳(メタデータ) (2023-05-18T16:49:46Z) - A Scale-Arbitrary Image Super-Resolution Network Using Frequency-domain
Information [42.55177009667711]
画像超解像(SR)は、低分解能(LR)画像において失われた高周波情報を復元する技術である。
本稿では、周波数領域における画像の特徴を考察し、新しいスケール・アービタリー画像SRネットワークを設計する。
論文 参考訳(メタデータ) (2022-12-08T15:10:49Z) - Contextual Learning in Fourier Complex Field for VHR Remote Sensing
Images [64.84260544255477]
変圧器を用いたモデルでは、一般解像度(224x224ピクセル)の自然画像から高次文脈関係を学習する優れた可能性を示した
そこで本研究では,高次文脈情報のモデル化を行う複雑な自己意識(CSA)機構を提案する。
CSAブロックの様々な層を積み重ねることで、VHR空中画像からグローバルな文脈情報を学習するFourier Complex Transformer(FCT)モデルを提案する。
論文 参考訳(メタデータ) (2022-10-28T08:13:33Z) - Hybrid Parallel Imaging and Compressed Sensing MRI Reconstruction with
GRAPPA Integrated Multi-loss Supervised GAN [2.7110495144693374]
本稿では, 再構成画像のデエイリアスのために, マルチモーダルな損失を抑える新しいGAN(Generative Adversarial Network)を提案する。
提案手法は, 画像品質の向上に寄与し, 5倍, 10倍の高速化を実現した。
論文 参考訳(メタデータ) (2022-09-19T07:26:45Z) - ReconFormer: Accelerated MRI Reconstruction Using Recurrent Transformer [60.27951773998535]
本稿では,MRI再構成のためのリカレントトランスモデルである textbfReconFormer を提案する。
高度にアンダーサンプリングされたk空間データから高純度磁気共鳴像を反復的に再構成することができる。
パラメータ効率が向上し,最先端手法よりも大幅に向上したことを示す。
論文 参考訳(メタデータ) (2022-01-23T21:58:19Z) - Fourier Space Losses for Efficient Perceptual Image Super-Resolution [131.50099891772598]
提案した損失関数の適用のみで,最近導入された効率的なジェネレータアーキテクチャの性能向上が可能であることを示す。
フーリエ空間における周波数に対する損失の直接的強調は知覚的画質を著しく向上させることを示す。
訓練されたジェネレータは、最先端の知覚的SR法である RankSRGAN と SRFlow よりも2.4倍、48倍高速である。
論文 参考訳(メタデータ) (2021-06-01T20:34:52Z) - Content-adaptive Representation Learning for Fast Image Super-resolution [6.5468866820512215]
我々は、パッチワイドなローリングネットワークをコンテント順応して画像の難易度に応じて復元することで、画像SRの効率性の問題に対処する。
難易度を無視する既存の研究とは対照的に、ニューラルネットワークの異なる段階を採用して画像復元を行う。
我々のモデルは、重要な加速を示すだけでなく、最先端の性能も維持する。
論文 参考訳(メタデータ) (2021-05-20T10:24:29Z) - Adaptive Gradient Balancing for UndersampledMRI Reconstruction and
Image-to-Image Translation [60.663499381212425]
本研究では,新しい適応勾配バランス手法を併用したwasserstein生成逆ネットワークを用いて,画質の向上を図る。
MRIでは、他の技術よりも鮮明な画像を生成する高品質の再構築を維持しながら、アーティファクトを最小限に抑えます。
論文 参考訳(メタデータ) (2021-04-05T13:05:22Z) - Focal Frequency Loss for Image Reconstruction and Synthesis [125.7135706352493]
周波数領域の狭さが画像再構成と合成品質をさらに改善できることを示す。
本稿では,合成が難しい周波数成分に適応的に焦点を合わせることのできる,新しい焦点周波数損失を提案する。
論文 参考訳(メタデータ) (2020-12-23T17:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。