Fugu-MT 論文翻訳(概要): Catch Missing Details: Image Reconstruction with Frequency Augmented Variational Autoencoder

論文の概要: Catch Missing Details: Image Reconstruction with Frequency Augmented Variational Autoencoder

arxiv url: http://arxiv.org/abs/2305.02541v2
Date: Fri, 3 Nov 2023 21:48:40 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-07 22:52:24.524579
Title: Catch Missing Details: Image Reconstruction with Frequency Augmented Variational Autoencoder
Title（参考訳）: キャッチミスの詳細:周波数拡張変分オートエンコーダによる画像再構成
Authors: Xinmiao Lin, Yikang Li, Jenhao Hsiao, Chiuman Ho, Yu Kong
Abstract要約: 高い圧縮速度は、ピクセル空間の詳細を反映した高周波数スペクトル上での視覚信号の損失を増大させる。周波数補修モジュール (FCM) アーキテクチャを提案し, 欠落した周波数情報を捕捉し, 復元品質を向上する。 CAT (Cross-attention Autoregressive Transformer) はテキスト中のより正確な意味的属性を得るために提案されている。
参考スコア（独自算出の注目度）: 27.149365819904745
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The popular VQ-VAE models reconstruct images through learning a discrete codebook but suffer from a significant issue in the rapid quality degradation of image reconstruction as the compression rate rises. One major reason is that a higher compression rate induces more loss of visual signals on the higher frequency spectrum which reflect the details on pixel space. In this paper, a Frequency Complement Module (FCM) architecture is proposed to capture the missing frequency information for enhancing reconstruction quality. The FCM can be easily incorporated into the VQ-VAE structure, and we refer to the new model as Frequency Augmented VAE (FA-VAE). In addition, a Dynamic Spectrum Loss (DSL) is introduced to guide the FCMs to balance between various frequencies dynamically for optimal reconstruction. FA-VAE is further extended to the text-to-image synthesis task, and a Cross-attention Autoregressive Transformer (CAT) is proposed to obtain more precise semantic attributes in texts. Extensive reconstruction experiments with different compression rates are conducted on several benchmark datasets, and the results demonstrate that the proposed FA-VAE is able to restore more faithfully the details compared to SOTA methods. CAT also shows improved generation quality with better image-text semantic alignment.
Abstract（参考訳）: 一般的なVQ-VAEモデルは、離散的なコードブックを学習することで画像再構成を行うが、圧縮率が上昇するにつれて画像再構成の高速な品質劣化に悩まされる。主な理由は、高い圧縮速度が、ピクセル空間の詳細を反映した高周波数スペクトルの視覚信号の損失を増加させるからである。本稿では,周波数補完モジュール(FCM)アーキテクチャを提案する。 FCMはVQ-VAE構造に容易に組み込むことができ、新しいモデルをFA-VAE( Frequency Augmented VAE)と呼ぶ。さらに、動的スペクトル損失(DSL)を導入し、最適再構成のために様々な周波数間で動的にバランスをとるようFCMを誘導する。 FA-VAEはテキスト間の合成タスクにさらに拡張され、テキストのより正確なセマンティック属性を得るために、CAT(Cross-attention Autoregressive Transformer)が提案される。複数のベンチマークデータセットにおいて圧縮率の異なる広範囲な再構成実験を行い,提案手法がsoma法と比較してより忠実に詳細を復元できることを実証した。 CATはまた、画像テキストのセマンティックアライメントを改善することで、生成品質を改善している。

関連論文リスト

Iterative Inference-time Scaling with Adaptive Frequency Steering for Image Super-Resolution [75.3690742776891]
適応周波数ステアリング(IAFS)を用いた反復拡散推論時間スケーリングを提案する。 IAFSは、構造的偏差の反復的補正によって生成した画像を徐々に精細化することで、知覚品質と構造的忠実性のバランスをとるという課題に対処する。実験の結果、IAFSは知覚と忠実性の対立を効果的に解決し、知覚の細部と構造的精度を一貫して改善し、既存の推論時間スケーリング手法よりも優れていた。
論文参考訳（メタデータ） (2025-12-29T15:09:20Z)
From Attention to Frequency: Integration of Vision Transformer and FFT-ReLU for Enhanced Image Deblurring [0.9728664856449597]
本稿では、周波数領域FFT-ReLUモジュールで視覚変換器を統一する新しいデュアルドメインアーキテクチャを提案する。この構造では、ViTバックボーンはローカルおよびグローバルな依存関係をキャプチャし、FFT-ReLUコンポーネントは、ブラー関連アーティファクトを抑えるために周波数領域の間隔を強制する。ベンチマークデータセットの実験により、このアーキテクチャは最先端のモデルと比較してPSNR、SSIM、知覚品質が優れていることが示された。
論文参考訳（メタデータ） (2025-11-13T21:19:57Z)
SODiff: Semantic-Oriented Diffusion Model for JPEG Compression Artifacts Removal [50.90827365790281]
SODiffはJPEGアーティファクト削除のためのセマンティック指向のワンステップ拡散モデルである。我々の中核的な考え方は、効果的な復元ヒンジは、事前訓練された拡散モデルに対する意味指向的なガイダンスを提供することである。 SAIPEは、低品質(LQ)画像からリッチな特徴を抽出し、テキストエンコーダとセマンティックに整合した埋め込み空間に投影する。
論文参考訳（メタデータ） (2025-08-10T13:48:07Z)
Freqformer: Image-Demoiréing Transformer via Efficient Frequency Decomposition [83.40450475728792]
本稿では,Freqformerについて述べる。Freqformerは,ターゲット周波数分離による画像復号化に特化して設計されたトランスフォーマーベースのフレームワークである。本手法は,モワールパターンを高周波数空間局在化テクスチャと低周波数スケールローバスト色歪みに明確に分割する有効な周波数分解を行う。様々なデモアのベンチマーク実験により、Freqformerは、コンパクトなモデルサイズで最先端のパフォーマンスを達成することを示した。
論文参考訳（メタデータ） (2025-05-25T12:23:10Z)
Ultra Lowrate Image Compression with Semantic Residual Coding and Compression-aware Diffusion [28.61304513668606]
ResULICは残留誘導型超低レート画像圧縮システムである。残差信号は意味検索と拡散に基づく生成プロセスの両方に組み込む。最先端拡散法に比べて客観的・主観的性能に優れる。
論文参考訳（メタデータ） (2025-05-13T06:51:23Z)
Frequency Enhancement for Image Demosaicking [40.76899837631637]
本稿では,RGB画像の分割・復号化を行うデュアルパス周波数拡張ネットワーク(DFENet)を提案する。 1つの経路は、空間領域の細かな精細化を通じて行方不明の情報を生成することに焦点を当て、もう1つは望ましくない周波数を抑えることを目的としている。これらの設計により、提案されたDFENetは、異なるデータセット上で、他の最先端アルゴリズムよりも優れている。
論文参考訳（メタデータ） (2025-03-20T02:37:10Z)
Decouple to Reconstruct: High Quality UHD Restoration via Active Feature Disentanglement and Reversible Fusion [77.08942160610478]
超高精細画像復元(UHD)は、高解像度のため、しばしば計算ボトルネックや情報損失に直面している。本稿では,より難解な劣化情報を潜時空間に符号化しながら,容易に復元可能な背景情報を破棄する制御付き微分遠絡型VAEを提案する。提案手法は,UHD画像復元の精度を向上し,UHD画像復元の6つの課題を1Mパラメータのみで実現し,VAEモデルにおける情報損失問題を効果的に軽減する。
論文参考訳（メタデータ） (2025-03-17T02:55:18Z)
SING: Semantic Image Communications using Null-Space and INN-Guided Diffusion Models [52.40011613324083]
近年, 無線画像伝送において, 共用音源チャネル符号化システム (DeepJSCC) が顕著な性能を発揮している。既存の手法では、送信された画像とレシーバーの再構成されたバージョンとの間の歪みを最小限に抑えることに重点を置いており、しばしば知覚的品質を見落としている。逆問題として,破損した再構成画像から高品質な画像の復元を定式化する新しいフレームワークであるSINGを提案する。
論文参考訳（メタデータ） (2025-03-16T12:32:11Z)
FDG-Diff: Frequency-Domain-Guided Diffusion Framework for Compressed Hazy Image Restoration [16.348272500121336]
既存のデハジングモデルは圧縮効果を無視することが多く、実際的な応用ではその効果を制限している。 FDG-Diffは、新しい周波数領域誘導脱ハージングフレームワークである。次に,周波数補償モジュール(HFCM)を導入し,空間領域の詳細を復元する。第3に、圧縮されたハズ画像の局所的な劣化の不整合を解消する劣化認識時間予測器(DADTP)を導入する。
論文参考訳（メタデータ） (2025-01-22T12:19:47Z)
CALLIC: Content Adaptive Learning for Lossless Image Compression [64.47244912937204]
CALLICは、学習したロスレス画像圧縮のための新しい最先端(SOTA)を設定する。本稿では,畳み込みゲーティング操作を利用したコンテンツ認識型自己回帰自己保持機構を提案する。エンコーディング中、低ランク行列を用いて深度の畳み込みを含む事前学習層を分解し、レート誘導プログレッシブファインタニング(RPFT)による画像検査にインクリメンタルウェイトを適応させる。推定エントロピーにより下位順にソートされたパッチを徐々に増加させたRPFTファインチューン,学習過程の最適化,適応時間の短縮を実現した。
論文参考訳（メタデータ） (2024-12-23T10:41:18Z)
SC-CDM: Enhancing Quality of Image Semantic Communication with a Compact Diffusion Model [27.462224078883786]
無線画像伝送のための生成SC(SC-CDM)を提案する。我々は,Swin Transformerを効率的な意味的特徴抽出と圧縮のための新しいバックボーンとして再設計することを目指している。我々はさらに、CNNベースのDeepJSCC上でPak Signal-to-Noise Ratio(PSNR)を17%以上増加させます。
論文参考訳（メタデータ） (2024-10-03T01:01:04Z)
AdaIR: Adaptive All-in-One Image Restoration via Frequency Mining and Modulation [99.57024606542416]
周波数マイニングと変調に基づく適応的なオールインワン画像復元ネットワークを提案する。我々のアプローチは、異なる周波数サブバンド上の画像内容に異なる劣化タイプが影響を及ぼすという観察によって動機付けられている。提案モデルでは,入力劣化に応じて情報周波数サブバンドをアクセントすることで適応的再構成を実現する。
論文参考訳（メタデータ） (2024-03-21T17:58:14Z)
Hierarchical Frequency-based Upsampling and Refining for Compressed Video Quality Enhancement [14.653248860008981]
圧縮ビデオ品質向上のための階層型周波数ベースアップサンプリング・精製ニューラルネットワーク(HFUR)を提案する。 ImpFreqUpは暗黙のDCT変換によって引き起こされたDCTドメインを利用して、粗い粒度転送によってDCTドメインの損失を正確に再構築する。 HIRを導入して、スケール間の相互協力と情報補償を容易にし、特徴マップをさらに洗練し、最終的な出力の視覚的品質を向上する。
論文参考訳（メタデータ） (2024-03-18T08:13:26Z)
mdctGAN: Taming transformer-based GAN for speech super-resolution with Modified DCT spectra [4.721572768262729]
音声超解像(SSR)は、高分解能(HR)音声を対応する低分解能(LR)音声から復元することを目的としている。近年のSSR法は、位相再構成の重要性を無視して、等級スペクトルの再構成に重点を置いている。修正離散コサイン変換(MDCT)に基づく新しいSSRフレームワークであるmdctGANを提案する。
論文参考訳（メタデータ） (2023-05-18T16:49:46Z)
Contextual Learning in Fourier Complex Field for VHR Remote Sensing Images [64.84260544255477]
変圧器を用いたモデルでは、一般解像度(224x224ピクセル)の自然画像から高次文脈関係を学習する優れた可能性を示したそこで本研究では,高次文脈情報のモデル化を行う複雑な自己意識(CSA)機構を提案する。 CSAブロックの様々な層を積み重ねることで、VHR空中画像からグローバルな文脈情報を学習するFourier Complex Transformer(FCT)モデルを提案する。
論文参考訳（メタデータ） (2022-10-28T08:13:33Z)
Hybrid Parallel Imaging and Compressed Sensing MRI Reconstruction with GRAPPA Integrated Multi-loss Supervised GAN [2.7110495144693374]
本稿では, 再構成画像のデエイリアスのために, マルチモーダルな損失を抑える新しいGAN(Generative Adversarial Network)を提案する。提案手法は, 画像品質の向上に寄与し, 5倍, 10倍の高速化を実現した。
論文参考訳（メタデータ） (2022-09-19T07:26:45Z)
ReconFormer: Accelerated MRI Reconstruction Using Recurrent Transformer [60.27951773998535]
本稿では,MRI再構成のためのリカレントトランスモデルである textbfReconFormer を提案する。高度にアンダーサンプリングされたk空間データから高純度磁気共鳴像を反復的に再構成することができる。パラメータ効率が向上し,最先端手法よりも大幅に向上したことを示す。
論文参考訳（メタデータ） (2022-01-23T21:58:19Z)
Fourier Space Losses for Efficient Perceptual Image Super-Resolution [131.50099891772598]
提案した損失関数の適用のみで,最近導入された効率的なジェネレータアーキテクチャの性能向上が可能であることを示す。フーリエ空間における周波数に対する損失の直接的強調は知覚的画質を著しく向上させることを示す。訓練されたジェネレータは、最先端の知覚的SR法である RankSRGAN と SRFlow よりも2.4倍、48倍高速である。
論文参考訳（メタデータ） (2021-06-01T20:34:52Z)
Adaptive Gradient Balancing for UndersampledMRI Reconstruction and Image-to-Image Translation [60.663499381212425]
本研究では,新しい適応勾配バランス手法を併用したwasserstein生成逆ネットワークを用いて,画質の向上を図る。 MRIでは、他の技術よりも鮮明な画像を生成する高品質の再構築を維持しながら、アーティファクトを最小限に抑えます。
論文参考訳（メタデータ） (2021-04-05T13:05:22Z)
Focal Frequency Loss for Image Reconstruction and Synthesis [125.7135706352493]
周波数領域の狭さが画像再構成と合成品質をさらに改善できることを示す。本稿では,合成が難しい周波数成分に適応的に焦点を合わせることのできる,新しい焦点周波数損失を提案する。
論文参考訳（メタデータ） (2020-12-23T17:32:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。