論文の概要: Frequency-Aware Transformer for Learned Image Compression
- arxiv url: http://arxiv.org/abs/2310.16387v1
- Date: Wed, 25 Oct 2023 05:59:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 16:26:29.342174
- Title: Frequency-Aware Transformer for Learned Image Compression
- Title(参考訳): 学習画像圧縮のための周波数認識トランス
- Authors: Han Li, Shaohui Li, Wenrui Dai, Chenglin Li, Junni Zou, Hongkai Xiong
- Abstract要約: 学習画像圧縮(lic)のためのマルチスケール指向性アナリシスを初めて実現した周波数認識変換器(FAT)ブロックを提案する。
FATブロックは、自然画像のマルチスケールおよび指向性周波数成分をキャプチャするための周波数分解ウィンドウアテンション(FDWA)モジュールを含む。
また、周波数変調フィードフォワードネットワーク(FMFFN)を導入し、異なる周波数成分を適応的に変調し、周波数歪み性能を向上させる。
- 参考スコア(独自算出の注目度): 68.11950589091056
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Learned image compression (LIC) has gained traction as an effective solution
for image storage and transmission in recent years. However, existing LIC
methods are redundant in latent representation due to limitations in capturing
anisotropic frequency components and preserving directional details. To
overcome these challenges, we propose a novel frequency-aware transformer (FAT)
block that for the first time achieves multiscale directional ananlysis for
LIC. The FAT block comprises frequency-decomposition window attention (FDWA)
modules to capture multiscale and directional frequency components of natural
images. Additionally, we introduce frequency-modulation feed-forward network
(FMFFN) to adaptively modulate different frequency components, improving
rate-distortion performance. Furthermore, we present a transformer-based
channel-wise autoregressive (T-CA) model that effectively exploits channel
dependencies. Experiments show that our method achieves state-of-the-art
rate-distortion performance compared to existing LIC methods, and evidently
outperforms latest standardized codec VTM-12.1 by 14.5%, 15.1%, 13.0% in
BD-rate on the Kodak, Tecnick, and CLIC datasets.
- Abstract(参考訳): 近年,学習画像圧縮(lic)が画像記憶と伝送に有効なソリューションとして注目されている。
しかし、既存のlic法は、異方性周波数成分の捕捉と方向詳細の保存に制限があるため、潜在表現では冗長である。
これらの課題を克服するため,我々は,licの多元的方向アナリシスを初めて達成する新しい周波数認識トランスフォーマ(fat)ブロックを提案する。
FATブロックは、自然画像のマルチスケールおよび指向性周波数成分をキャプチャするための周波数分解ウィンドウアテンション(FDWA)モジュールを含む。
さらに、周波数変調フィードフォワードネットワーク(FMFFN)を導入し、異なる周波数成分を適応的に変調し、周波数歪み性能を向上させる。
さらに,チャネル依存を効果的に活用するt-ca(transformer-based channel-wise autoregressive)モデルを提案する。
実験により,本手法は既存の標準手法と比較して最先端の速度歪み性能を実現し,コダック,テックニック,CLICデータセット上でのBDレートの14.5%,15.1%,13.0%,最新の標準コーデックVTM-12.1よりも明らかに優れていた。
関連論文リスト
- Misalignment-Robust Frequency Distribution Loss for Image Transformation [51.0462138717502]
本稿では,画像強調や超解像といった深層学習に基づく画像変換手法における共通の課題に対処することを目的とする。
本稿では、周波数領域内における分布距離を計算するための、新しいシンプルな周波数分布損失(FDL)を提案する。
本手法は,周波数領域におけるグローバル情報の思慮深い活用により,トレーニング制約として実証的に有効であることが実証された。
論文 参考訳(メタデータ) (2024-02-28T09:27:41Z) - End-to-End Optimized Image Compression with the Frequency-Oriented
Transform [8.27145506280741]
本稿では,周波数指向変換により最適化された画像圧縮モデルを提案する。
このモデルは任意の周波数成分を選択的に伝送することでスケーラブルな符号化を可能にする。
次世代標準H.266/VVCを含む従来のコーデックをMS-SSIMで比較した。
論文 参考訳(メタデータ) (2024-01-16T08:16:10Z) - Progressive Learning with Visual Prompt Tuning for Variable-Rate Image
Compression [60.689646881479064]
本稿では,変圧器を用いた可変レート画像圧縮のためのプログレッシブラーニングパラダイムを提案する。
視覚的プロンプトチューニングにインスパイアされた私たちは,エンコーダ側とデコーダ側でそれぞれ入力画像と隠蔽特徴のプロンプトを抽出するためにLPMを使用する。
提案モデルでは, 速度歪み特性の観点から現行の可変画像法よりも優れ, スクラッチから訓練した最先端の固定画像圧縮法にアプローチする。
論文 参考訳(メタデータ) (2023-11-23T08:29:32Z) - JPEG Quantized Coefficient Recovery via DCT Domain Spatial-Frequential
Transformer [53.32016332306767]
本稿では,DCTransformer という名前の DCT 領域空間周波数変換器を提案する。
提案するDCTransformerは,現在最先端のJPEGアーティファクト除去技術より優れている。
論文 参考訳(メタデータ) (2023-08-17T17:32:56Z) - High-Fidelity Variable-Rate Image Compression via Invertible Activation
Transformation [24.379052026260034]
Invertible Activation Transformation (IAT) モジュールを提案する。
IATとQLevelは、画像圧縮モデルに、画像の忠実さを良く保ちながら、細かな可変レート制御能力を与える。
提案手法は,特に複数再符号化後に,最先端の可変レート画像圧縮法よりも大きなマージンで性能を向上する。
論文 参考訳(メタデータ) (2022-09-12T07:14:07Z) - Spatial-Temporal Frequency Forgery Clue for Video Forgery Detection in
VIS and NIR Scenario [87.72258480670627]
既存の周波数領域に基づく顔偽造検出手法では、GAN鍛造画像は、実際の画像と比較して、周波数スペクトルに明らかな格子状の視覚的アーチファクトを持つ。
本稿では,コサイン変換に基づくフォージェリークリュー拡張ネットワーク(FCAN-DCT)を提案し,より包括的な時空間特徴表現を実現する。
論文 参考訳(メタデータ) (2022-07-05T09:27:53Z) - Interpolation variable rate image compression [9.227865598115025]
異なるネットワークの集合が様々な圧縮速度に使用され、結果としてモデルストレージとトレーニングのコストが高い。
本稿では,InterpCA(InterpCA)モジュールを導入し,効率的な補間可変レート(IVR)ネットワークを提案する。
また,InterpCAのPSNR間隔は0.001dB,細レート間隔は0.0001 Bits-Per-Pixel (BPP) であり,ネットワーク内で9000レートであることを示す。
論文 参考訳(メタデータ) (2021-09-20T03:09:41Z) - Channel-Level Variable Quantization Network for Deep Image Compression [50.3174629451739]
チャネルレベルの可変量子化ネットワークを提案し、重要なチャネルに対してより多くの畳み込みを動的に割り当て、無視可能なチャネルに対して退避する。
提案手法は優れた性能を実現し,より優れた視覚的再構成を実現する。
論文 参考訳(メタデータ) (2020-07-15T07:20:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。