論文の概要: ChWDTA: Channel-wise Wavelet-Domain Transformer Attention and Entropy Modeling for Learned Image Compression
- arxiv url: http://arxiv.org/abs/2606.00111v1
- Date: Wed, 27 May 2026 04:36:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:27.966524
- Title: ChWDTA: Channel-wise Wavelet-Domain Transformer Attention and Entropy Modeling for Learned Image Compression
- Title(参考訳): ChWDTA:学習画像圧縮のためのチャネルワイドウェーブレット領域変換器の注意とエントロピーモデリング
- Authors: Haisheng Fu, Runyu Yang, Feng Ding, Siyu Zhu, Jie Liang, Xiaoxiao Li, Zhenman Fang, Jingning Han,
- Abstract要約: チャネルワイドウェーブレット変換をトランスおよびエントロピー符号化の両方に導入する。
この構成により、提案手法は、Kodak、CLIC Professional Validation、およびTecnickテストセット上での-17.82%、-19.15%、-22.56%のBDレートの削減が得られる。
- 参考スコア(独自算出の注目度): 36.75128193748412
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art learned image compression (LIC) schemes are increasingly based on hybrid CNN-transformer architectures. To further improve rate-distortion performance, we introduce channel-wise wavelet transforms into both the transformer and entropy-coding components. First, we propose a channel-wise wavelet-domain transformer attention (ChWDTA) mechanism. ChWDTA keeps the efficient windowed spatial self-attention used in modern LIC backbones, but computes the Q/K/V projections on channel-wise wavelet-transformed features before mapping the attention output back with the inverse transform. The resulting Channel-wise Wavelet-Domain Transformer Block (ChWDTB) therefore preserves the spatial tokenization pattern of windowed attention while sparsifying the channel covariance seen by the attention projections. Second, in the entropy-coding stage, we introduce a channel-wise wavelet packet (ChWP) decomposition that produces four equal-sized subbands, which better fit channel-wise slice-based autoregressive entropy modeling. When each channel-wise subband is divided into two slices, we use eight slices for entropy coding. With this configuration, the proposed scheme obtains BD-rate reductions of -17.82%, -19.15%, and -22.56% on the Kodak, CLIC Professional Validation, and Tecnick test sets, respectively. Even when each channel-wise subband is coded as a single slice, the scheme still retains most of the coding gains with lower complexity. The results confirm the advantage of introducing wavelet transform in CNN-transformer-based LIC schemes.
- Abstract(参考訳): 最先端の学習画像圧縮(lic)スキームは、ますますハイブリッドCNN変換器アーキテクチャに基づいている。
速度歪み特性を改善するため、チャネルワイドウェーブレット変換をトランスおよびエントロピー符号化の両方に導入する。
まず,チャネルワイド・ウェーブレット・ドメイン・トランスフォーマー・アテンション(ChWDTA)機構を提案する。
ChWDTAは、現代のlicバックボーンで使用される効率的なウィンドウ付き空間自己アテンションを保っているが、アテンション出力を逆変換にマッピングする前に、チャネルワイドウェーブレット変換された特徴のQ/K/Vプロジェクションを計算する。
ChWDTB (Channel-wise Wavelet-Domain Transformer Block) は、アテンションプロジェクションによって見られるチャネルの共分散を分散させながら、ウィンドウ化されたアテンションの空間的トークン化パターンを保存する。
第二に、エントロピー符号化の段階では、チャンネルワイドウェーブレットパケット(ChWP)分解を導入し、4つの等サイズのサブバンドを生成し、チャネルワイドスライスに基づく自己回帰エントロピーモデルに適合する。
各チャネルワイドサブバンドを2つのスライスに分割する場合、エントロピー符号化に8つのスライスを使用する。
この構成により、提案手法は、Kodak、CLIC Professional Validation、Tecnickテストセットにおいて、それぞれ-17.82%、-19.15%、-22.56%のBDレートの削減が得られる。
各チャネルワイズサブバンドを1つのスライスとして符号化しても、このスキームは複雑さの低いコーディングゲインのほとんどを保持する。
この結果から,CNN変換方式におけるウェーブレット変換の利点が確認された。
関連論文リスト
- Window-based Channel Attention for Wavelet-enhanced Learned Image Compression [18.13637383168527]
チャネルアテンションに初めてウィンドウパーティションを導入し、大きな受信フィールドを取得し、よりグローバルな情報を取得する。
実験の結果,4つの標準データセットに対してBDレートが18.54%,23.98%,22.33%,24.71%削減された。
論文 参考訳(メタデータ) (2024-09-21T10:08:52Z) - Bi-Level Spatial and Channel-aware Transformer for Learned Image Compression [0.0]
本稿では,特徴マップ内の周波数成分を考慮したトランスフォーマーに基づく画像圧縮手法を提案する。
本手法は,空間ベース分岐が高周波数と低周波数を独立に扱うHSCATB(Hybrid Space-Channel Attention Transformer Block)を統合した。
また、トランスフォーマーブロック内にMLGFFN(Mixed Local-Global Feed Forward Network)を導入し、多様な情報とリッチな情報の抽出を強化する。
論文 参考訳(メタデータ) (2024-08-07T15:35:25Z) - Frequency-Aware Transformer for Learned Image Compression [64.28698450919647]
学習画像圧縮(lic)のためのマルチスケール指向性アナリシスを初めて実現した周波数認識変換器(FAT)ブロックを提案する。
FATブロックは、自然画像のマルチスケールおよび指向性周波数成分をキャプチャするための周波数分解ウィンドウアテンション(FDWA)モジュールを含む。
また、周波数変調フィードフォワードネットワーク(FMFFN)を導入し、異なる周波数成分を適応的に変調し、周波数歪み性能を向上させる。
論文 参考訳(メタデータ) (2023-10-25T05:59:25Z) - WaveNets: Wavelet Channel Attention Networks [9.842943431749191]
本稿では,チャネル表現問題の解法としてウェーブレット変換圧縮を提案する。
我々はウェーブレット圧縮を用いてチャネルアテンションを一般化し、それをウェーブネットと呼ぶ。
提案手法は, ベースラインSENetより優れ, 最先端の結果が得られる。
論文 参考訳(メタデータ) (2022-11-04T18:26:47Z) - Wavelet Channel Attention Module with a Fusion Network for Single Image
Deraining [46.62290347397139]
雨が画像の視界を著しく悪化させるため、単一画像のデライン化は重要な問題である。
融合ネットワークを用いたウェーブレットチャネルアテンションモジュールと呼ばれる新しい畳み込みニューラルネットワーク(CNN)を提案する。
論文 参考訳(メタデータ) (2020-07-17T18:06:13Z) - Channel-Level Variable Quantization Network for Deep Image Compression [50.3174629451739]
チャネルレベルの可変量子化ネットワークを提案し、重要なチャネルに対してより多くの畳み込みを動的に割り当て、無視可能なチャネルに対して退避する。
提案手法は優れた性能を実現し,より優れた視覚的再構成を実現する。
論文 参考訳(メタデータ) (2020-07-15T07:20:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。