論文の概要: Window-based Channel Attention for Wavelet-enhanced Learned Image Compression
- arxiv url: http://arxiv.org/abs/2409.14090v2
- Date: Fri, 11 Oct 2024 03:59:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 03:44:25.312695
- Title: Window-based Channel Attention for Wavelet-enhanced Learned Image Compression
- Title(参考訳): ウェーブレット強調画像圧縮のためのウィンドウベースチャネルアテンション
- Authors: Heng Xu, Bowen Hai, Yushun Tang, Zhihai He,
- Abstract要約: チャネルアテンションに初めてウィンドウパーティションを導入し、大きな受信フィールドを取得し、よりグローバルな情報を取得する。
実験の結果,4つの標準データセットに対してBDレートが18.54%,23.98%,22.33%,24.71%削減された。
- 参考スコア(独自算出の注目度): 18.13637383168527
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learned Image Compression (LIC) models have achieved superior rate-distortion performance than traditional codecs. Existing LIC models use CNN, Transformer, or Mixed CNN-Transformer as basic blocks. However, limited by the shifted window attention, Swin-Transformer-based LIC exhibits a restricted growth of receptive fields, affecting the ability to model large objects for image compression. To address this issue and improve the performance, we incorporate window partition into channel attention for the first time to obtain large receptive fields and capture more global information. Since channel attention hinders local information learning, it is important to extend existing attention mechanisms in Transformer codecs to the space-channel attention to establish multiple receptive fields, being able to capture global correlations with large receptive fields while maintaining detailed characterization of local correlations with small receptive fields. We also incorporate the discrete wavelet transform into our Spatial-Channel Hybrid (SCH) framework for efficient frequency-dependent down-sampling and further enlarging receptive fields. Experiment results demonstrate that our method achieves state-of-the-art performances, reducing BD-rate by 18.54%, 23.98%, 22.33%, and 24.71% on four standard datasets compared to VTM-23.1.
- Abstract(参考訳): Learned Image Compression (lic)モデルは従来のコーデックよりも高速な速度歪み性能を実現している。
既存のlicモデルは、基本ブロックとしてCNN、Transformer、Mixed CNN-Transformerを使用している。
しかし、ウィンドウの傾きの変化によって制限され、Swin-Transformerベースのlicは受容野の限られた成長を示し、画像圧縮のために大きなオブジェクトをモデル化する能力に影響を及ぼす。
この問題に対処し、性能を向上させるために、初めてウィンドウ分割をチャネルアテンションに組み込んで、大きな受容場を取得し、より多くのグローバル情報を取得する。
チャネルアテンションは局所的な情報学習を妨げるため、トランスフォーマーコーデックの既存のアテンションメカニズムを空間的なアテンションに拡張して複数の受容場を確立することが重要である。
また、離散ウェーブレット変換をSCH(Spatial-Channel Hybrid)フレームワークに組み込んで、効率的な周波数依存性のダウンサンプリングを行い、受容場を拡大する。
実験の結果,VTM-23.1と比較して,4つの標準データセットに対してBDレートが18.54%,23.98%,22.33%,24.71%削減された。
関連論文リスト
- A Hybrid Transformer-Mamba Network for Single Image Deraining [70.64069487982916]
既存のデラリング変換器では、固定レンジウィンドウやチャネル次元に沿って自己アテンション機構を採用している。
本稿では,多分岐型トランスフォーマー・マンバネットワーク(Transformer-Mamba Network,TransMamba Network,Transformer-Mamba Network)を提案する。
論文 参考訳(メタデータ) (2024-08-31T10:03:19Z) - ML-CrAIST: Multi-scale Low-high Frequency Information-based Cross black Attention with Image Super-resolving Transformer [3.686808512438363]
この研究は、ML-CrAISTと呼ばれるトランスフォーマーベースの超解像アーキテクチャを提案する。
我々は空間的およびチャネル的自己アテンションを運用し、空間的およびチャネル的両方の次元から画素間相互作用を同時にモデル化する。
超解像のためのクロスアテンションブロックを考案し、低周波情報と高周波情報との相関について検討する。
論文 参考訳(メタデータ) (2024-08-19T12:23:15Z) - Bi-Level Spatial and Channel-aware Transformer for Learned Image Compression [0.0]
本稿では,特徴マップ内の周波数成分を考慮したトランスフォーマーに基づく画像圧縮手法を提案する。
本手法は,空間ベース分岐が高周波数と低周波数を独立に扱うHSCATB(Hybrid Space-Channel Attention Transformer Block)を統合した。
また、トランスフォーマーブロック内にMLGFFN(Mixed Local-Global Feed Forward Network)を導入し、多様な情報とリッチな情報の抽出を強化する。
論文 参考訳(メタデータ) (2024-08-07T15:35:25Z) - Wavelet-based Bi-dimensional Aggregation Network for SAR Image Change Detection [53.842568573251214]
3つのSARデータセットによる実験結果から、我々のWBANetは現代最先端の手法を著しく上回っていることが明らかとなった。
我々のWBANetは、それぞれのデータセットで98.33%、96.65%、96.62%の正確な分類(PCC)を達成している。
論文 参考訳(メタデータ) (2024-07-18T04:36:10Z) - Frequency-Aware Transformer for Learned Image Compression [64.28698450919647]
学習画像圧縮(lic)のためのマルチスケール指向性アナリシスを初めて実現した周波数認識変換器(FAT)ブロックを提案する。
FATブロックは、自然画像のマルチスケールおよび指向性周波数成分をキャプチャするための周波数分解ウィンドウアテンション(FDWA)モジュールを含む。
また、周波数変調フィードフォワードネットワーク(FMFFN)を導入し、異なる周波数成分を適応的に変調し、周波数歪み性能を向上させる。
論文 参考訳(メタデータ) (2023-10-25T05:59:25Z) - LLIC: Large Receptive Field Transform Coding with Adaptive Weights for Learned Image Compression [27.02281402358164]
学習画像圧縮のための適応重み付き大規模受容場変換符号化を提案する。
カーネルをベースとした奥行きに関する大規模な畳み込みを導入し,複雑さを抑えながら冗長性を向上する。
我々のLLICモデルは最先端のパフォーマンスを実現し、パフォーマンスと複雑さのトレードオフを改善する。
論文 参考訳(メタデータ) (2023-04-19T11:19:10Z) - Inception Transformer [151.939077819196]
インセプショントランスフォーマー(iFormer)は、視覚データ中の高周波数情報と低周波情報の両方で包括的特徴を学習する。
我々は、iFormerを一連の視覚タスクでベンチマークし、画像分類、COCO検出、ADE20Kセグメンテーションにおいて優れた性能を発揮することを示した。
論文 参考訳(メタデータ) (2022-05-25T17:59:54Z) - The Devil Is in the Details: Window-based Attention for Image
Compression [58.1577742463617]
既存の学習画像圧縮モデルは畳み込みニューラルネットワーク(CNN)に基づいている。
本稿では,複数種類の注意機構が局所特徴学習に与える影響について検討し,より単純で効果的なウィンドウベースの局所的注意ブロックを提案する。
提案されたウィンドウベースのアテンションは非常に柔軟で、CNNとTransformerモデルを強化するためのプラグイン・アンド・プレイコンポーネントとして機能する可能性がある。
論文 参考訳(メタデータ) (2022-03-16T07:55:49Z) - Space-time Mixing Attention for Video Transformer [55.50839896863275]
本稿では,ビデオシーケンス内のフレーム数と線形にスケールする複雑性をビデオトランスフォーマーモデルとして提案する。
我々は,最も人気のあるビデオ認識データセットに対して,認識精度が非常に高いことを実証した。
論文 参考訳(メタデータ) (2021-06-10T17:59:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。