論文の概要: Enhancing Learned Image Compression via Cross Window-based Attention
- arxiv url: http://arxiv.org/abs/2410.21144v4
- Date: Wed, 12 Feb 2025 19:20:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 13:44:07.401848
- Title: Enhancing Learned Image Compression via Cross Window-based Attention
- Title(参考訳): クロスウィンドウ・アテンションによる学習画像圧縮の強化
- Authors: Priyanka Mudgal, Feng Liu,
- Abstract要約: 特徴符号化モジュールと統合したCNNベースのソリューションを提案する。
提案手法はKodakおよびCLICデータセット上で評価し,提案手法が有効であり,最先端手法と同等であることを示す。
- 参考スコア(独自算出の注目度): 4.673285689826945
- License:
- Abstract: In recent years, learned image compression methods have demonstrated superior rate-distortion performance compared to traditional image compression methods. Recent methods utilize convolutional neural networks (CNN), variational autoencoders (VAE), invertible neural networks (INN), and transformers. Despite their significant contributions, a main drawback of these models is their poor performance in capturing local redundancy. Therefore, to leverage global features along with local redundancy, we propose a CNN-based solution integrated with a feature encoding module. The feature encoding module encodes important features before feeding them to the CNN and then utilizes cross-scale window-based attention, which further captures local redundancy. Cross-scale window-based attention is inspired by the attention mechanism in transformers and effectively enlarges the receptive field. Both the feature encoding module and the cross-scale window-based attention module in our architecture are flexible and can be incorporated into any other network architecture. We evaluate our method on the Kodak and CLIC datasets and demonstrate that our approach is effective and on par with state-of-the-art methods. Our code is publicly available at https://github.com/prmudgal/CWAM_IC_ISVC. .
- Abstract(参考訳): 近年,学習画像圧縮法は従来の画像圧縮法に比べて速度歪み特性が優れていることが示されている。
近年の手法では、畳み込みニューラルネットワーク(CNN)、変分オートエンコーダ(VAE)、可逆ニューラルネットワーク(INN)、変圧器が用いられている。
その大きな貢献にもかかわらず、これらのモデルの大きな欠点は、局所的な冗長性を捉える上での彼らのパフォーマンスが悪いことである。
そこで我々は,グローバルな機能と局所冗長性を活用するために,機能符号化モジュールと統合したCNNベースのソリューションを提案する。
機能エンコーディングモジュールは、CNNに通知する前に重要な機能をエンコードし、その後、大規模なウィンドウベースの注意を使って、さらにローカル冗長性をキャプチャする。
クロススケールウィンドウベースアテンションは、変換器のアテンション機構にインスパイアされ、受容場を効果的に拡大する。
私たちのアーキテクチャのフィーチャエンコーディングモジュールとクロススケールウィンドウベースのアテンションモジュールは、柔軟性があり、他のネットワークアーキテクチャにも組み込むことができます。
提案手法はKodakおよびCLICデータセット上で評価し,提案手法が有効であり,最先端手法と同等であることを示す。
私たちのコードはhttps://github.com/prmudgal/CWAM_IC_ISVCで公開されています。
と。
関連論文リスト
- UTSRMorph: A Unified Transformer and Superresolution Network for Unsupervised Medical Image Registration [4.068692674719378]
複雑な画像登録は、医用画像解析において重要な課題である。
本稿では,UTSRMorphネットワークと統合トランスフォーマー(UTSRMorph)ネットワークという,教師なしの新たな画像登録手法を提案する。
論文 参考訳(メタデータ) (2024-10-27T06:28:43Z) - WiTUnet: A U-Shaped Architecture Integrating CNN and Transformer for Improved Feature Alignment and Local Information Fusion [16.41082757280262]
低線量CT (LDCT) は, 標準CTと比較して放射線線量が少ないことから, 医用画像診断において選択される技術となっている。
本稿では,従来のスキップ接続ではなく,ネストされた高密度スキップ経路を利用するLDCT画像復号法であるWiTUnetを紹介する。
論文 参考訳(メタデータ) (2024-04-15T07:53:07Z) - Boosting Neural Representations for Videos with a Conditional Decoder [28.073607937396552]
Inlicit Neural representations (INRs) は、ビデオストレージと処理において有望なアプローチとして登場した。
本稿では,現在の暗黙的ビデオ表現手法のための普遍的なブースティングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-28T08:32:19Z) - Dynamic Semantic Compression for CNN Inference in Multi-access Edge
Computing: A Graph Reinforcement Learning-based Autoencoder [82.8833476520429]
部分オフロードにおける効果的な意味抽出と圧縮のための新しい意味圧縮手法であるオートエンコーダベースのCNNアーキテクチャ(AECNN)を提案する。
セマンティックエンコーダでは、CNNのチャネルアテンション機構に基づく特徴圧縮モジュールを導入し、最も情報性の高い特徴を選択して中間データを圧縮する。
セマンティックデコーダでは、受信した圧縮データから学習して中間データを再構築し、精度を向上させる軽量デコーダを設計する。
論文 参考訳(メタデータ) (2024-01-19T15:19:47Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Accurate Image Restoration with Attention Retractable Transformer [50.05204240159985]
画像復元のためのアテンション・リトラクタブル・トランス (ART) を提案する。
ARTはネットワーク内の密集モジュールと疎開モジュールの両方を提示する。
画像超解像、デノナイジング、JPEG圧縮アーティファクト削減タスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-10-04T07:35:01Z) - Cross-receptive Focused Inference Network for Lightweight Image
Super-Resolution [64.25751738088015]
トランスフォーマーに基づく手法は、単一画像超解像(SISR)タスクにおいて顕著な性能を示した。
動的に特徴を抽出するために文脈情報を組み込む必要がある変換器は無視される。
我々は,CNNとTransformerを混合したCTブロックのカスケードで構成される,軽量なクロスレセプティブ・フォーカスド・推論・ネットワーク(CFIN)を提案する。
論文 参考訳(メタデータ) (2022-07-06T16:32:29Z) - Transformer Compressed Sensing via Global Image Tokens [4.722333456749269]
低解像度入力に自然に画像を埋め込む新しい画像分解法を提案する。
我々は、よく知られたCS-MRIニューラルネットワークのCNNコンポーネントをTNNブロックに置き換え、KDによる改善を実証する。
論文 参考訳(メタデータ) (2022-03-24T05:56:30Z) - The Devil Is in the Details: Window-based Attention for Image
Compression [58.1577742463617]
既存の学習画像圧縮モデルは畳み込みニューラルネットワーク(CNN)に基づいている。
本稿では,複数種類の注意機構が局所特徴学習に与える影響について検討し,より単純で効果的なウィンドウベースの局所的注意ブロックを提案する。
提案されたウィンドウベースのアテンションは非常に柔軟で、CNNとTransformerモデルを強化するためのプラグイン・アンド・プレイコンポーネントとして機能する可能性がある。
論文 参考訳(メタデータ) (2022-03-16T07:55:49Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。