論文の概要: The Devil Is in the Details: Window-based Attention for Image
Compression
- arxiv url: http://arxiv.org/abs/2203.08450v1
- Date: Wed, 16 Mar 2022 07:55:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-17 14:46:53.581680
- Title: The Devil Is in the Details: Window-based Attention for Image
Compression
- Title(参考訳): the devil is in the details: 画像圧縮に対するウィンドウベースの注意
- Authors: Renjie Zou, Chunfeng Song, Zhaoxiang Zhang
- Abstract要約: 既存の学習画像圧縮モデルは畳み込みニューラルネットワーク(CNN)に基づいている。
本稿では,複数種類の注意機構が局所特徴学習に与える影響について検討し,より単純で効果的なウィンドウベースの局所的注意ブロックを提案する。
提案されたウィンドウベースのアテンションは非常に柔軟で、CNNとTransformerモデルを強化するためのプラグイン・アンド・プレイコンポーネントとして機能する可能性がある。
- 参考スコア(独自算出の注目度): 58.1577742463617
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learned image compression methods have exhibited superior rate-distortion
performance than classical image compression standards. Most existing learned
image compression models are based on Convolutional Neural Networks (CNNs).
Despite great contributions, a main drawback of CNN based model is that its
structure is not designed for capturing local redundancy, especially the
non-repetitive textures, which severely affects the reconstruction quality.
Therefore, how to make full use of both global structure and local texture
becomes the core problem for learning-based image compression. Inspired by
recent progresses of Vision Transformer (ViT) and Swin Transformer, we found
that combining the local-aware attention mechanism with the global-related
feature learning could meet the expectation in image compression. In this
paper, we first extensively study the effects of multiple kinds of attention
mechanisms for local features learning, then introduce a more straightforward
yet effective window-based local attention block. The proposed window-based
attention is very flexible which could work as a plug-and-play component to
enhance CNN and Transformer models. Moreover, we propose a novel Symmetrical
TransFormer (STF) framework with absolute transformer blocks in the
down-sampling encoder and up-sampling decoder. Extensive experimental
evaluations have shown that the proposed method is effective and outperforms
the state-of-the-art methods. The code is publicly available at
https://github.com/Googolxx/STF.
- Abstract(参考訳): 学習した画像圧縮手法は、従来の画像圧縮基準よりも高いレートゆらぎ性能を示した。
既存の学習画像圧縮モデルは畳み込みニューラルネットワーク(CNN)に基づいている。
多大な貢献にもかかわらず、cnnベースのモデルの主な欠点は、その構造が局所的な冗長性、特に非反復的なテクスチャを捉えるために設計されていないことである。
したがって、グローバルな構造と局所的なテクスチャをフル活用する方法が、学習に基づく画像圧縮のコアとなる。
視覚トランスフォーマー (vit) とスウィントランス (swin transformer) の最近の進歩に触発されて, 局所的注意機構とグローバルな特徴学習を組み合わせることで, 画像圧縮の期待を満たせることがわかった。
本稿では,まず,複数種類の注意機構が局所特徴学習に与える影響を広範囲に研究し,さらに,より単純かつ効果的なウィンドウベース局所注意ブロックを導入する。
提案されたウィンドウベースの注意は非常に柔軟であり、cnnおよびトランスフォーマーモデルを強化するためのプラグ・アンド・プレイコンポーネントとして機能する。
さらに,ダウンサンプリングエンコーダとアップサンプリングデコーダに絶対トランスフォーマブロックを持つ,新しい対称トランスフォーマ(stf)フレームワークを提案する。
広範な実験評価により,提案手法の有効性が示され,最先端手法を上回っている。
コードはhttps://github.com/googolxx/stfで公開されている。
関連論文リスト
- Enhancing Learned Image Compression via Cross Window-based Attention [4.673285689826945]
特徴符号化モジュールと統合したCNNベースのソリューションを提案する。
クロススケールウィンドウベースアテンションは、変換器のアテンション機構にインスパイアされ、受容場を効果的に拡大する。
提案手法はKodakおよびCLICデータセット上で評価し,提案手法が有効であり,最先端手法と同等であることを示す。
論文 参考訳(メタデータ) (2024-10-28T15:44:35Z) - Exploiting Inter-Image Similarity Prior for Low-Bitrate Remote Sensing Image Compression [10.427300958330816]
生成された離散コードブックを用いたコードブックベースのRS画像圧縮(Code-RSIC)手法を提案する。
このコードは、知覚品質の観点から、最先端の伝統と学習に基づく画像圧縮アルゴリズムを著しく上回っている。
論文 参考訳(メタデータ) (2024-07-17T03:33:16Z) - Transferable Learned Image Compression-Resistant Adversarial Perturbations [66.46470251521947]
敵対的攻撃は容易に画像分類システムを破壊し、DNNベースの認識タスクの脆弱性を明らかにする。
我々は、学習した画像圧縮機を前処理モジュールとして利用する画像分類モデルをターゲットにした新しいパイプラインを提案する。
論文 参考訳(メタデータ) (2024-01-06T03:03:28Z) - Image Compression using only Attention based Neural Networks [13.126014437648612]
クロスアテンションによりパッチ情報を集約する学習画像クエリの概念を導入し,次いで量子化と符号化手法を提案する。
我々の研究は、人気のあるKodak、DIV2K、CLICデータセット間の畳み込みのないアーキテクチャによって達成された競合性能を示しています。
論文 参考訳(メタデータ) (2023-10-17T13:38:38Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Accurate Image Restoration with Attention Retractable Transformer [50.05204240159985]
画像復元のためのアテンション・リトラクタブル・トランス (ART) を提案する。
ARTはネットワーク内の密集モジュールと疎開モジュールの両方を提示する。
画像超解像、デノナイジング、JPEG圧縮アーティファクト削減タスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-10-04T07:35:01Z) - Towards End-to-End Image Compression and Analysis with Transformers [99.50111380056043]
本稿では,クラウドベースの画像分類アプリケーションを対象として,トランスフォーマーを用いたエンドツーエンドの画像圧縮解析モデルを提案する。
我々は、圧縮された特徴から画像分類を行うためにビジョントランスフォーマー(ViT)モデルを再設計し、トランスフォーマーからの長期情報を用いて画像圧縮を容易にすることを目指している。
画像圧縮と分類作業の両方において,提案モデルの有効性を示す実験結果が得られた。
論文 参考訳(メタデータ) (2021-12-17T03:28:14Z) - Implicit Neural Representations for Image Compression [103.78615661013623]
Inlicit Neural Representations (INRs) は、様々なデータ型の新規かつ効果的な表現として注目されている。
量子化、量子化を考慮した再学習、エントロピー符号化を含むINRに基づく最初の包括的圧縮パイプラインを提案する。
我々は、INRによるソース圧縮に対する我々のアプローチが、同様の以前の作業よりも大幅に優れていることに気付きました。
論文 参考訳(メタデータ) (2021-12-08T13:02:53Z) - Joint Global and Local Hierarchical Priors for Learned Image Compression [30.44884350320053]
近年,従来の手書き画像コーデックと比較して,学習画像圧縮法の性能が向上している。
本稿では,ローカル情報とグローバル情報の両方をコンテンツに依存した方法で活用する,情報変換(Information Transformer, Informer)と呼ばれる新しいエントロピーモデルを提案する。
実験により,Informer はKodak および Tecnick データセットの最先端手法よりも速度歪み性能が向上することを示した。
論文 参考訳(メタデータ) (2021-12-08T06:17:37Z) - Enhanced Invertible Encoding for Learned Image Compression [40.21904131503064]
本稿では,改良されたインバーチブルを提案する。
非可逆ニューラルネットワーク(INN)によるネットワークは、情報損失問題を大幅に軽減し、圧縮性を向上する。
Kodak, CLIC, Tecnick のデータセットによる実験結果から,本手法は既存の学習画像圧縮法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-08-08T17:32:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。