論文の概要: Linear Attention Modeling for Learned Image Compression
- arxiv url: http://arxiv.org/abs/2502.05741v2
- Date: Sat, 22 Mar 2025 17:16:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:29:46.908878
- Title: Linear Attention Modeling for Learned Image Compression
- Title(参考訳): 学習画像圧縮のための線形アテンションモデリング
- Authors: Donghui Feng, Zhengxue Cheng, Shen Wang, Ronghua Wu, Hongwei Hu, Guo Lu, Li Song,
- Abstract要約: 実験により,VTM-9.1を15.26%,-15.41%,-17.63%,Kodak,CLIC,TecnickのBDレートで上回り,競合RD性能を実現した。
- 参考スコア(独自算出の注目度): 20.691429578976763
- License:
- Abstract: Recent years, learned image compression has made tremendous progress to achieve impressive coding efficiency. Its coding gain mainly comes from non-linear neural network-based transform and learnable entropy modeling. However, most studies focus on a strong backbone, and few studies consider a low complexity design. In this paper, we propose LALIC, a linear attention modeling for learned image compression. Specially, we propose to use Bi-RWKV blocks, by utilizing the Spatial Mix and Channel Mix modules to achieve more compact feature extraction, and apply the Conv based Omni-Shift module to adapt to two-dimensional latent representation. Furthermore, we propose a RWKV-based Spatial-Channel ConTeXt model (RWKV-SCCTX), that leverages the Bi-RWKV to modeling the correlation between neighboring features effectively. To our knowledge, our work is the first work to utilize efficient Bi-RWKV models with linear attention for learned image compression. Experimental results demonstrate that our method achieves competitive RD performances by outperforming VTM-9.1 by -15.26%, -15.41%, -17.63% in BD-rate on Kodak, CLIC and Tecnick datasets. The code is available at https://github.com/sjtu-medialab/RwkvCompress .
- Abstract(参考訳): 近年、学習した画像圧縮は、印象的な符号化効率を達成するために大きな進歩を遂げている。
そのコーディングの利益は主に非線形ニューラルネットワークベースの変換と学習可能なエントロピーモデリングから得られる。
しかし、ほとんどの研究は強力なバックボーンに焦点を合わせており、低い複雑さの設計を考える研究はほとんどない。
本稿では,学習画像圧縮のための線形アテンションモデルであるLALICを提案する。
具体的には、よりコンパクトな特徴抽出を実現するためにSpatial MixおよびChannel Mixモジュールを利用するBi-RWKVブロックを提案し、ConvベースのOmni-Shiftモジュールを2次元潜在表現に適用する。
さらに,隣接する特徴間の相関を効果的にモデル化するためにBi-RWKVを利用するRWKVベースのSpatial-Channel ConTeXtモデル(RWKV-SCCTX)を提案する。
我々の知る限り、我々の研究は、学習画像圧縮に線形注意を伴う効率的なBi-RWKVモデルを活用するための最初の取り組みである。
実験の結果,VTM-9.1を15.26%,-15.41%,-17.63%,Kodak,CLIC,TecnickのBDレートで上回り,競争力のあるRD性能を実現することができた。
コードはhttps://github.com/sjtu-medialab/RwkvCompressで入手できる。
関連論文リスト
- Exploring Real&Synthetic Dataset and Linear Attention in Image Restoration [47.26304397935705]
画像復元は、劣化した入力から高品質な画像を復元することを目的としている。
既存のメソッドにはイテレーションと設定のための統一的なトレーニングベンチマークがない。
本稿では,画像複雑性に基づいた新しい画像フィルタリング手法であるReSynという大規模IRデータセットを提案する。
論文 参考訳(メタデータ) (2024-12-05T02:11:51Z) - HAT: Hybrid Attention Transformer for Image Restoration [61.74223315807691]
トランスフォーマーに基づく手法は、画像の超解像や復調といった画像復元タスクにおいて顕著な性能を示している。
本稿では,新たなHAT(Hybrid Attention Transformer)を提案する。
我々のHATは,定量的かつ定性的に,最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-09-11T05:17:55Z) - Efficient Contextformer: Spatio-Channel Window Attention for Fast
Context Modeling in Learned Image Compression [1.9249287163937978]
学習画像に対する変換器に基づく自己回帰的文脈モデルである、効率的なコンテキストフォーマ(eContextformer)を導入する。
並列コンテキストモデリングのためのパッチワイド、チェッカー、チャンネルワイドのグルーピングテクニックを融合する。
モデル複雑性が145倍、デコード速度が210Cx向上し、Kodak、CLI、Tecnickデータセット上での平均ビット節約を実現している。
論文 参考訳(メタデータ) (2023-06-25T16:29:51Z) - Learned Image Compression with Mixed Transformer-CNN Architectures [21.53261818914534]
本稿では, 並列トランスフォーマー-CNN混合ブロック(TCM)を提案する。
近年のエントロピー推定モデルとアテンションモジュールの進歩に触発されて,パラメータ効率の高いスウィントランスフォーマーに基づくアテンションを持つチャネルワイドエントロピーモデルを提案する。
実験により,提案手法が最先端の速度歪み性能を実現することを示す。
論文 参考訳(メタデータ) (2023-03-27T08:19:01Z) - ELIC: Efficient Learned Image Compression with Unevenly Grouped
Space-Channel Contextual Adaptive Coding [9.908820641439368]
本研究では,最先端の速度と圧縮能力を実現するための効率的なモデルであるELICを提案する。
優れたパフォーマンスで、提案モデルは極めて高速なプレビューデコーディングとプログレッシブデコーディングもサポートする。
論文 参考訳(メタデータ) (2022-03-21T11:19:50Z) - Implicit Neural Representations for Image Compression [103.78615661013623]
Inlicit Neural Representations (INRs) は、様々なデータ型の新規かつ効果的な表現として注目されている。
量子化、量子化を考慮した再学習、エントロピー符号化を含むINRに基づく最初の包括的圧縮パイプラインを提案する。
我々は、INRによるソース圧縮に対する我々のアプローチが、同様の以前の作業よりも大幅に優れていることに気付きました。
論文 参考訳(メタデータ) (2021-12-08T13:02:53Z) - OSLO: On-the-Sphere Learning for Omnidirectional images and its
application to 360-degree image compression [59.58879331876508]
全方向画像の表現モデルの学習について検討し、全方向画像の深層学習モデルで使用される数学的ツールを再定義するために、HEALPixの球面一様サンプリングの特性を利用することを提案する。
提案したオン・ザ・スフィア・ソリューションは、等方形画像に適用された類似の学習モデルと比較して、13.7%のビットレートを節約できる圧縮ゲインを向上させる。
論文 参考訳(メタデータ) (2021-07-19T22:14:30Z) - Learned Image Compression with Gaussian-Laplacian-Logistic Mixture Model
and Concatenated Residual Modules [22.818632387206257]
学習画像圧縮の2つの重要な要素は、潜在表現のエントロピーモデルと符号化/復号化ネットワークアーキテクチャである。
本稿では,よりフレキシブルなガウス・ラプラシア・ロジスティック混合モデル(GLLMM)を提案する。
符号化/復号化ネットワーク設計部では、複数の残差ブロックを追加のショートカット接続で直列接続する残差ブロック(CRB)を提案する。
論文 参考訳(メタデータ) (2021-07-14T02:54:22Z) - Collaborative Distillation for Ultra-Resolution Universal Style Transfer [71.18194557949634]
本稿では,エンコーダ-デコーダを用いたニューラルスタイル変換のための新しい知識蒸留法(コラボレーティブ蒸留)を提案する。
12GBのGPUで、初めて超高解像度(40メガピクセル以上)のユニバーサルなスタイル転送を実現しました。
論文 参考訳(メタデータ) (2020-03-18T18:59:31Z) - Learning End-to-End Lossy Image Compression: A Benchmark [90.35363142246806]
まず,学習した画像の圧縮方法に関する総合的な文献調査を行う。
本稿では,最先端の学習画像圧縮手法のマイルストーンについて述べるとともに,既存の幅広い作品について概観し,その歴史的開発ルートについて考察する。
エントロピー推定と信号再構成のための粗大な超高次モデルを導入することにより、速度歪み性能の向上を実現する。
論文 参考訳(メタデータ) (2020-02-10T13:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。