Fugu-MT 論文翻訳(概要): Linear Attention Modeling for Learned Image Compression

論文の概要: Linear Attention Modeling for Learned Image Compression

arxiv url: http://arxiv.org/abs/2502.05741v2
Date: Sat, 22 Mar 2025 17:16:31 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-25 16:32:16.479603
Title: Linear Attention Modeling for Learned Image Compression
Title（参考訳）: 学習画像圧縮のための線形アテンションモデリング
Authors: Donghui Feng, Zhengxue Cheng, Shen Wang, Ronghua Wu, Hongwei Hu, Guo Lu, Li Song,
Abstract要約: 実験により,VTM-9.1を15.26%,-15.41%,-17.63%,Kodak,CLIC,TecnickのBDレートで上回り,競合RD性能を実現した。
参考スコア（独自算出の注目度）: 20.691429578976763
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent years, learned image compression has made tremendous progress to achieve impressive coding efficiency. Its coding gain mainly comes from non-linear neural network-based transform and learnable entropy modeling. However, most studies focus on a strong backbone, and few studies consider a low complexity design. In this paper, we propose LALIC, a linear attention modeling for learned image compression. Specially, we propose to use Bi-RWKV blocks, by utilizing the Spatial Mix and Channel Mix modules to achieve more compact feature extraction, and apply the Conv based Omni-Shift module to adapt to two-dimensional latent representation. Furthermore, we propose a RWKV-based Spatial-Channel ConTeXt model (RWKV-SCCTX), that leverages the Bi-RWKV to modeling the correlation between neighboring features effectively. To our knowledge, our work is the first work to utilize efficient Bi-RWKV models with linear attention for learned image compression. Experimental results demonstrate that our method achieves competitive RD performances by outperforming VTM-9.1 by -15.26%, -15.41%, -17.63% in BD-rate on Kodak, CLIC and Tecnick datasets. The code is available at https://github.com/sjtu-medialab/RwkvCompress .
Abstract（参考訳）: 近年、学習した画像圧縮は、印象的な符号化効率を達成するために大きな進歩を遂げている。そのコーディングの利益は主に非線形ニューラルネットワークベースの変換と学習可能なエントロピーモデリングから得られる。しかし、ほとんどの研究は強力なバックボーンに焦点を合わせており、低い複雑さの設計を考える研究はほとんどない。本稿では,学習画像圧縮のための線形アテンションモデルであるLALICを提案する。具体的には、よりコンパクトな特徴抽出を実現するためにSpatial MixおよびChannel Mixモジュールを利用するBi-RWKVブロックを提案し、ConvベースのOmni-Shiftモジュールを2次元潜在表現に適用する。さらに,隣接する特徴間の相関を効果的にモデル化するためにBi-RWKVを利用するRWKVベースのSpatial-Channel ConTeXtモデル(RWKV-SCCTX)を提案する。我々の知る限り、我々の研究は、学習画像圧縮に線形注意を伴う効率的なBi-RWKVモデルを活用するための最初の取り組みである。実験の結果,VTM-9.1を15.26%,-15.41%,-17.63%,Kodak,CLIC,TecnickのBDレートで上回り,競争力のあるRD性能を実現することができた。コードはhttps://github.com/sjtu-medialab/RwkvCompressで入手できる。

関連論文リスト

Multi-Scale Invertible Neural Network for Wide-Range Variable-Rate Learned Image Compression [90.59962443790593]
本稿では,制限を克服するために,可逆変換に基づく可変レート画像圧縮モデルを提案する。具体的には、入力画像をマルチスケールの潜在表現にマッピングする、軽量なマルチスケール非可逆ニューラルネットワークを設計する。実験結果から,提案手法は既存の可変レート法と比較して最先端性能を実現することが示された。
論文参考訳（メタデータ） (2025-03-27T09:08:39Z)
Exploring Real&Synthetic Dataset and Linear Attention in Image Restoration [47.26304397935705]
画像復元は、劣化した入力から高品質な画像を復元することを目的としている。既存のメソッドにはイテレーションと設定のための統一的なトレーニングベンチマークがない。本稿では,画像複雑性に基づいた新しい画像フィルタリング手法であるReSynという大規模IRデータセットを提案する。
論文参考訳（メタデータ） (2024-12-05T02:11:51Z)
HAT: Hybrid Attention Transformer for Image Restoration [61.74223315807691]
トランスフォーマーに基づく手法は、画像の超解像や復調といった画像復元タスクにおいて顕著な性能を示している。本稿では,新たなHAT(Hybrid Attention Transformer)を提案する。我々のHATは,定量的かつ定性的に,最先端の性能を達成する。
論文参考訳（メタデータ） (2023-09-11T05:17:55Z)
Efficient Contextformer: Spatio-Channel Window Attention for Fast Context Modeling in Learned Image Compression [1.9249287163937978]
学習画像に対する変換器に基づく自己回帰的文脈モデルである、効率的なコンテキストフォーマ(eContextformer)を導入する。並列コンテキストモデリングのためのパッチワイド、チェッカー、チャンネルワイドのグルーピングテクニックを融合する。モデル複雑性が145倍、デコード速度が210Cx向上し、Kodak、CLI、Tecnickデータセット上での平均ビット節約を実現している。
論文参考訳（メタデータ） (2023-06-25T16:29:51Z)
Learned Image Compression with Mixed Transformer-CNN Architectures [21.53261818914534]
本稿では, 並列トランスフォーマー-CNN混合ブロック(TCM)を提案する。近年のエントロピー推定モデルとアテンションモジュールの進歩に触発されて,パラメータ効率の高いスウィントランスフォーマーに基づくアテンションを持つチャネルワイドエントロピーモデルを提案する。実験により,提案手法が最先端の速度歪み性能を実現することを示す。
論文参考訳（メタデータ） (2023-03-27T08:19:01Z)
The Devil Is in the Details: Window-based Attention for Image Compression [58.1577742463617]
既存の学習画像圧縮モデルは畳み込みニューラルネットワーク(CNN)に基づいている。本稿では,複数種類の注意機構が局所特徴学習に与える影響について検討し,より単純で効果的なウィンドウベースの局所的注意ブロックを提案する。提案されたウィンドウベースのアテンションは非常に柔軟で、CNNとTransformerモデルを強化するためのプラグイン・アンド・プレイコンポーネントとして機能する可能性がある。
論文参考訳（メタデータ） (2022-03-16T07:55:49Z)
Neural Data-Dependent Transform for Learned Image Compression [72.86505042102155]
ニューラルデータに依存した変換を構築し,各画像の符号化効率を最適化する連続オンラインモード決定機構を導入する。実験の結果,提案したニューラルシンタクス設計と連続オンラインモード決定機構の有効性が示された。
論文参考訳（メタデータ） (2022-03-09T14:56:48Z)
Implicit Neural Representations for Image Compression [103.78615661013623]
Inlicit Neural Representations (INRs) は、様々なデータ型の新規かつ効果的な表現として注目されている。量子化、量子化を考慮した再学習、エントロピー符号化を含むINRに基づく最初の包括的圧縮パイプラインを提案する。我々は、INRによるソース圧縮に対する我々のアプローチが、同様の以前の作業よりも大幅に優れていることに気付きました。
論文参考訳（メタデータ） (2021-12-08T13:02:53Z)
Enhanced Invertible Encoding for Learned Image Compression [40.21904131503064]
本稿では,改良されたインバーチブルを提案する。非可逆ニューラルネットワーク(INN)によるネットワークは、情報損失問題を大幅に軽減し、圧縮性を向上する。 Kodak, CLIC, Tecnick のデータセットによる実験結果から,本手法は既存の学習画像圧縮法よりも優れていることがわかった。
論文参考訳（メタデータ） (2021-08-08T17:32:10Z)
OSLO: On-the-Sphere Learning for Omnidirectional images and its application to 360-degree image compression [59.58879331876508]
全方向画像の表現モデルの学習について検討し、全方向画像の深層学習モデルで使用される数学的ツールを再定義するために、HEALPixの球面一様サンプリングの特性を利用することを提案する。提案したオン・ザ・スフィア・ソリューションは、等方形画像に適用された類似の学習モデルと比較して、13.7%のビットレートを節約できる圧縮ゲインを向上させる。
論文参考訳（メタデータ） (2021-07-19T22:14:30Z)
Learned Image Compression with Gaussian-Laplacian-Logistic Mixture Model and Concatenated Residual Modules [22.818632387206257]
学習画像圧縮の2つの重要な要素は、潜在表現のエントロピーモデルと符号化/復号化ネットワークアーキテクチャである。本稿では,よりフレキシブルなガウス・ラプラシア・ロジスティック混合モデル(GLLMM)を提案する。符号化/復号化ネットワーク設計部では、複数の残差ブロックを追加のショートカット接続で直列接続する残差ブロック(CRB)を提案する。
論文参考訳（メタデータ） (2021-07-14T02:54:22Z)
Collaborative Distillation for Ultra-Resolution Universal Style Transfer [71.18194557949634]
本稿では,エンコーダ-デコーダを用いたニューラルスタイル変換のための新しい知識蒸留法(コラボレーティブ蒸留)を提案する。 12GBのGPUで、初めて超高解像度(40メガピクセル以上)のユニバーサルなスタイル転送を実現しました。
論文参考訳（メタデータ） (2020-03-18T18:59:31Z)
Learning End-to-End Lossy Image Compression: A Benchmark [90.35363142246806]
まず,学習した画像の圧縮方法に関する総合的な文献調査を行う。本稿では,最先端の学習画像圧縮手法のマイルストーンについて述べるとともに,既存の幅広い作品について概観し,その歴史的開発ルートについて考察する。エントロピー推定と信号再構成のための粗大な超高次モデルを導入することにより、速度歪み性能の向上を実現する。
論文参考訳（メタデータ） (2020-02-10T13:13:43Z)
A Unified End-to-End Framework for Efficient Deep Image Compression [35.156677716140635]
本稿では,3つの新しい技術に基づくEDIC(Efficient Deep Image Compression)という統合フレームワークを提案する。具体的には、学習に基づく画像圧縮のためのオートエンコーダスタイルのネットワークを設計する。 EDIC法は,映像圧縮性能を向上させるために,Deep Video Compression (DVC) フレームワークに容易に組み込むことができる。
論文参考訳（メタデータ） (2020-02-09T14:21:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。