論文の概要: MRT: Learning Compact Representations with Mixed RWKV-Transformer for Extreme Image Compression
- arxiv url: http://arxiv.org/abs/2511.06717v1
- Date: Mon, 10 Nov 2025 05:23:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.087278
- Title: MRT: Learning Compact Representations with Mixed RWKV-Transformer for Extreme Image Compression
- Title(参考訳): MRT: 画像圧縮のための混合RWKV変換器を用いたコンパクト表現学習
- Authors: Han Liu, Hengyu Man, Xingtao Wang, Wenrui Li, Debin Zhao,
- Abstract要約: よりコンパクトな1次元潜在表現に画像をエンコードするMixed RWKV-Transformer (MRT) アーキテクチャを提案する。
MRTは各画像を固定サイズのウィンドウに分割し、RWKVモジュールを使用してウィンドウ間のグローバルな依存関係をキャプチャし、Transformerブロックを使用して各ウィンドウ内のローカルをモデル化する。
圧縮効率をさらに高めるため、専用RWKV圧縮モデル(RCM)を導入する。
- 参考スコア(独自算出の注目度): 31.446201901838958
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in extreme image compression have revealed that mapping pixel data into highly compact latent representations can significantly improve coding efficiency. However, most existing methods compress images into 2-D latent spaces via convolutional neural networks (CNNs) or Swin Transformers, which tend to retain substantial spatial redundancy, thereby limiting overall compression performance. In this paper, we propose a novel Mixed RWKV-Transformer (MRT) architecture that encodes images into more compact 1-D latent representations by synergistically integrating the complementary strengths of linear-attention-based RWKV and self-attention-based Transformer models. Specifically, MRT partitions each image into fixed-size windows, utilizing RWKV modules to capture global dependencies across windows and Transformer blocks to model local redundancies within each window. The hierarchical attention mechanism enables more efficient and compact representation learning in the 1-D domain. To further enhance compression efficiency, we introduce a dedicated RWKV Compression Model (RCM) tailored to the structure characteristics of the intermediate 1-D latent features in MRT. Extensive experiments on standard image compression benchmarks validate the effectiveness of our approach. The proposed MRT framework consistently achieves superior reconstruction quality at bitrates below 0.02 bits per pixel (bpp). Quantitative results based on the DISTS metric show that MRT significantly outperforms the state-of-the-art 2-D architecture GLC, achieving bitrate savings of 43.75%, 30.59% on the Kodak and CLIC2020 test datasets, respectively.
- Abstract(参考訳): 極端な画像圧縮の最近の進歩は、ピクセルデータを非常にコンパクトな潜在表現にマッピングすることで、符号化効率が大幅に向上することを示した。
しかし、既存のほとんどの方法では、画像が畳み込みニューラルネットワーク(CNN)やスウィントランスフォーマーを介して2次元の潜伏空間に圧縮されるため、空間的冗長性はかなり維持され、全体的な圧縮性能が制限される。
本稿では,線形アテンションに基づくRWKVと自己アテンションに基づくトランスフォーマーモデルの相補的強みを相乗的に統合することにより,画像をよりコンパクトな1次元潜在表現に符号化するMixed RWKV-Transformer(MRT)アーキテクチャを提案する。
具体的には、各イメージを固定サイズのウィンドウに分割し、RWKVモジュールを使用してウィンドウ間のグローバル依存関係をキャプチャし、Transformerブロックを使用して各ウィンドウ内のローカル冗長性をモデル化する。
階層的注意機構は、1-D領域におけるより効率的でコンパクトな表現学習を可能にする。
圧縮効率をさらに高めるために,MRTにおける中間1次元潜伏特性の構造特性に合わせて,専用RWKV圧縮モデル(RCM)を導入する。
標準画像圧縮ベンチマークの大規模な実験により,提案手法の有効性が検証された。
提案したMRTフレームワークは,1ピクセル当たり0.02ビット以下 (bpp) のビットレートにおいて,優れた再構成品質を実現する。
DISTS測定に基づく定量的結果は、MRTが最先端の2-Dアーキテクチャ GLC を著しく上回り、それぞれ Kodak と CLIC2020 のテストデータセットで43.75%、30.59% のビットレート節約を達成したことを示している。
関連論文リスト
- Ultra Lowrate Image Compression with Semantic Residual Coding and Compression-aware Diffusion [28.61304513668606]
ResULICは残留誘導型超低レート画像圧縮システムである。
残差信号は意味検索と拡散に基づく生成プロセスの両方に組み込む。
最先端拡散法に比べて客観的・主観的性能に優れる。
論文 参考訳(メタデータ) (2025-05-13T06:51:23Z) - Linear Attention Modeling for Learned Image Compression [20.691429578976763]
実験により,VTM-9.1を15.26%,-15.41%,-17.63%,Kodak,CLIC,TecnickのBDレートで上回り,競合RD性能を実現した。
論文 参考訳(メタデータ) (2025-02-09T01:57:17Z) - FIPER: Factorized Features for Robust Image Super-Resolution and Compression [17.542586429972765]
低レベル視覚タスクに統一表現(Factized Features)を用いることを提案する。
これらのタスク間の共通原則によって動機付けられ、細かい画像の詳細を復元し保存する必要がある。
論文 参考訳(メタデータ) (2024-10-23T17:59:57Z) - MISC: Ultra-low Bitrate Image Semantic Compression Driven by Large Multimodal Model [78.4051835615796]
本稿では,マルチモーダル画像セマンティック圧縮法を提案する。
画像の意味情報を抽出するLMMエンコーダと、その意味に対応する領域を特定するマップエンコーダと、非常に圧縮されたビットストリームを生成する画像エンコーダと、前記情報に基づいて画像を再構成するデコーダとからなる。
知覚50%を節約しながら最適な一貫性と知覚結果を達成することができ、これは次世代のストレージと通信において強力な可能性を持つ。
論文 参考訳(メタデータ) (2024-02-26T17:11:11Z) - AICT: An Adaptive Image Compression Transformer [18.05997169440533]
我々は、より単純で効果的なTranformerベースのチャネルワイド自動回帰事前モデルを提案し、絶対画像圧縮変換器(ICT)を実現する。
提案したICTは、潜在表現からグローバルとローカルの両方のコンテキストをキャプチャできる。
我々は、サンドイッチのConvNeXtベースのプリ/ポストプロセッサで学習可能なスケーリングモジュールを活用し、よりコンパクトな潜在表現を正確に抽出する。
論文 参考訳(メタデータ) (2023-07-12T11:32:02Z) - You Can Mask More For Extremely Low-Bitrate Image Compression [80.7692466922499]
近年,学習画像圧縮(lic)法は大きな進歩を遂げている。
licメソッドは、画像圧縮に不可欠な画像構造とテクスチャコンポーネントを明示的に探索することができない。
原画像の構造とテクスチャに基づいて可視パッチをサンプリングするDA-Maskを提案する。
極めて低ビットレート圧縮のために, lic と lic のエンドツーエンドを統一する最初のフレームワークである, 単純で効果的なマスク付き圧縮モデル (MCM) を提案する。
論文 参考訳(メタデータ) (2023-06-27T15:36:22Z) - Beyond Learned Metadata-based Raw Image Reconstruction [86.1667769209103]
生画像は、線形性や微細な量子化レベルなど、sRGB画像に対して明確な利点がある。
ストレージの要求が大きいため、一般ユーザからは広く採用されていない。
本稿では,メタデータとして,潜在空間におけるコンパクトな表現を学習する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-21T06:59:07Z) - Learned Image Compression with Mixed Transformer-CNN Architectures [21.53261818914534]
本稿では, 並列トランスフォーマー-CNN混合ブロック(TCM)を提案する。
近年のエントロピー推定モデルとアテンションモジュールの進歩に触発されて,パラメータ効率の高いスウィントランスフォーマーに基づくアテンションを持つチャネルワイドエントロピーモデルを提案する。
実験により,提案手法が最先端の速度歪み性能を実現することを示す。
論文 参考訳(メタデータ) (2023-03-27T08:19:01Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。