論文の概要: Joint Multi-scale Gated Transformer and Prior-guided Convolutional Network for Learned Image Compression
- arxiv url: http://arxiv.org/abs/2512.00744v1
- Date: Sun, 30 Nov 2025 05:45:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.39372
- Title: Joint Multi-scale Gated Transformer and Prior-guided Convolutional Network for Learned Image Compression
- Title(参考訳): 学習画像圧縮のためのマルチスケールGated Transformerと事前誘導畳み込みネットワーク
- Authors: Zhengxin Chen, Xiaohai He, Tingrong Zhang, Shuhua Xiong, Chao Ren,
- Abstract要約: そこで本研究では,バニラ・コンボリューションの局所的特徴を抽出する能力を向上させるために,新たにPGConv(Presideed-guided Convolution)を提案する。
また,Swin-Tブロックの非局所的特徴抽出能力を向上させるために,MGT(Multi-scale gated transformer)を提案する。
以上の結果から,MGTPCNは最先端のアルゴリズムを上回る性能と複雑性のトレードオフが得られた。
- 参考スコア(独自算出の注目度): 10.916417411466846
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, learned image compression methods have made remarkable achievements, some of which have outperformed the traditional image codec VVC. The advantages of learned image compression methods over traditional image codecs can be largely attributed to their powerful nonlinear transform coding. Convolutional layers and shifted window transformer (Swin-T) blocks are the basic units of neural networks, and their representation capabilities play an important role in nonlinear transform coding. In this paper, to improve the ability of the vanilla convolution to extract local features, we propose a novel prior-guided convolution (PGConv), where asymmetric convolutions (AConvs) and difference convolutions (DConvs) are introduced to strengthen skeleton elements and extract high-frequency information, respectively. A re-parameterization strategy is also used to reduce the computational complexity of PGConv. Moreover, to improve the ability of the Swin-T block to extract non-local features, we propose a novel multi-scale gated transformer (MGT), where dilated window-based multi-head self-attention blocks with different dilation rates and depth-wise convolution layers with different kernel sizes are used to extract multi-scale features, and a gate mechanism is introduced to enhance non-linearity. Finally, we propose a novel joint Multi-scale Gated Transformer and Prior-guided Convolutional Network (MGTPCN) for learned image compression. Experimental results show that our MGTPCN surpasses state-of-the-art algorithms with a better trade-off between performance and complexity.
- Abstract(参考訳): 近年,従来の画像コーデックVVCよりも優れた画像圧縮法が注目されている。
従来の画像コーデックに比べて学習された画像圧縮手法の利点は、その強力な非線形変換符号化に起因する。
畳み込み層とシフトウインドウ変換器(Swin-T)ブロックはニューラルネットワークの基本単位であり、それらの表現能力は非線形変換符号化において重要な役割を果たす。
本稿では, 局所特徴抽出のためのバニラ畳み込みの能力を向上させるために, 非対称畳み込み (AConvs) と差分畳み込み (DConvs) を導入し, それぞれ骨格要素を強化し, 高周波情報を抽出する新しい事前誘導畳み込み (PGConvs) を提案する。
また、PGConvの計算複雑性を低減するために再パラメータ化戦略が用いられる。
さらに,非局所的な特徴を抽出するSwin-Tブロックの能力を向上させるために,異なる拡張レートのウィンドウベースマルチヘッド自己アテンションブロックと,異なるカーネルサイズを持つ深さ方向の畳み込み層を用いてマルチスケール特徴を抽出し,非直線性を高めるためのゲート機構を導入する,新しいマルチスケールゲートトランス (MGT) を提案する。
最後に,Gated Transformer と Prefer-Guided Convolutional Network (MGTPCN) を併用した画像圧縮手法を提案する。
実験の結果,MGTPCNは最先端のアルゴリズムを超越し,性能と複雑性のトレードオフが良くなった。
関連論文リスト
- Multi-Scale Invertible Neural Network for Wide-Range Variable-Rate Learned Image Compression [90.59962443790593]
本稿では,制限を克服するために,可逆変換に基づく可変レート画像圧縮モデルを提案する。
具体的には、入力画像をマルチスケールの潜在表現にマッピングする、軽量なマルチスケール非可逆ニューラルネットワークを設計する。
実験結果から,提案手法は既存の可変レート法と比較して最先端性能を実現することが示された。
論文 参考訳(メタデータ) (2025-03-27T09:08:39Z) - Variable-size Symmetry-based Graph Fourier Transforms for image compression [65.7352685872625]
可変サイズのグラフフーリエ変換を符号化フレームワークに導入する。
提案アルゴリズムは,ノード間の特定の対称接続を追加することにより,グリッド上の対称グラフを生成する。
実験により、SBGFTは、明示的な多重変換選択に統合された一次変換よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-11-24T13:00:44Z) - AICT: An Adaptive Image Compression Transformer [18.05997169440533]
我々は、より単純で効果的なTranformerベースのチャネルワイド自動回帰事前モデルを提案し、絶対画像圧縮変換器(ICT)を実現する。
提案したICTは、潜在表現からグローバルとローカルの両方のコンテキストをキャプチャできる。
我々は、サンドイッチのConvNeXtベースのプリ/ポストプロセッサで学習可能なスケーリングモジュールを活用し、よりコンパクトな潜在表現を正確に抽出する。
論文 参考訳(メタデータ) (2023-07-12T11:32:02Z) - LLIC: Large Receptive Field Transform Coding with Adaptive Weights for Learned Image Compression [27.02281402358164]
学習画像圧縮のための適応重み付き大規模受容場変換符号化を提案する。
カーネルをベースとした奥行きに関する大規模な畳み込みを導入し,複雑さを抑えながら冗長性を向上する。
我々のLLICモデルは最先端のパフォーマンスを実現し、パフォーマンスと複雑さのトレードオフを改善する。
論文 参考訳(メタデータ) (2023-04-19T11:19:10Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Towards End-to-End Image Compression and Analysis with Transformers [99.50111380056043]
本稿では,クラウドベースの画像分類アプリケーションを対象として,トランスフォーマーを用いたエンドツーエンドの画像圧縮解析モデルを提案する。
我々は、圧縮された特徴から画像分類を行うためにビジョントランスフォーマー(ViT)モデルを再設計し、トランスフォーマーからの長期情報を用いて画像圧縮を容易にすることを目指している。
画像圧縮と分類作業の両方において,提案モデルの有効性を示す実験結果が得られた。
論文 参考訳(メタデータ) (2021-12-17T03:28:14Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - Learned Multi-Resolution Variable-Rate Image Compression with
Octave-based Residual Blocks [15.308823742699039]
一般化オクターブ畳み込み(GoConv)と一般化オクターブ畳み込み(GoTConv)を用いた新しい可変レート画像圧縮フレームワークを提案する。
単一モデルが異なるビットレートで動作し、複数レートの画像特徴を学習できるようにするため、新しい目的関数が導入される。
実験結果から,H.265/HEVCベースのBPGや最先端の学習に基づく可変レート法などの標準コーデックよりも高い性能を示した。
論文 参考訳(メタデータ) (2020-12-31T06:26:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。