論文の概要: SLIC: Large Receptive Field Learning with Self-Conditioned Adaptability
for Learned Image Compression
- arxiv url: http://arxiv.org/abs/2304.09571v2
- Date: Mon, 14 Aug 2023 15:15:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-15 20:12:00.721217
- Title: SLIC: Large Receptive Field Learning with Self-Conditioned Adaptability
for Learned Image Compression
- Title(参考訳): SLIC:学習画像圧縮のための自己定義型適応性を持つ大規模受容場学習
- Authors: Wei Jiang, Peirong Ning, Jiayu Yang, Yongqi Zhai and Ronggang Wang
- Abstract要約: 本研究では,SLIC という学習画像圧縮のための大規模受動学習と自己条件適応性を備えた新しい変換モジュールを提案する。
具体的には、適切な複雑さで深度ワイド畳み込みの受容場を拡大し、与えられた条件に従って重みを発生させる。
SLIC-ChARM、SLIC-SCCTX、SLIC-SWAttenは、対応するベースラインよりも大幅に改善されている。
- 参考スコア(独自算出の注目度): 27.609079626457323
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, transformers are trending as replacements for CNNs in vision tasks,
including compression. This trend compels us to question the inherent
limitations of CNNs compared to transformers and to explore if CNNs can be
enhanced to achieve the same or even better performance than transformers. We
want to design a pure CNN based model for compression as most devices are
optimized for CNNs well. In our analysis, we find that the key strengths of
transformers lie in their dynamic weights and large receptive fields. To enable
CNNs with such properties, we propose a novel transform module with large
receptive filed learning and self-conditioned adaptability for learned image
compression, named SLIC. Specifically, we enlarge the receptive field of
depth-wise convolution with suitable complexity and generate the weights
according to given conditions. In addition, we also investigate the
self-conditioned factor for channels. To prove the effectiveness of our
proposed transform module, we equip it with existing entropy models ChARM,
SCCTX, and SWAtten and we obtain models SLIC-ChARM, SLIC-SCCTX, and
SLIC-SWAtten. Extensive experiments demonstrate our SLIC-ChARM, SLIC-SCCTX, and
SLIC-SWAtten have significant improvements over corresponding baselines and
achieve SOTA performances with suitable complexity on 5 test datasets (Kodak,
Tecnick, CLIC 20, CLIC 21, JPEGAI). Code will be available at
https://github.com/JiangWeibeta/SLIC.
- Abstract(参考訳): 近年、圧縮を含む視覚タスクにおけるCNNの代替としてトランスフォーマーが流行している。
この傾向は、変換器と比較してCNNの本質的な限界に疑問を呈し、変換器よりも同じあるいはより優れた性能を達成するためにCNNを拡張できるかどうかを探索するのに役立ちます。
ほとんどのデバイスがCNNに最適化されているので、圧縮のための純粋なCNNベースのモデルを設計したいと考えています。
解析の結果, 変圧器の主強みは, 動的重みと大きな受容野にあることがわかった。
このような特性を持つCNNを実現するために,SLICという学習画像圧縮のための大規模受入学習と自己条件適応性を備えたトランスフォーメーションモジュールを提案する。
具体的には, 深さ方向畳み込みの受容場を適切な複雑さで拡大し, 与えられた条件により重み付けを生成する。
また,チャネルの自己条件因子についても検討する。
提案した変換モジュールの有効性を証明するため,既存のエントロピーモデルであるChARM,SCCTX,SWAttenと組み合わせて,SLIC-ChARM,SLIC-SCCTX,SLIC-SWAttenのモデルを求める。
SLIC-ChARM、SLIC-SCCTX、SLIC-SWAttenは5つのテストデータセット(Kodak、Tecnick、CLIC 20、CLIC 21、JPEGAI)で、対応するベースラインを大幅に改善し、適切な複雑性でSOTAパフォーマンスを実現しています。
コードはhttps://github.com/JiangWeibeta/SLIC.comから入手できる。
関連論文リスト
- Causal Context Adjustment Loss for Learned Image Compression [72.7300229848778]
近年,学習画像圧縮(lic)技術は,特にRD性能の点で従来の手法を上回りつつある。
現在の技術のほとんどは、自己回帰エントロピーモデルを備えたVAEベースで、デコードされた因果コンテキストを利用してRD性能を向上する。
本稿では,提案した因果文脈調整損失を用いて因果文脈を的確に調整する方法を初めて検討する。
論文 参考訳(メタデータ) (2024-10-07T09:08:32Z) - Effective Diffusion Transformer Architecture for Image Super-Resolution [63.254644431016345]
画像超解像のための効果的な拡散変換器(DiT-SR)を設計する。
実際には、DiT-SRは全体のU字型アーキテクチャを活用し、すべての変圧器ブロックに対して均一な等方性設計を採用する。
我々は、広く使われているAdaLNの制限を分析し、周波数適応型時間-ステップ条件付けモジュールを提案する。
論文 参考訳(メタデータ) (2024-09-29T07:14:16Z) - Multi-Context Dual Hyper-Prior Neural Image Compression [10.349258638494137]
入力画像から局所的情報と大域的情報の両方を効率的にキャプチャするトランスフォーマーに基づく非線形変換を提案する。
また、2つの異なるハイパープライヤを組み込んだ新しいエントロピーモデルを導入し、潜在表現のチャネル間および空間的依存関係をモデル化する。
実験の結果,提案するフレームワークは,速度歪み性能の観点から,最先端の手法よりも優れた性能を示すことがわかった。
論文 参考訳(メタデータ) (2023-09-19T17:44:44Z) - Dynamic Kernel-Based Adaptive Spatial Aggregation for Learned Image
Compression [63.56922682378755]
本稿では,空間アグリゲーション機能の拡張に焦点をあて,動的カーネルベースの変換符号化を提案する。
提案したアダプティブアグリゲーションはカーネルオフセットを生成し、コンテント条件付き範囲の有効な情報をキャプチャして変換を支援する。
実験により,本手法は,最先端の学習手法と比較して,3つのベンチマークにおいて高い速度歪み性能が得られることを示した。
論文 参考訳(メタデータ) (2023-08-17T01:34:51Z) - AICT: An Adaptive Image Compression Transformer [18.05997169440533]
我々は、より単純で効果的なTranformerベースのチャネルワイド自動回帰事前モデルを提案し、絶対画像圧縮変換器(ICT)を実現する。
提案したICTは、潜在表現からグローバルとローカルの両方のコンテキストをキャプチャできる。
我々は、サンドイッチのConvNeXtベースのプリ/ポストプロセッサで学習可能なスケーリングモジュールを活用し、よりコンパクトな潜在表現を正確に抽出する。
論文 参考訳(メタデータ) (2023-07-12T11:32:02Z) - Joint Hierarchical Priors and Adaptive Spatial Resolution for Efficient
Neural Image Compression [11.25130799452367]
ニューラル画像圧縮(NIC)のための絶対画像圧縮変換器(ICT)を提案する。
ICTは、潜在表現からグローバルコンテキストとローカルコンテキストの両方をキャプチャし、量子化された潜在表現の分布をパラメータ化する。
我々のフレームワークは、多目的ビデオ符号化(VVC)参照符号化(VTM-18.0)とニューラルスウィンT-ChARMに対する符号化効率とデコーダ複雑性のトレードオフを大幅に改善する。
論文 参考訳(メタデータ) (2023-07-05T13:17:14Z) - Towards Composable Distributions of Latent Space Augmentations [0.0]
本稿では、複数の拡張を簡単に組み合わせることができる潜在空間画像拡張のための構成可能なフレームワークを提案する。
我々のフレームワークは変分オートエンコーダアーキテクチャに基づいており、潜在空間自体の線形変換による拡張に新しいアプローチを採用している。
これらの特性は、特定の拡張のペアでより優れたパフォーマンスを示すが、潜在空間を他の拡張のセットに転送してパフォーマンスを変更することができる。
論文 参考訳(メタデータ) (2023-03-06T19:37:01Z) - Learned Image Compression with Generalized Octave Convolution and
Cross-Resolution Parameter Estimation [5.238765582868391]
本稿では,オクターブの畳み込みを利用して,遅延表現を高分解能 (HR) と低分解能 (LR) に分解する多分解能画像圧縮フレームワークを提案する。
実験結果から,本手法は,最先端の学習画像圧縮法と比較して,復号時間を約73.35 %,93.44 %削減できることがわかった。
論文 参考訳(メタデータ) (2022-09-07T08:21:52Z) - Cross-receptive Focused Inference Network for Lightweight Image
Super-Resolution [64.25751738088015]
トランスフォーマーに基づく手法は、単一画像超解像(SISR)タスクにおいて顕著な性能を示した。
動的に特徴を抽出するために文脈情報を組み込む必要がある変換器は無視される。
我々は,CNNとTransformerを混合したCTブロックのカスケードで構成される,軽量なクロスレセプティブ・フォーカスド・推論・ネットワーク(CFIN)を提案する。
論文 参考訳(メタデータ) (2022-07-06T16:32:29Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Image-specific Convolutional Kernel Modulation for Single Image
Super-resolution [85.09413241502209]
本稿では,新しい画像特異的畳み込み変調カーネル(IKM)を提案する。
我々は、画像や特徴のグローバルな文脈情報を利用して、畳み込みカーネルを適応的に調整するための注意重みを生成する。
単一画像超解像実験により,提案手法は最先端手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-11-16T11:05:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。