論文の概要: SLIC: Self-Conditioned Adaptive Transform with Large-Scale Receptive
Fields for Learned Image Compression
- arxiv url: http://arxiv.org/abs/2304.09571v1
- Date: Wed, 19 Apr 2023 11:19:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-20 14:52:05.251446
- Title: SLIC: Self-Conditioned Adaptive Transform with Large-Scale Receptive
Fields for Learned Image Compression
- Title(参考訳): SLIC:学習画像圧縮のための大規模受容場を持つ自己整合適応変換
- Authors: Wei Jiang, Peirong Ning and Ronggang Wang
- Abstract要約: また、CNNベースのモジュールは動的であり、大きな受容場を持つことができる。
CNNベースのモジュールはGDN/IGDNでも動作する。
提案したSLICは,コダックデータセットのPSNRにおいて,VVCよりも6.35%のBDレート低減を実現している。
- 参考スコア(独自算出の注目度): 16.173583505483272
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learned image compression has achieved remarkable performance. Transform,
plays an important role in boosting the RD performance. Analysis transform
converts the input image to a compact latent representation. The more compact
the latent representation is, the fewer bits we need to compress it. When
designing better transform, some previous works adopt Swin-Transformer. The
success of the Swin-Transformer in image compression can be attributed to the
dynamic weights and large receptive field.However,the LayerNorm adopted in
transformers is not suitable for image compression.We find CNN-based modules
can also be dynamic and have large receptive-fields. The CNN-based modules can
also work with GDN/IGDN. To make the CNN-based modules dynamic, we generate the
weights of kernels conditioned on the input feature. We scale up the size of
each kernel for larger receptive fields. To reduce complexity, we make the
CNN-module channel-wise connected. We call this module Dynamic Depth-wise
convolution. We replace the self-attention module with the proposed Dynamic
Depth-wise convolution, replace the embedding layer with a depth-wise residual
bottleneck for non-linearity and replace the FFN layer with an inverted
residual bottleneck for more interactions in the spatial domain. The
interactions among channels of dynamic depth-wise convolution are limited. We
design the other block, which replaces the dynamic depth-wise convolution with
channel attention. We equip the proposed modules in the analysis and synthesis
transform and receive a more compact latent representation and propose the
learned image compression model SLIC, meaning Self-Conditioned Adaptive
Transform with Large-Scale Receptive Fields for Learned Image Compression
Learned Image Compression. Thanks to the proposed transform modules, our
proposed SLIC achieves 6.35% BD-rate reduction over VVC when measured in PSNR
on Kodak dataset.
- Abstract(参考訳): 学習された画像圧縮は素晴らしい性能を達成した。
TransformはRDのパフォーマンス向上に重要な役割を果たします。
解析変換は入力画像をコンパクトな潜在表現に変換する。
潜在表現がコンパクトであるほど、圧縮するために必要なビットは少なくなります。
より良いトランスフォーメーションを設計する際、以前の作品ではSwin-Transformerを採用していた。
画像圧縮におけるスウィン変換器の成功は、動的重みと大きな受容場に起因する可能性があるが、トランスフォーマーで採用されている層ノルムは画像圧縮には適していない。
CNNベースのモジュールはGDN/IGDNでも動作する。
CNNベースのモジュールを動的にするために、入力機能に条件付けされたカーネルの重みを生成する。
我々は、より大きな受容体のために各カーネルのサイズを拡大する。
複雑性を低減するため、CNNモジュールをチャネルワイズで接続する。
このモジュールをDynamic Depth-wise convolutionと呼びます。
自己付着モジュールを動的深さ方向畳み込みに置き換え, 埋め込み層を非線形性のための深さ方向残差ボトルネックに置き換え, ffn層を逆残差ボトルネックに置き換え, 空間領域内の相互作用を増やす。
ダイナミックディープワイド畳み込みのチャネル間の相互作用は限られている。
動的深度方向の畳み込みをチャネルアテンションに置き換える他のブロックを設計する。
提案するモジュールを解析・合成変換に装備し,よりコンパクトな潜在表現を受け取り,学習画像圧縮のための大規模受容場を有する自己条件適応変換であるlearned image compression model slicを提案する。
提案したトランスフォーメーションモジュールにより,提案したSLICは,コダックデータセット上のPSNRで測定された場合,VVCよりも6.35%のBDレートの低減を実現している。
関連論文リスト
- Causal Context Adjustment Loss for Learned Image Compression [72.7300229848778]
近年,学習画像圧縮(lic)技術は,特にRD性能の点で従来の手法を上回りつつある。
現在の技術のほとんどは、自己回帰エントロピーモデルを備えたVAEベースで、デコードされた因果コンテキストを利用してRD性能を向上する。
本稿では,提案した因果文脈調整損失を用いて因果文脈を的確に調整する方法を初めて検討する。
論文 参考訳(メタデータ) (2024-10-07T09:08:32Z) - Effective Diffusion Transformer Architecture for Image Super-Resolution [63.254644431016345]
画像超解像のための効果的な拡散変換器(DiT-SR)を設計する。
実際には、DiT-SRは全体のU字型アーキテクチャを活用し、すべての変圧器ブロックに対して均一な等方性設計を採用する。
我々は、広く使われているAdaLNの制限を分析し、周波数適応型時間-ステップ条件付けモジュールを提案する。
論文 参考訳(メタデータ) (2024-09-29T07:14:16Z) - Multi-Context Dual Hyper-Prior Neural Image Compression [10.349258638494137]
入力画像から局所的情報と大域的情報の両方を効率的にキャプチャするトランスフォーマーに基づく非線形変換を提案する。
また、2つの異なるハイパープライヤを組み込んだ新しいエントロピーモデルを導入し、潜在表現のチャネル間および空間的依存関係をモデル化する。
実験の結果,提案するフレームワークは,速度歪み性能の観点から,最先端の手法よりも優れた性能を示すことがわかった。
論文 参考訳(メタデータ) (2023-09-19T17:44:44Z) - Dynamic Kernel-Based Adaptive Spatial Aggregation for Learned Image
Compression [63.56922682378755]
本稿では,空間アグリゲーション機能の拡張に焦点をあて,動的カーネルベースの変換符号化を提案する。
提案したアダプティブアグリゲーションはカーネルオフセットを生成し、コンテント条件付き範囲の有効な情報をキャプチャして変換を支援する。
実験により,本手法は,最先端の学習手法と比較して,3つのベンチマークにおいて高い速度歪み性能が得られることを示した。
論文 参考訳(メタデータ) (2023-08-17T01:34:51Z) - AICT: An Adaptive Image Compression Transformer [18.05997169440533]
我々は、より単純で効果的なTranformerベースのチャネルワイド自動回帰事前モデルを提案し、絶対画像圧縮変換器(ICT)を実現する。
提案したICTは、潜在表現からグローバルとローカルの両方のコンテキストをキャプチャできる。
我々は、サンドイッチのConvNeXtベースのプリ/ポストプロセッサで学習可能なスケーリングモジュールを活用し、よりコンパクトな潜在表現を正確に抽出する。
論文 参考訳(メタデータ) (2023-07-12T11:32:02Z) - Joint Hierarchical Priors and Adaptive Spatial Resolution for Efficient
Neural Image Compression [11.25130799452367]
ニューラル画像圧縮(NIC)のための絶対画像圧縮変換器(ICT)を提案する。
ICTは、潜在表現からグローバルコンテキストとローカルコンテキストの両方をキャプチャし、量子化された潜在表現の分布をパラメータ化する。
我々のフレームワークは、多目的ビデオ符号化(VVC)参照符号化(VTM-18.0)とニューラルスウィンT-ChARMに対する符号化効率とデコーダ複雑性のトレードオフを大幅に改善する。
論文 参考訳(メタデータ) (2023-07-05T13:17:14Z) - Towards Composable Distributions of Latent Space Augmentations [0.0]
本稿では、複数の拡張を簡単に組み合わせることができる潜在空間画像拡張のための構成可能なフレームワークを提案する。
我々のフレームワークは変分オートエンコーダアーキテクチャに基づいており、潜在空間自体の線形変換による拡張に新しいアプローチを採用している。
これらの特性は、特定の拡張のペアでより優れたパフォーマンスを示すが、潜在空間を他の拡張のセットに転送してパフォーマンスを変更することができる。
論文 参考訳(メタデータ) (2023-03-06T19:37:01Z) - Learned Image Compression with Generalized Octave Convolution and
Cross-Resolution Parameter Estimation [5.238765582868391]
本稿では,オクターブの畳み込みを利用して,遅延表現を高分解能 (HR) と低分解能 (LR) に分解する多分解能画像圧縮フレームワークを提案する。
実験結果から,本手法は,最先端の学習画像圧縮法と比較して,復号時間を約73.35 %,93.44 %削減できることがわかった。
論文 参考訳(メタデータ) (2022-09-07T08:21:52Z) - Cross-receptive Focused Inference Network for Lightweight Image
Super-Resolution [64.25751738088015]
トランスフォーマーに基づく手法は、単一画像超解像(SISR)タスクにおいて顕著な性能を示した。
動的に特徴を抽出するために文脈情報を組み込む必要がある変換器は無視される。
我々は,CNNとTransformerを混合したCTブロックのカスケードで構成される,軽量なクロスレセプティブ・フォーカスド・推論・ネットワーク(CFIN)を提案する。
論文 参考訳(メタデータ) (2022-07-06T16:32:29Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Image-specific Convolutional Kernel Modulation for Single Image
Super-resolution [85.09413241502209]
本稿では,新しい画像特異的畳み込み変調カーネル(IKM)を提案する。
我々は、画像や特徴のグローバルな文脈情報を利用して、畳み込みカーネルを適応的に調整するための注意重みを生成する。
単一画像超解像実験により,提案手法は最先端手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-11-16T11:05:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。