Fugu-MT 論文翻訳(概要): Learned Image Compression with Mixed Transformer-CNN Architectures

論文の概要: Learned Image Compression with Mixed Transformer-CNN Architectures

arxiv url: http://arxiv.org/abs/2303.14978v1
Date: Mon, 27 Mar 2023 08:19:01 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-28 16:27:16.756160
Title: Learned Image Compression with Mixed Transformer-CNN Architectures
Title（参考訳）: 混合トランス-CNNアーキテクチャを用いた学習画像圧縮
Authors: Jinming Liu, Heming Sun, Jiro Katto
Abstract要約: 本稿では, 並列トランスフォーマー-CNN混合ブロック(TCM)を提案する。近年のエントロピー推定モデルとアテンションモジュールの進歩に触発されて,パラメータ効率の高いスウィントランスフォーマーに基づくアテンションを持つチャネルワイドエントロピーモデルを提案する。実験により,提案手法が最先端の速度歪み性能を実現することを示す。
参考スコア（独自算出の注目度）: 21.53261818914534
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Learned image compression (LIC) methods have exhibited promising progress and superior rate-distortion performance compared with classical image compression standards. Most existing LIC methods are Convolutional Neural Networks-based (CNN-based) or Transformer-based, which have different advantages. Exploiting both advantages is a point worth exploring, which has two challenges: 1) how to effectively fuse the two methods? 2) how to achieve higher performance with a suitable complexity? In this paper, we propose an efficient parallel Transformer-CNN Mixture (TCM) block with a controllable complexity to incorporate the local modeling ability of CNN and the non-local modeling ability of transformers to improve the overall architecture of image compression models. Besides, inspired by the recent progress of entropy estimation models and attention modules, we propose a channel-wise entropy model with parameter-efficient swin-transformer-based attention (SWAtten) modules by using channel squeezing. Experimental results demonstrate our proposed method achieves state-of-the-art rate-distortion performances on three different resolution datasets (i.e., Kodak, Tecnick, CLIC Professional Validation) compared to existing LIC methods. The code is at https://github.com/jmliu206/LIC_TCM.
Abstract（参考訳）: 学習画像圧縮(lic)法は,従来の画像圧縮標準と比較して,将来的な進歩と速度歪み性能を示した。既存のlicメソッドの多くは、畳み込みニューラルネットワーク(CNNベース)またはTransformerベースである。両方のメリットをエクスプロイトすることは、探究する価値のあるポイントであり、2つの課題があります。 1) 2つの手法を効果的に融合する方法? 2) 適切な複雑さでより高いパフォーマンスを実現するには? 本稿では,CNNの局所モデリング能力とトランスフォーマーの非局所モデリング能力を取り入れ,画像圧縮モデルの全体構造を改善するために,制御可能な複雑性を有する並列トランスフォーマー-CNN混合(TCM)ブロックを提案する。さらに,近年のエントロピー推定モデルとアテンションモジュールの進歩に触発されて,パラメータ効率の高いスウィントランスフォーマーベースアテンション(SWAtten)モジュールを用いたチャネルワイドエントロピーモデルを提案する。提案手法は,既存のlic手法と比較して,3種類の解像度データセット(Kodak,Tecnick,CLIC Professional Validation)における最先端の速度歪み特性を実証した。コードはhttps://github.com/jmliu206/lic_tcm。

関連論文リスト

Multi-Scale Invertible Neural Network for Wide-Range Variable-Rate Learned Image Compression [90.59962443790593]
本稿では,制限を克服するために,可逆変換に基づく可変レート画像圧縮モデルを提案する。具体的には、入力画像をマルチスケールの潜在表現にマッピングする、軽量なマルチスケール非可逆ニューラルネットワークを設計する。実験結果から,提案手法は既存の可変レート法と比較して最先端性能を実現することが示された。
論文参考訳（メタデータ） (2025-03-27T09:08:39Z)
S2CFormer: Revisiting the RD-Latency Trade-off in Transformer-based Learned Image Compression [26.920782099405915]
TransformerベースのLearned Image Compression(lic)は、デコードレイテンシとレート歪み(R-D)パフォーマンスの中間的なトレードオフに悩まされる。本研究は, 複雑かつ時間を要する空間的操作よりも効率的なチャネル集約が, 競争力のあるコンカレントモデルの実現の鍵であることを明らかにする。
論文参考訳（メタデータ） (2025-02-02T07:15:51Z)
Bi-Level Spatial and Channel-aware Transformer for Learned Image Compression [0.0]
本稿では,特徴マップ内の周波数成分を考慮したトランスフォーマーに基づく画像圧縮手法を提案する。本手法は,空間ベース分岐が高周波数と低周波数を独立に扱うHSCATB(Hybrid Space-Channel Attention Transformer Block)を統合した。また、トランスフォーマーブロック内にMLGFFN(Mixed Local-Global Feed Forward Network)を導入し、多様な情報とリッチな情報の抽出を強化する。
論文参考訳（メタデータ） (2024-08-07T15:35:25Z)
Efficient Contextformer: Spatio-Channel Window Attention for Fast Context Modeling in Learned Image Compression [1.9249287163937978]
学習画像に対する変換器に基づく自己回帰的文脈モデルである、効率的なコンテキストフォーマ(eContextformer)を導入する。並列コンテキストモデリングのためのパッチワイド、チェッカー、チャンネルワイドのグルーピングテクニックを融合する。モデル複雑性が145倍、デコード速度が210Cx向上し、Kodak、CLI、Tecnickデータセット上での平均ビット節約を実現している。
論文参考訳（メタデータ） (2023-06-25T16:29:51Z)
Exploring Effective Mask Sampling Modeling for Neural Image Compression [171.35596121939238]
既存のニューラルイメージ圧縮手法の多くは、空間的冗長性を排除するために、ハイパープライアモデルやコンテキストモデルからのサイド情報に依存している。近年の自然言語処理と高次視覚のための自己教師付き学習手法におけるマスクサンプリングモデルに着想を得て,ニューラル画像圧縮のための新しい事前学習戦略を提案する。提案手法は,最先端画像圧縮法と比較して計算複雑性の低い競合性能を実現する。
論文参考訳（メタデータ） (2023-06-09T06:50:20Z)
Spatially-Adaptive Feature Modulation for Efficient Image Super-Resolution [90.16462805389943]
視覚変換器(ViT)のようなブロック上に,空間適応型特徴変調(SAFM)機構を開発する。提案法は最先端のSR法よりも3倍程度小さい。
論文参考訳（メタデータ） (2023-02-27T14:19:31Z)
High-Fidelity Variable-Rate Image Compression via Invertible Activation Transformation [24.379052026260034]
Invertible Activation Transformation (IAT) モジュールを提案する。 IATとQLevelは、画像圧縮モデルに、画像の忠実さを良く保ちながら、細かな可変レート制御能力を与える。提案手法は,特に複数再符号化後に,最先端の可変レート画像圧縮法よりも大きなマージンで性能を向上する。
論文参考訳（メタデータ） (2022-09-12T07:14:07Z)
The Devil Is in the Details: Window-based Attention for Image Compression [58.1577742463617]
既存の学習画像圧縮モデルは畳み込みニューラルネットワーク(CNN)に基づいている。本稿では,複数種類の注意機構が局所特徴学習に与える影響について検討し,より単純で効果的なウィンドウベースの局所的注意ブロックを提案する。提案されたウィンドウベースのアテンションは非常に柔軟で、CNNとTransformerモデルを強化するためのプラグイン・アンド・プレイコンポーネントとして機能する可能性がある。
論文参考訳（メタデータ） (2022-03-16T07:55:49Z)
Neural Data-Dependent Transform for Learned Image Compression [72.86505042102155]
ニューラルデータに依存した変換を構築し,各画像の符号化効率を最適化する連続オンラインモード決定機構を導入する。実験の結果,提案したニューラルシンタクス設計と連続オンラインモード決定機構の有効性が示された。
論文参考訳（メタデータ） (2022-03-09T14:56:48Z)
CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文参考訳（メタデータ） (2021-12-31T04:37:11Z)
Learned Image Compression with Gaussian-Laplacian-Logistic Mixture Model and Concatenated Residual Modules [22.818632387206257]
学習画像圧縮の2つの重要な要素は、潜在表現のエントロピーモデルと符号化/復号化ネットワークアーキテクチャである。本稿では,よりフレキシブルなガウス・ラプラシア・ロジスティック混合モデル(GLLMM)を提案する。符号化/復号化ネットワーク設計部では、複数の残差ブロックを追加のショートカット接続で直列接続する残差ブロック(CRB)を提案する。
論文参考訳（メタデータ） (2021-07-14T02:54:22Z)
Learning End-to-End Lossy Image Compression: A Benchmark [90.35363142246806]
まず,学習した画像の圧縮方法に関する総合的な文献調査を行う。本稿では,最先端の学習画像圧縮手法のマイルストーンについて述べるとともに,既存の幅広い作品について概観し,その歴史的開発ルートについて考察する。エントロピー推定と信号再構成のための粗大な超高次モデルを導入することにより、速度歪み性能の向上を実現する。
論文参考訳（メタデータ） (2020-02-10T13:13:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。