論文の概要: S2CFormer: Reorienting Learned Image Compression from Spatial Interaction to Channel Aggregation
- arxiv url: http://arxiv.org/abs/2502.00700v1
- Date: Sun, 02 Feb 2025 07:15:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:56:55.909495
- Title: S2CFormer: Reorienting Learned Image Compression from Spatial Interaction to Channel Aggregation
- Title(参考訳): S2CFormer: 空間的相互作用からチャネル集約への学習画像圧縮の適応
- Authors: Yunuo Chen, Qian Li, Bing He, Donghui Feng, Ronghua Wu, Qi Wang, Li Song, Guo Lu, Wenjun Zhang,
- Abstract要約: 我々はS2CFormerの2つのインスタンス(S2C-ConvとS2C-Attention)を提示する。
どちらのモデルも最先端(SOTA)のR-D性能を示し、デコード速度は大幅に高速である。
本稿では,異なるS2CFormerインスタンスの強度を組み合わせた拡張licモデルであるS2C-Hybridを紹介する。
- 参考スコア(独自算出の注目度): 26.920782099405915
- License:
- Abstract: Transformers have achieved significant success in learned image compression (LIC), with Swin Transformers emerging as the mainstream choice for nonlinear transforms. A common belief is that their sophisticated spatial operations contribute most to their efficacy. However, the crucial role of the feed-forward network (FFN) based Channel Aggregation module within the transformer architecture has been largely overlooked, and the over-design of spatial operations leads to a suboptimal trade-off between decoding latency and R-D performance. In this paper, we reevaluate the key factors behind the competence of transformers in LIC. By replacing spatial operations with identity mapping, we are surprised to find that channel operations alone can approach the R-D performance of the leading methods. This solid lower bound of performance emphasizes that the presence of channel aggregation is more essential for the LIC model to achieve competitive performance, while the previously complex spatial interactions are partly redundant. Based on this insight, we initiate the "S2CFormer" paradigm, a general architecture that reorients the focus of LIC from Spatial Interaction to Channel Aggregation. We present two instantiations of the S2CFormer: S2C-Conv, and S2C-Attention. Each one incorporates a simple operator for spatial interaction and serves as nonlinear transform blocks for our LIC models. Both models demonstrate state-of-the-art (SOTA) R-D performance and significantly faster decoding speed. These results also motivate further exploration of advanced FFN structures to enhance the R-D performance while maintaining model efficiency. With these foundations, we introduce S2C-Hybrid, an enhanced LIC model that combines the strengths of different S2CFormer instantiations. This model outperforms all the existing methods on several datasets, setting a new benchmark for efficient and high-performance LIC.
- Abstract(参考訳): 変換器は学習画像圧縮(lic)において大きな成功を収めており、非線形変換の主要な選択肢としてスウィン変換器が登場している。
一般的な信念は、その洗練された空間操作が、その有効性に最も寄与しているということである。
しかし、トランスアーキテクチャにおけるフィードフォワードネットワーク(FFN)ベースのチャネルアグリゲーションモジュールの重要な役割は概ね見過ごされ、空間演算の過度な設計は、復号遅延とR-D性能の中間的トレードオフをもたらす。
本稿では,変圧器のコンピテンスの背後にある重要な要素を再評価する。
空間的操作をアイデンティティマッピングに置き換えることで、チャネル操作だけで先行する手法のR-D性能にアプローチできることに驚きます。
この確固とした性能の低い境界は、従来の複雑な空間相互作用が部分的に冗長であるのに対して、licモデルが競合性能を達成するためにはチャネルアグリゲーションの存在がより不可欠であることを強調している。
この知見に基づき,空間的相互作用からチャネル集約へ焦点を移す汎用アーキテクチャである"S2CFormer"パラダイムを創始する。
我々はS2CFormerの2つのインスタンス(S2C-ConvとS2C-Attention)を提示する。
それぞれが空間的相互作用のための単純な演算子を組み込んでおり、我々のlicモデルの非線形変換ブロックとして機能する。
どちらのモデルも最先端(SOTA)のR-D性能を示し、デコード速度は大幅に高速である。
これらの結果は、モデル効率を保ちながら、R-D性能を向上させるため、高度なFFN構造のさらなる探索を動機付けている。
これらの基盤により、異なるS2CFormerインスタンスの強度を組み合わせた拡張licモデルであるS2C-Hybridを導入する。
このモデルは、いくつかのデータセット上で既存のすべてのメソッドより優れており、効率的で高性能なlicのための新しいベンチマークが設定されている。
関連論文リスト
- CFFormer: Cross CNN-Transformer Channel Attention and Spatial Feature Fusion for Improved Segmentation of Low Quality Medical Images [29.68616115427831]
CNN-Transformerモデルは、ローカル情報と長距離依存の両方を効率的にモデル化するCNNとTransformerの利点を組み合わせるように設計されている。
本稿では,Cross Feature Channel Attention (CFCA)モジュールとX-Spatial Feature Fusion (XFF)モジュールを紹介する。
CFCAモジュールは2つのエンコーダからチャネル特徴間の相互作用をフィルタリングし、促進する一方、XFFモジュールは空間的特徴の有意な意味情報の違いを効果的に軽減する。
論文 参考訳(メタデータ) (2025-01-07T08:59:20Z) - Binarized Diffusion Model for Image Super-Resolution [61.963833405167875]
超圧縮アルゴリズムであるバイナリ化は、高度な拡散モデル(DM)を効果的に加速する可能性を提供する
既存の二項化法では性能が著しく低下する。
画像SRのための新しいバイナライズ拡散モデルBI-DiffSRを提案する。
論文 参考訳(メタデータ) (2024-06-09T10:30:25Z) - A-SDM: Accelerating Stable Diffusion through Model Assembly and Feature Inheritance Strategies [51.7643024367548]
安定拡散モデルは、テキスト・ツー・イメージ(T2I)と画像・ツー・イメージ(I2I)生成のための一般的かつ効果的なモデルである。
本研究では、SDMにおける冗長計算の削減と、チューニング不要とチューニング不要の両方の手法によるモデルの最適化に焦点をあてる。
論文 参考訳(メタデータ) (2024-05-31T21:47:05Z) - Dual Aggregation Transformer for Image Super-Resolution [92.41781921611646]
画像SRのための新しいトランスモデルDual Aggregation Transformerを提案する。
DATは、ブロック間およびブロック内二重方式で、空間次元とチャネル次元にまたがる特徴を集約する。
我々のDATは現在の手法を超越している。
論文 参考訳(メタデータ) (2023-08-07T07:39:39Z) - LLIC: Large Receptive Field Transform Coding with Adaptive Weights for Learned Image Compression [27.02281402358164]
学習画像圧縮のための適応重み付き大規模受容場変換符号化を提案する。
カーネルをベースとした奥行きに関する大規模な畳み込みを導入し,複雑さを抑えながら冗長性を向上する。
我々のLLICモデルは最先端のパフォーマンスを実現し、パフォーマンスと複雑さのトレードオフを改善する。
論文 参考訳(メタデータ) (2023-04-19T11:19:10Z) - Learned Image Compression with Mixed Transformer-CNN Architectures [21.53261818914534]
本稿では, 並列トランスフォーマー-CNN混合ブロック(TCM)を提案する。
近年のエントロピー推定モデルとアテンションモジュールの進歩に触発されて,パラメータ効率の高いスウィントランスフォーマーに基づくアテンションを持つチャネルワイドエントロピーモデルを提案する。
実験により,提案手法が最先端の速度歪み性能を実現することを示す。
論文 参考訳(メタデータ) (2023-03-27T08:19:01Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - MSO: Multi-Feature Space Joint Optimization Network for RGB-Infrared
Person Re-Identification [35.97494894205023]
RGB-infrared cross-modality person re-identification (ReID) タスクは、可視モダリティと赤外線モダリティの同一性の画像を認識することを目的としている。
既存の手法は主に2ストリームアーキテクチャを使用して、最終的な共通特徴空間における2つのモード間の相違を取り除く。
単一モダリティ空間と共通空間の両方において、モダリティ調和可能な特徴を学習できる新しい多機能空間共同最適化(MSO)ネットワークを提案する。
論文 参考訳(メタデータ) (2021-10-21T16:45:23Z) - Full-Duplex Strategy for Video Object Segmentation [141.43983376262815]
Full- Strategy Network (FSNet)はビデオオブジェクトセグメンテーション(VOS)のための新しいフレームワークである
我々のFSNetは、融合復号ステージの前に、クロスモーダルな機能パス(すなわち、送信と受信)を同時に実行します。
我々のFSNetは、VOSとビデオの有能なオブジェクト検出タスクの両方において、他の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-06T14:50:50Z) - Learning Comprehensive Motion Representation for Action Recognition [124.65403098534266]
2d cnnベースのメソッドは効率的であるが、各フレームに同じ2d畳み込みカーネルを適用することで冗長な機能が得られる。
最近の試みは、フレーム間接続を確立しながら、時間的受容野や高いレイテンシに苦しめながら、動き情報をキャプチャしようとするものである。
チャネルワイズゲートベクトルを用いた動的情報に関連するチャネルを適応的に強調するCME(Channel-wise Motion Enhancement)モジュールを提案する。
また,近接する特徴写像の点対点類似性に応じて,重要な目標を持つ領域に焦点をあてる空間的運動強調(SME)モジュールを提案する。
論文 参考訳(メタデータ) (2021-03-23T03:06:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。