論文の概要: S2CFormer: Revisiting the RD-Latency Trade-off in Transformer-based Learned Image Compression
- arxiv url: http://arxiv.org/abs/2502.00700v3
- Date: Mon, 24 Mar 2025 09:19:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:29:00.456984
- Title: S2CFormer: Revisiting the RD-Latency Trade-off in Transformer-based Learned Image Compression
- Title(参考訳): S2CFormer: 変換器を用いた学習画像圧縮におけるRDレイテンシトレードオフの再検討
- Authors: Yunuo Chen, Qian Li, Bing He, Donghui Feng, Ronghua Wu, Qi Wang, Li Song, Guo Lu, Wenjun Zhang,
- Abstract要約: TransformerベースのLearned Image Compression(lic)は、デコードレイテンシとレート歪み(R-D)パフォーマンスの中間的なトレードオフに悩まされる。
本研究は, 複雑かつ時間を要する空間的操作よりも効率的なチャネル集約が, 競争力のあるコンカレントモデルの実現の鍵であることを明らかにする。
- 参考スコア(独自算出の注目度): 26.920782099405915
- License:
- Abstract: Transformer-based Learned Image Compression (LIC) suffers from a suboptimal trade-off between decoding latency and rate-distortion (R-D) performance. Moreover, the critical role of the FeedForward Network (FFN)-based channel aggregation module has been largely overlooked. Our research reveals that efficient channel aggregation-rather than complex and time-consuming spatial operations-is the key to achieving competitive LIC models. Based on this insight, we initiate the ``S2CFormer'' paradigm, a general architecture that simplifies spatial operations and enhances channel operations to overcome the previous trade-off. We present two instances of the S2CFormer: S2C-Conv, and S2C-Attention. Both models demonstrate state-of-the-art (SOTA) R-D performance and significantly faster decoding speed. Furthermore, we introduce S2C-Hybrid, an enhanced variant that maximizes the strengths of different S2CFormer instances to achieve a better performance-latency trade-off. This model outperforms all the existing methods on the Kodak, Tecnick, and CLIC Professional Validation datasets, setting a new benchmark for efficient and high-performance LIC. The code is at \href{https://github.com/YunuoChen/S2CFormer}{https://github.com/YunuoChen/S2CFormer}.
- Abstract(参考訳): TransformerベースのLearned Image Compression(lic)は、デコードレイテンシとレート歪み(R-D)パフォーマンスの中間的なトレードオフに悩まされる。
さらに、FeedForward Network(FFN)ベースのチャネルアグリゲーションモジュールの重要な役割はほとんど見過ごされている。
本研究は,複雑かつ時間を要する空間的操作よりも効率的なチャネルアグリゲーションが,競争力のあるlicモデルの実現の鍵であることを明らかにする。
この知見に基づいて,従来のトレードオフを克服するために,空間操作を単純化し,チャネル操作を強化する汎用アーキテクチャである ``S2CFormer' パラダイムを創始する。
S2CFormerはS2C-ConvとS2C-Attentionの2つの例を示す。
どちらのモデルも最先端(SOTA)のR-D性能を示し、デコード速度は大幅に高速である。
さらに、S2C-Hybridを導入し、S2CFormerインスタンスの強度を最大化し、パフォーマンスとレイテンシのトレードオフを改善する。
このモデルは、Kodak、Tecnick、CLIC Professional Validationデータセット上の既存のすべてのメソッドより優れており、効率的で高性能なlicのための新しいベンチマークが設定されている。
コードは \href{https://github.com/YunuoChen/S2CFormer}{https://github.com/YunuoChen/S2CFormer} にある。
関連論文リスト
- CFFormer: Cross CNN-Transformer Channel Attention and Spatial Feature Fusion for Improved Segmentation of Low Quality Medical Images [29.68616115427831]
CNN-Transformerモデルは、ローカル情報と長距離依存の両方を効率的にモデル化するCNNとTransformerの利点を組み合わせるように設計されている。
本稿では,Cross Feature Channel Attention (CFCA)モジュールとX-Spatial Feature Fusion (XFF)モジュールを紹介する。
CFCAモジュールは2つのエンコーダからチャネル特徴間の相互作用をフィルタリングし、促進する一方、XFFモジュールは空間的特徴の有意な意味情報の違いを効果的に軽減する。
論文 参考訳(メタデータ) (2025-01-07T08:59:20Z) - Binarized Diffusion Model for Image Super-Resolution [61.963833405167875]
超圧縮アルゴリズムであるバイナリ化は、高度な拡散モデル(DM)を効果的に加速する可能性を提供する
既存の二項化法では性能が著しく低下する。
画像SRのための新しいバイナライズ拡散モデルBI-DiffSRを提案する。
論文 参考訳(メタデータ) (2024-06-09T10:30:25Z) - A-SDM: Accelerating Stable Diffusion through Model Assembly and Feature Inheritance Strategies [51.7643024367548]
安定拡散モデルは、テキスト・ツー・イメージ(T2I)と画像・ツー・イメージ(I2I)生成のための一般的かつ効果的なモデルである。
本研究では、SDMにおける冗長計算の削減と、チューニング不要とチューニング不要の両方の手法によるモデルの最適化に焦点をあてる。
論文 参考訳(メタデータ) (2024-05-31T21:47:05Z) - Dual Aggregation Transformer for Image Super-Resolution [92.41781921611646]
画像SRのための新しいトランスモデルDual Aggregation Transformerを提案する。
DATは、ブロック間およびブロック内二重方式で、空間次元とチャネル次元にまたがる特徴を集約する。
我々のDATは現在の手法を超越している。
論文 参考訳(メタデータ) (2023-08-07T07:39:39Z) - LLIC: Large Receptive Field Transform Coding with Adaptive Weights for Learned Image Compression [27.02281402358164]
学習画像圧縮のための適応重み付き大規模受容場変換符号化を提案する。
カーネルをベースとした奥行きに関する大規模な畳み込みを導入し,複雑さを抑えながら冗長性を向上する。
我々のLLICモデルは最先端のパフォーマンスを実現し、パフォーマンスと複雑さのトレードオフを改善する。
論文 参考訳(メタデータ) (2023-04-19T11:19:10Z) - Learned Image Compression with Mixed Transformer-CNN Architectures [21.53261818914534]
本稿では, 並列トランスフォーマー-CNN混合ブロック(TCM)を提案する。
近年のエントロピー推定モデルとアテンションモジュールの進歩に触発されて,パラメータ効率の高いスウィントランスフォーマーに基づくアテンションを持つチャネルワイドエントロピーモデルを提案する。
実験により,提案手法が最先端の速度歪み性能を実現することを示す。
論文 参考訳(メタデータ) (2023-03-27T08:19:01Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - MSO: Multi-Feature Space Joint Optimization Network for RGB-Infrared
Person Re-Identification [35.97494894205023]
RGB-infrared cross-modality person re-identification (ReID) タスクは、可視モダリティと赤外線モダリティの同一性の画像を認識することを目的としている。
既存の手法は主に2ストリームアーキテクチャを使用して、最終的な共通特徴空間における2つのモード間の相違を取り除く。
単一モダリティ空間と共通空間の両方において、モダリティ調和可能な特徴を学習できる新しい多機能空間共同最適化(MSO)ネットワークを提案する。
論文 参考訳(メタデータ) (2021-10-21T16:45:23Z) - Full-Duplex Strategy for Video Object Segmentation [141.43983376262815]
Full- Strategy Network (FSNet)はビデオオブジェクトセグメンテーション(VOS)のための新しいフレームワークである
我々のFSNetは、融合復号ステージの前に、クロスモーダルな機能パス(すなわち、送信と受信)を同時に実行します。
我々のFSNetは、VOSとビデオの有能なオブジェクト検出タスクの両方において、他の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-06T14:50:50Z) - Learning Comprehensive Motion Representation for Action Recognition [124.65403098534266]
2d cnnベースのメソッドは効率的であるが、各フレームに同じ2d畳み込みカーネルを適用することで冗長な機能が得られる。
最近の試みは、フレーム間接続を確立しながら、時間的受容野や高いレイテンシに苦しめながら、動き情報をキャプチャしようとするものである。
チャネルワイズゲートベクトルを用いた動的情報に関連するチャネルを適応的に強調するCME(Channel-wise Motion Enhancement)モジュールを提案する。
また,近接する特徴写像の点対点類似性に応じて,重要な目標を持つ領域に焦点をあてる空間的運動強調(SME)モジュールを提案する。
論文 参考訳(メタデータ) (2021-03-23T03:06:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。