論文の概要: S2CFormer: Revisiting the RD-Latency Trade-off in Transformer-based Learned Image Compression
- arxiv url: http://arxiv.org/abs/2502.00700v3
- Date: Mon, 24 Mar 2025 09:19:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:21:41.253956
- Title: S2CFormer: Revisiting the RD-Latency Trade-off in Transformer-based Learned Image Compression
- Title(参考訳): S2CFormer: 変換器を用いた学習画像圧縮におけるRDレイテンシトレードオフの再検討
- Authors: Yunuo Chen, Qian Li, Bing He, Donghui Feng, Ronghua Wu, Qi Wang, Li Song, Guo Lu, Wenjun Zhang,
- Abstract要約: TransformerベースのLearned Image Compression(lic)は、デコードレイテンシとレート歪み(R-D)パフォーマンスの中間的なトレードオフに悩まされる。
本研究は, 複雑かつ時間を要する空間的操作よりも効率的なチャネル集約が, 競争力のあるコンカレントモデルの実現の鍵であることを明らかにする。
- 参考スコア(独自算出の注目度): 26.920782099405915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based Learned Image Compression (LIC) suffers from a suboptimal trade-off between decoding latency and rate-distortion (R-D) performance. Moreover, the critical role of the FeedForward Network (FFN)-based channel aggregation module has been largely overlooked. Our research reveals that efficient channel aggregation-rather than complex and time-consuming spatial operations-is the key to achieving competitive LIC models. Based on this insight, we initiate the ``S2CFormer'' paradigm, a general architecture that simplifies spatial operations and enhances channel operations to overcome the previous trade-off. We present two instances of the S2CFormer: S2C-Conv, and S2C-Attention. Both models demonstrate state-of-the-art (SOTA) R-D performance and significantly faster decoding speed. Furthermore, we introduce S2C-Hybrid, an enhanced variant that maximizes the strengths of different S2CFormer instances to achieve a better performance-latency trade-off. This model outperforms all the existing methods on the Kodak, Tecnick, and CLIC Professional Validation datasets, setting a new benchmark for efficient and high-performance LIC. The code is at \href{https://github.com/YunuoChen/S2CFormer}{https://github.com/YunuoChen/S2CFormer}.
- Abstract(参考訳): TransformerベースのLearned Image Compression(lic)は、デコードレイテンシとレート歪み(R-D)パフォーマンスの中間的なトレードオフに悩まされる。
さらに、FeedForward Network(FFN)ベースのチャネルアグリゲーションモジュールの重要な役割はほとんど見過ごされている。
本研究は,複雑かつ時間を要する空間的操作よりも効率的なチャネルアグリゲーションが,競争力のあるlicモデルの実現の鍵であることを明らかにする。
この知見に基づいて,従来のトレードオフを克服するために,空間操作を単純化し,チャネル操作を強化する汎用アーキテクチャである ``S2CFormer' パラダイムを創始する。
S2CFormerはS2C-ConvとS2C-Attentionの2つの例を示す。
どちらのモデルも最先端(SOTA)のR-D性能を示し、デコード速度は大幅に高速である。
さらに、S2C-Hybridを導入し、S2CFormerインスタンスの強度を最大化し、パフォーマンスとレイテンシのトレードオフを改善する。
このモデルは、Kodak、Tecnick、CLIC Professional Validationデータセット上の既存のすべてのメソッドより優れており、効率的で高性能なlicのための新しいベンチマークが設定されている。
コードは \href{https://github.com/YunuoChen/S2CFormer}{https://github.com/YunuoChen/S2CFormer} にある。
関連論文リスト
- Turbo2K: Towards Ultra-Efficient and High-Quality 2K Video Synthesis [50.77548592888096]
2Kビデオ合成の需要は、超明快なビジュアルに対する消費者の期待が高まるにつれて増大している。
Turbo2Kはディテールリッチな2Kビデオを生成するための効率的なフレームワークである。
論文 参考訳(メタデータ) (2025-04-20T03:30:59Z) - Ultra-Resolution Adaptation with Ease [62.56434979517156]
我々は,EmphURAEと呼ばれる超高分解能適応のための重要なガイドラインのセットを提案する。
重み行列の小さな成分のチューニングは、合成データが利用できない場合に広く使用される低ランクアダプタよりも優れていることを示す。
URAEは、FLUX1.1[Pro] Ultraのような最先端のクローズドソースモデルに匹敵する2K世代の性能を達成している。
論文 参考訳(メタデータ) (2025-03-20T16:44:43Z) - CMamba: Learned Image Compression with State Space Models [31.10785880342252]
本稿では,コンボリューションと状態空間モデル(SSM)をベースとした画像圧縮フレームワークを提案する。
具体的には、CMambaはContent-Adaptive SSM(CA-SSM)モジュールとContext-Aware Entropy(CAE)モジュールの2つの重要なコンポーネントを紹介している。
実験の結果,CMambaは高い速度歪み性能が得られることがわかった。
論文 参考訳(メタデータ) (2025-02-07T15:07:04Z) - BF-STVSR: B-Splines and Fourier-Best Friends for High Fidelity Spatial-Temporal Video Super-Resolution [14.082598088990352]
ビデオの空間的特徴と時間的特徴をよりよく表現するために,2つのキーモジュールを備えたC-STVSRフレームワークであるBF-STVSRを提案する。
提案手法は,PSNR や SSIM など様々な指標の最先端性を実現し,空間的詳細化や時間的整合性の向上を図っている。
論文 参考訳(メタデータ) (2025-01-19T13:29:41Z) - Binarized Diffusion Model for Image Super-Resolution [61.963833405167875]
超圧縮アルゴリズムであるバイナリ化は、高度な拡散モデル(DM)を効果的に加速する可能性を提供する
既存の二項化法では性能が著しく低下する。
画像SRのための新しいバイナライズ拡散モデルBI-DiffSRを提案する。
論文 参考訳(メタデータ) (2024-06-09T10:30:25Z) - TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - Channel-wise Feature Decorrelation for Enhanced Learned Image Compression [16.638869231028437]
新たなLearnered Compression(LC)は、従来のモジュールをDeep Neural Networks(DNN)に置き換えるものだ。
本稿では,既存のDNN容量をフル活用して圧縮を改善することを提案する。
3つの戦略が提案され,(1)変換ネットワーク,(2)コンテキストモデル,(3)両ネットワークを最適化する。
論文 参考訳(メタデータ) (2024-03-16T14:30:25Z) - Dual Aggregation Transformer for Image Super-Resolution [92.41781921611646]
画像SRのための新しいトランスモデルDual Aggregation Transformerを提案する。
DATは、ブロック間およびブロック内二重方式で、空間次元とチャネル次元にまたがる特徴を集約する。
我々のDATは現在の手法を超越している。
論文 参考訳(メタデータ) (2023-08-07T07:39:39Z) - LLIC: Large Receptive Field Transform Coding with Adaptive Weights for Learned Image Compression [27.02281402358164]
学習画像圧縮のための適応重み付き大規模受容場変換符号化を提案する。
カーネルをベースとした奥行きに関する大規模な畳み込みを導入し,複雑さを抑えながら冗長性を向上する。
我々のLLICモデルは最先端のパフォーマンスを実現し、パフォーマンスと複雑さのトレードオフを改善する。
論文 参考訳(メタデータ) (2023-04-19T11:19:10Z) - Learned Image Compression with Mixed Transformer-CNN Architectures [21.53261818914534]
本稿では, 並列トランスフォーマー-CNN混合ブロック(TCM)を提案する。
近年のエントロピー推定モデルとアテンションモジュールの進歩に触発されて,パラメータ効率の高いスウィントランスフォーマーに基づくアテンションを持つチャネルワイドエントロピーモデルを提案する。
実験により,提案手法が最先端の速度歪み性能を実現することを示す。
論文 参考訳(メタデータ) (2023-03-27T08:19:01Z) - Reference-based Image and Video Super-Resolution via C2-Matching [100.0808130445653]
本稿では,C2-Matchingを提案する。
C2-Matchingは、標準的なCUFED5ベンチマークにおいて、最先端のアーツを著しく上回っている。
また、類似シーンで撮影された画像がHR参照画像として機能するため、C2-Matchingを参照ベースでビデオスーパーリゾリューションタスクに拡張する。
論文 参考訳(メタデータ) (2022-12-19T16:15:02Z) - Rescoring Sequence-to-Sequence Models for Text Line Recognition with
CTC-Prefixes [0.0]
我々は,S2Sデコード中にCTC-Prefix-Scoreを使用することを提案する。
ビームサーチ中、CTC信頼行列に従って無効となるパスがペナル化される。
IAM, Rimes, StAZHの3つのHTRデータセット上で, この設定を評価する。
論文 参考訳(メタデータ) (2021-10-12T11:40:05Z) - A Generic Network Compression Framework for Sequential Recommender
Systems [71.81962915192022]
シークエンシャルレコメンデーションシステム(SRS)は,ユーザの動的関心を捉え,高品質なレコメンデーションを生成する上で重要な技術となっている。
CpRecと呼ばれる圧縮されたシーケンシャルレコメンデーションフレームワークを提案する。
大規模なアブレーション研究により、提案したCpRecは実世界のSRSデータセットにおいて最大4$sim$8倍の圧縮速度を達成できることを示した。
論文 参考訳(メタデータ) (2020-04-21T08:40:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。