論文の概要: S2CFormer: Reorienting Learned Image Compression from Spatial Interaction to Channel Aggregation
- arxiv url: http://arxiv.org/abs/2502.00700v2
- Date: Fri, 14 Feb 2025 18:30:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 21:51:48.381937
- Title: S2CFormer: Reorienting Learned Image Compression from Spatial Interaction to Channel Aggregation
- Title(参考訳): S2CFormer: 空間的相互作用からチャネル集約への学習画像圧縮の適応
- Authors: Yunuo Chen, Qian Li, Bing He, Donghui Feng, Ronghua Wu, Qi Wang, Li Song, Guo Lu, Wenjun Zhang,
- Abstract要約: 我々はS2CFormerの2つのインスタンス(S2C-ConvとS2C-Attention)を提示する。
どちらのモデルも最先端(SOTA)のR-D性能を示し、デコード速度は大幅に高速である。
本稿では,異なるS2CFormerインスタンスの強度を組み合わせた拡張licモデルであるS2C-Hybridを紹介する。
- 参考スコア(独自算出の注目度): 26.920782099405915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers have achieved significant success in learned image compression (LIC), with Swin Transformers emerging as the mainstream choice for nonlinear transforms. A common belief is that their sophisticated spatial operations contribute most to their efficacy. However, the crucial role of the feed-forward network (FFN) based Channel Aggregation module within the transformer architecture has been largely overlooked, and the over-design of spatial operations leads to a suboptimal trade-off between decoding latency and R-D performance. In this paper, we reevaluate the key factors behind the competence of transformers in LIC. By replacing spatial operations with identity mapping, we are surprised to find that channel operations alone can approach the R-D performance of the leading methods. This solid lower bound of performance emphasizes that the presence of channel aggregation is more essential for the LIC model to achieve competitive performance, while the previously complex spatial interactions are partly redundant. Based on this insight, we initiate the "S2CFormer" paradigm, a general architecture that reorients the focus of LIC from Spatial Interaction to Channel Aggregation. We present two instantiations of the S2CFormer: S2C-Conv, and S2C-Attention. Each one incorporates a simple operator for spatial interaction and serves as nonlinear transform blocks for our LIC models. Both models demonstrate state-of-the-art (SOTA) R-D performance and significantly faster decoding speed. These results also motivate further exploration of advanced FFN structures to enhance the R-D performance while maintaining model efficiency. With these foundations, we introduce S2C-Hybrid, an enhanced LIC model that combines the strengths of different S2CFormer instantiations. This model outperforms all the existing methods on several datasets, setting a new benchmark for efficient and high-performance LIC.
- Abstract(参考訳): 変換器は学習画像圧縮(lic)において大きな成功を収めており、非線形変換の主要な選択肢としてスウィン変換器が登場している。
一般的な信念は、その洗練された空間操作が、その有効性に最も寄与しているということである。
しかし、トランスアーキテクチャにおけるフィードフォワードネットワーク(FFN)ベースのチャネルアグリゲーションモジュールの重要な役割は概ね見過ごされ、空間演算の過度な設計は、復号遅延とR-D性能の中間的トレードオフをもたらす。
本稿では,変圧器のコンピテンスの背後にある重要な要素を再評価する。
空間的操作をアイデンティティマッピングに置き換えることで、チャネル操作だけで先行する手法のR-D性能にアプローチできることに驚きます。
この確固とした性能の低い境界は、従来の複雑な空間相互作用が部分的に冗長であるのに対して、licモデルが競合性能を達成するためにはチャネルアグリゲーションの存在がより不可欠であることを強調している。
この知見に基づき,空間的相互作用からチャネル集約へ焦点を移す汎用アーキテクチャである"S2CFormer"パラダイムを創始する。
我々はS2CFormerの2つのインスタンス(S2C-ConvとS2C-Attention)を提示する。
それぞれが空間的相互作用のための単純な演算子を組み込んでおり、我々のlicモデルの非線形変換ブロックとして機能する。
どちらのモデルも最先端(SOTA)のR-D性能を示し、デコード速度は大幅に高速である。
これらの結果は、モデル効率を保ちながら、R-D性能を向上させるため、高度なFFN構造のさらなる探索を動機付けている。
これらの基盤により、異なるS2CFormerインスタンスの強度を組み合わせた拡張licモデルであるS2C-Hybridを導入する。
このモデルは、いくつかのデータセット上で既存のすべてのメソッドより優れており、効率的で高性能なlicのための新しいベンチマークが設定されている。
関連論文リスト
- Turbo2K: Towards Ultra-Efficient and High-Quality 2K Video Synthesis [50.77548592888096]
2Kビデオ合成の需要は、超明快なビジュアルに対する消費者の期待が高まるにつれて増大している。
Turbo2Kはディテールリッチな2Kビデオを生成するための効率的なフレームワークである。
論文 参考訳(メタデータ) (2025-04-20T03:30:59Z) - Ultra-Resolution Adaptation with Ease [62.56434979517156]
我々は,EmphURAEと呼ばれる超高分解能適応のための重要なガイドラインのセットを提案する。
重み行列の小さな成分のチューニングは、合成データが利用できない場合に広く使用される低ランクアダプタよりも優れていることを示す。
URAEは、FLUX1.1[Pro] Ultraのような最先端のクローズドソースモデルに匹敵する2K世代の性能を達成している。
論文 参考訳(メタデータ) (2025-03-20T16:44:43Z) - CMamba: Learned Image Compression with State Space Models [31.10785880342252]
本稿では,コンボリューションと状態空間モデル(SSM)をベースとした画像圧縮フレームワークを提案する。
具体的には、CMambaはContent-Adaptive SSM(CA-SSM)モジュールとContext-Aware Entropy(CAE)モジュールの2つの重要なコンポーネントを紹介している。
実験の結果,CMambaは高い速度歪み性能が得られることがわかった。
論文 参考訳(メタデータ) (2025-02-07T15:07:04Z) - BF-STVSR: B-Splines and Fourier-Best Friends for High Fidelity Spatial-Temporal Video Super-Resolution [14.082598088990352]
ビデオの空間的特徴と時間的特徴をよりよく表現するために,2つのキーモジュールを備えたC-STVSRフレームワークであるBF-STVSRを提案する。
提案手法は,PSNR や SSIM など様々な指標の最先端性を実現し,空間的詳細化や時間的整合性の向上を図っている。
論文 参考訳(メタデータ) (2025-01-19T13:29:41Z) - Binarized Diffusion Model for Image Super-Resolution [61.963833405167875]
超圧縮アルゴリズムであるバイナリ化は、高度な拡散モデル(DM)を効果的に加速する可能性を提供する
既存の二項化法では性能が著しく低下する。
画像SRのための新しいバイナライズ拡散モデルBI-DiffSRを提案する。
論文 参考訳(メタデータ) (2024-06-09T10:30:25Z) - TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - Channel-wise Feature Decorrelation for Enhanced Learned Image Compression [16.638869231028437]
新たなLearnered Compression(LC)は、従来のモジュールをDeep Neural Networks(DNN)に置き換えるものだ。
本稿では,既存のDNN容量をフル活用して圧縮を改善することを提案する。
3つの戦略が提案され,(1)変換ネットワーク,(2)コンテキストモデル,(3)両ネットワークを最適化する。
論文 参考訳(メタデータ) (2024-03-16T14:30:25Z) - Dual Aggregation Transformer for Image Super-Resolution [92.41781921611646]
画像SRのための新しいトランスモデルDual Aggregation Transformerを提案する。
DATは、ブロック間およびブロック内二重方式で、空間次元とチャネル次元にまたがる特徴を集約する。
我々のDATは現在の手法を超越している。
論文 参考訳(メタデータ) (2023-08-07T07:39:39Z) - LLIC: Large Receptive Field Transform Coding with Adaptive Weights for Learned Image Compression [27.02281402358164]
学習画像圧縮のための適応重み付き大規模受容場変換符号化を提案する。
カーネルをベースとした奥行きに関する大規模な畳み込みを導入し,複雑さを抑えながら冗長性を向上する。
我々のLLICモデルは最先端のパフォーマンスを実現し、パフォーマンスと複雑さのトレードオフを改善する。
論文 参考訳(メタデータ) (2023-04-19T11:19:10Z) - Learned Image Compression with Mixed Transformer-CNN Architectures [21.53261818914534]
本稿では, 並列トランスフォーマー-CNN混合ブロック(TCM)を提案する。
近年のエントロピー推定モデルとアテンションモジュールの進歩に触発されて,パラメータ効率の高いスウィントランスフォーマーに基づくアテンションを持つチャネルワイドエントロピーモデルを提案する。
実験により,提案手法が最先端の速度歪み性能を実現することを示す。
論文 参考訳(メタデータ) (2023-03-27T08:19:01Z) - Reference-based Image and Video Super-Resolution via C2-Matching [100.0808130445653]
本稿では,C2-Matchingを提案する。
C2-Matchingは、標準的なCUFED5ベンチマークにおいて、最先端のアーツを著しく上回っている。
また、類似シーンで撮影された画像がHR参照画像として機能するため、C2-Matchingを参照ベースでビデオスーパーリゾリューションタスクに拡張する。
論文 参考訳(メタデータ) (2022-12-19T16:15:02Z) - Rescoring Sequence-to-Sequence Models for Text Line Recognition with
CTC-Prefixes [0.0]
我々は,S2Sデコード中にCTC-Prefix-Scoreを使用することを提案する。
ビームサーチ中、CTC信頼行列に従って無効となるパスがペナル化される。
IAM, Rimes, StAZHの3つのHTRデータセット上で, この設定を評価する。
論文 参考訳(メタデータ) (2021-10-12T11:40:05Z) - A Generic Network Compression Framework for Sequential Recommender
Systems [71.81962915192022]
シークエンシャルレコメンデーションシステム(SRS)は,ユーザの動的関心を捉え,高品質なレコメンデーションを生成する上で重要な技術となっている。
CpRecと呼ばれる圧縮されたシーケンシャルレコメンデーションフレームワークを提案する。
大規模なアブレーション研究により、提案したCpRecは実世界のSRSデータセットにおいて最大4$sim$8倍の圧縮速度を達成できることを示した。
論文 参考訳(メタデータ) (2020-04-21T08:40:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。