論文の概要: FD-LSCIC: Frequency Decomposition-based Learned Screen Content Image Compression
- arxiv url: http://arxiv.org/abs/2502.15174v1
- Date: Fri, 21 Feb 2025 03:15:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 19:42:01.038906
- Title: FD-LSCIC: Frequency Decomposition-based Learned Screen Content Image Compression
- Title(参考訳): FD-LSCIC:周波数分解に基づく学習画面コンテンツ圧縮
- Authors: Shiqi Jiang, Hui Yuan, Shuai Li, Huanqiang Zeng, Sam Kwong,
- Abstract要約: 本稿では、SC画像圧縮における3つの重要な課題として、コンパクトな潜時特徴の学習、量子化ステップのサイズの適応、大規模なSCデータセットの欠如について述べる。
適応量子化モジュールを導入し、各周波数成分のスケールした均一ノイズを学習し、量子化の粒度を柔軟に制御する。
SDU-SCICD10Kは,基本SC画像,コンピュータレンダリング画像,およびPCおよびモバイルプラットフォームからのNSとSCの混合画像にまたがる1万以上の画像を含む,大規模なSC画像圧縮データセットを構築した。
- 参考スコア(独自算出の注目度): 67.34466255300339
- License:
- Abstract: The learned image compression (LIC) methods have already surpassed traditional techniques in compressing natural scene (NS) images. However, directly applying these methods to screen content (SC) images, which possess distinct characteristics such as sharp edges, repetitive patterns, embedded text and graphics, yields suboptimal results. This paper addresses three key challenges in SC image compression: learning compact latent features, adapting quantization step sizes, and the lack of large SC datasets. To overcome these challenges, we propose a novel compression method that employs a multi-frequency two-stage octave residual block (MToRB) for feature extraction, a cascaded triple-scale feature fusion residual block (CTSFRB) for multi-scale feature integration and a multi-frequency context interaction module (MFCIM) to reduce inter-frequency correlations. Additionally, we introduce an adaptive quantization module that learns scaled uniform noise for each frequency component, enabling flexible control over quantization granularity. Furthermore, we construct a large SC image compression dataset (SDU-SCICD10K), which includes over 10,000 images spanning basic SC images, computer-rendered images, and mixed NS and SC images from both PC and mobile platforms. Experimental results demonstrate that our approach significantly improves SC image compression performance, outperforming traditional standards and state-of-the-art learning-based methods in terms of peak signal-to-noise ratio (PSNR) and multi-scale structural similarity (MS-SSIM).
- Abstract(参考訳): 学習された画像圧縮(lic)法は、自然シーン(NS)画像を圧縮する従来の手法をすでに超越している。
しかし, シャープエッジ, 繰り返しパターン, 埋め込みテキスト, グラフィックなど, 異なる特徴を持つコンテンツ(SC) 画像にこれらの手法を直接適用することにより, 準最適結果が得られる。
本稿では、SC画像圧縮における3つの重要な課題として、コンパクトな潜時特徴の学習、量子化ステップのサイズの適応、大規模なSCデータセットの欠如について述べる。
これらの課題を克服するために,多周波2段階オクターブ残差ブロック(MToRB)を特徴抽出に用い,多周波特徴統合のための3次元特徴融合残差ブロック(CTSFRB)と多周波コンテキスト相互作用モジュール(MFCIM)を併用して周波数間相関を低減する圧縮手法を提案する。
さらに、各周波数成分のスケールした均一ノイズを学習し、量子化の粒度を柔軟に制御できる適応量子化モジュールを導入する。
さらに,SDU-SCICD10Kは,基本SC画像,コンピュータレンダリング画像,PCおよびモバイルプラットフォームからのNSとSCの混合画像にまたがる1万以上の画像を含む大規模SC画像圧縮データセットを構築した。
実験結果から,本手法はSC画像圧縮性能を大幅に向上させ,従来の標準と最先端の学習手法をピーク信号対雑音比 (PSNR) とマルチスケール構造類似度 (MS-SSIM) の観点から比較した。
関連論文リスト
- CALLIC: Content Adaptive Learning for Lossless Image Compression [64.47244912937204]
CALLICは、学習したロスレス画像圧縮のための新しい最先端(SOTA)を設定する。
本稿では,畳み込みゲーティング操作を利用したコンテンツ認識型自己回帰自己保持機構を提案する。
エンコーディング中、低ランク行列を用いて深度の畳み込みを含む事前学習層を分解し、レート誘導プログレッシブファインタニング(RPFT)による画像検査にインクリメンタルウェイトを適応させる。
推定エントロピーにより下位順にソートされたパッチを徐々に増加させたRPFTファインチューン,学習過程の最適化,適応時間の短縮を実現した。
論文 参考訳(メタデータ) (2024-12-23T10:41:18Z) - OMR-NET: a two-stage octave multi-scale residual network for screen content image compression [11.518417977364377]
スクリーンコンテンツ(SC)は、ノイズフリー、反復パターン、高コントラストといったユニークな特徴を持つ自然シーン(NS)とは異なる。
高速・低周波特徴抽出のための改良された2段オクターブ畳み込み残差ブロック(IToRB)を提案する。
また、特に画像中の高コントラスト領域の画素相関を捉えるために、ウィンドウベースアテンションモジュール(WAM)を用いる。
論文 参考訳(メタデータ) (2024-07-11T14:30:46Z) - End-to-End Optimized Image Compression with the Frequency-Oriented
Transform [8.27145506280741]
本稿では,周波数指向変換により最適化された画像圧縮モデルを提案する。
このモデルは任意の周波数成分を選択的に伝送することでスケーラブルな符号化を可能にする。
次世代標準H.266/VVCを含む従来のコーデックをMS-SSIMで比較した。
論文 参考訳(メタデータ) (2024-01-16T08:16:10Z) - Transferable Learned Image Compression-Resistant Adversarial Perturbations [66.46470251521947]
敵対的攻撃は容易に画像分類システムを破壊し、DNNベースの認識タスクの脆弱性を明らかにする。
我々は、学習した画像圧縮機を前処理モジュールとして利用する画像分類モデルをターゲットにした新しいパイプラインを提案する。
論文 参考訳(メタデータ) (2024-01-06T03:03:28Z) - Frequency-Aware Transformer for Learned Image Compression [64.28698450919647]
学習画像圧縮(lic)のためのマルチスケール指向性アナリシスを初めて実現した周波数認識変換器(FAT)ブロックを提案する。
FATブロックは、自然画像のマルチスケールおよび指向性周波数成分をキャプチャするための周波数分解ウィンドウアテンション(FDWA)モジュールを含む。
また、周波数変調フィードフォワードネットワーク(FMFFN)を導入し、異なる周波数成分を適応的に変調し、周波数歪み性能を向上させる。
論文 参考訳(メタデータ) (2023-10-25T05:59:25Z) - Exploring Effective Mask Sampling Modeling for Neural Image Compression [171.35596121939238]
既存のニューラルイメージ圧縮手法の多くは、空間的冗長性を排除するために、ハイパープライアモデルやコンテキストモデルからのサイド情報に依存している。
近年の自然言語処理と高次視覚のための自己教師付き学習手法におけるマスクサンプリングモデルに着想を得て,ニューラル画像圧縮のための新しい事前学習戦略を提案する。
提案手法は,最先端画像圧縮法と比較して計算複雑性の低い競合性能を実現する。
論文 参考訳(メタデータ) (2023-06-09T06:50:20Z) - Rank-Enhanced Low-Dimensional Convolution Set for Hyperspectral Image
Denoising [50.039949798156826]
本稿では,ハイパースペクトル(HS)画像の難解化問題に対処する。
ランク付き低次元畳み込み集合(Re-ConvSet)を提案する。
次に、Re-ConvSetを広く使われているU-Netアーキテクチャに組み込んで、HS画像復号法を構築する。
論文 参考訳(メタデータ) (2022-07-09T13:35:12Z) - Multi-scale frequency separation network for image deblurring [10.511076996096117]
本稿では,マルチスケール周波数分離ネットワーク (MSFS-Net) を用いた画像分解手法を提案する。
MSFS-Netは複数のスケールで画像の低周波・高周波情報をキャプチャする。
ベンチマークデータセットの実験により,提案したネットワークが最先端の性能を達成することが示された。
論文 参考訳(メタデータ) (2022-06-01T23:48:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。