論文の概要: End-to-End Optimized Image Compression with the Frequency-Oriented
Transform
- arxiv url: http://arxiv.org/abs/2401.08194v1
- Date: Tue, 16 Jan 2024 08:16:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 14:34:28.062633
- Title: End-to-End Optimized Image Compression with the Frequency-Oriented
Transform
- Title(参考訳): 周波数指向変換を用いたエンドツーエンド最適化画像圧縮
- Authors: Yuefeng Zhang and Kai Lin
- Abstract要約: 本稿では,周波数指向変換により最適化された画像圧縮モデルを提案する。
このモデルは任意の周波数成分を選択的に伝送することでスケーラブルな符号化を可能にする。
次世代標準H.266/VVCを含む従来のコーデックをMS-SSIMで比較した。
- 参考スコア(独自算出の注目度): 8.27145506280741
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Image compression constitutes a significant challenge amidst the era of
information explosion. Recent studies employing deep learning methods have
demonstrated the superior performance of learning-based image compression
methods over traditional codecs. However, an inherent challenge associated with
these methods lies in their lack of interpretability. Following an analysis of
the varying degrees of compression degradation across different frequency
bands, we propose the end-to-end optimized image compression model facilitated
by the frequency-oriented transform. The proposed end-to-end image compression
model consists of four components: spatial sampling, frequency-oriented
transform, entropy estimation, and frequency-aware fusion. The
frequency-oriented transform separates the original image signal into distinct
frequency bands, aligning with the human-interpretable concept. Leveraging the
non-overlapping hypothesis, the model enables scalable coding through the
selective transmission of arbitrary frequency components. Extensive experiments
are conducted to demonstrate that our model outperforms all traditional codecs
including next-generation standard H.266/VVC on MS-SSIM metric. Moreover,
visual analysis tasks (i.e., object detection and semantic segmentation) are
conducted to verify the proposed compression method could preserve semantic
fidelity besides signal-level precision.
- Abstract(参考訳): 画像圧縮は情報爆発の時代において重要な課題となっている。
近年のディープラーニング手法を用いた研究は,従来のコーデックよりも学習に基づく画像圧縮法の方が優れた性能を示した。
しかしながら、これらの方法に固有の課題は、解釈可能性の欠如にある。
周波数帯域幅の異なる圧縮劣化の程度を解析した結果,周波数指向変換によるエンドツーエンド最適化画像圧縮モデルを提案する。
提案するエンドツーエンド画像圧縮モデルは,空間サンプリング,周波数指向変換,エントロピー推定,周波数認識融合の4成分からなる。
周波数指向変換は、元の画像信号を異なる周波数帯域に分離し、人間の解釈可能な概念と整合する。
非重複仮説を活用することで、任意の周波数成分の選択的伝送によるスケーラブルな符号化が可能になる。
次世代標準H.266/VVCを含む従来のコーデックをMS-SSIMで比較した。
さらに,提案手法が信号レベルの精度以外に意味的忠実性を保てることを示すために,視覚解析タスク(オブジェクト検出とセマンティックセグメンテーション)を行う。
関連論文リスト
- High Frequency Matters: Uncertainty Guided Image Compression with Wavelet Diffusion [35.168244436206685]
ウェーブレット拡散(UGDiff)を用いた不確実性誘導画像圧縮手法を提案する。
本稿では,ウェーブレット変換による高周波圧縮に着目した。
2つのベンチマークデータセットに関する総合的な実験は、UGDiffの有効性を検証する。
論文 参考訳(メタデータ) (2024-07-17T13:21:31Z) - A Rate-Distortion-Classification Approach for Lossy Image Compression [0.0]
損失画像圧縮では、画像を特定のビットレートに圧縮しながら、最小限の信号歪みを実現する。
画像圧縮と視覚解析のギャップを埋めるために、損失画像圧縮のためのRDCモデルを提案する。
論文 参考訳(メタデータ) (2024-05-06T14:11:36Z) - Transferable Learned Image Compression-Resistant Adversarial Perturbations [66.46470251521947]
敵対的攻撃は容易に画像分類システムを破壊し、DNNベースの認識タスクの脆弱性を明らかにする。
我々は、学習した画像圧縮機を前処理モジュールとして利用する画像分類モデルをターゲットにした新しいパイプラインを提案する。
論文 参考訳(メタデータ) (2024-01-06T03:03:28Z) - Progressive Learning with Visual Prompt Tuning for Variable-Rate Image
Compression [60.689646881479064]
本稿では,変圧器を用いた可変レート画像圧縮のためのプログレッシブラーニングパラダイムを提案する。
視覚的プロンプトチューニングにインスパイアされた私たちは,エンコーダ側とデコーダ側でそれぞれ入力画像と隠蔽特徴のプロンプトを抽出するためにLPMを使用する。
提案モデルでは, 速度歪み特性の観点から現行の可変画像法よりも優れ, スクラッチから訓練した最先端の固定画像圧縮法にアプローチする。
論文 参考訳(メタデータ) (2023-11-23T08:29:32Z) - Post-Training Quantization for Cross-Platform Learned Image Compression [15.67527732099067]
学習した画像圧縮が従来の画像符号化技術より優れていることが確認されている。
考慮すべき最も重要な問題の1つは、非決定論的計算である。
本稿では,学習後量子化の導入によってこの問題を解決することを提案する。
論文 参考訳(メタデータ) (2022-02-15T15:41:12Z) - Towards End-to-End Image Compression and Analysis with Transformers [99.50111380056043]
本稿では,クラウドベースの画像分類アプリケーションを対象として,トランスフォーマーを用いたエンドツーエンドの画像圧縮解析モデルを提案する。
我々は、圧縮された特徴から画像分類を行うためにビジョントランスフォーマー(ViT)モデルを再設計し、トランスフォーマーからの長期情報を用いて画像圧縮を容易にすることを目指している。
画像圧縮と分類作業の両方において,提案モデルの有効性を示す実験結果が得られた。
論文 参考訳(メタデータ) (2021-12-17T03:28:14Z) - Modeling Image Quantization Tradeoffs for Optimal Compression [0.0]
ロスシー圧縮アルゴリズムは、圧縮率を上げるために高周波データを定量化することでトレードオフを狙う。
本稿では,Deep Learningとminimax損失関数を用いた量子化テーブルの最適化手法を提案する。
論文 参考訳(メタデータ) (2021-12-14T07:35:22Z) - LC-FDNet: Learned Lossless Image Compression with Frequency
Decomposition Network [14.848279912686948]
近年の学習に基づく画像圧縮法では,高周波領域の性能低下は考慮されていない。
本稿では,低周波領域と高周波領域を分離処理するために,粗大な方法で符号化を進める新しい手法を提案する。
実験により,提案手法はベンチマーク高解像度データセットの最先端性能を実現することが示された。
論文 参考訳(メタデータ) (2021-12-13T04:49:34Z) - Substitutional Neural Image Compression [48.20906717052056]
置換型ニューラルイメージ圧縮(snic)は、あらゆるニューラルイメージ圧縮モデルを強化する一般的なアプローチである。
フレキシブルな歪みメトリックに向けて圧縮性能を高め、単一のモデルインスタンスを使用したビットレート制御を可能にする。
論文 参考訳(メタデータ) (2021-05-16T20:53:31Z) - Modeling Lost Information in Lossy Image Compression [72.69327382643549]
ロスシー画像圧縮は、デジタル画像の最もよく使われる演算子の1つである。
Invertible Lossy Compression (ILC) と呼ばれる新しい非可逆的フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-22T04:04:56Z) - Learning End-to-End Lossy Image Compression: A Benchmark [90.35363142246806]
まず,学習した画像の圧縮方法に関する総合的な文献調査を行う。
本稿では,最先端の学習画像圧縮手法のマイルストーンについて述べるとともに,既存の幅広い作品について概観し,その歴史的開発ルートについて考察する。
エントロピー推定と信号再構成のための粗大な超高次モデルを導入することにより、速度歪み性能の向上を実現する。
論文 参考訳(メタデータ) (2020-02-10T13:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。