論文の概要: Hierarchical Semantic Compression for Consistent Image Semantic Restoration
- arxiv url: http://arxiv.org/abs/2502.16799v1
- Date: Mon, 24 Feb 2025 03:20:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:54:09.643334
- Title: Hierarchical Semantic Compression for Consistent Image Semantic Restoration
- Title(参考訳): 画像セマンティック復元のための階層的セマンティック圧縮
- Authors: Shengxi Li, Zifu Zhang, Mai Xu, Lai Jiang, Yufan Liu, Ce Zhu,
- Abstract要約: 生成モデルから固有意味空間内で純粋に機能する新しい階層意味圧縮(HSC)フレームワークを提案する。
実験の結果,提案したHSCフレームワークは人間の視力に対する主観的品質と一貫性に関する最先端の性能を実現することが示された。
- 参考スコア(独自算出の注目度): 62.97519327310638
- License:
- Abstract: The emerging semantic compression has been receiving increasing research efforts most recently, capable of achieving high fidelity restoration during compression, even at extremely low bitrates. However, existing semantic compression methods typically combine standard pipelines with either pre-defined or high-dimensional semantics, thus suffering from deficiency in compression. To address this issue, we propose a novel hierarchical semantic compression (HSC) framework that purely operates within intrinsic semantic spaces from generative models, which is able to achieve efficient compression for consistent semantic restoration. More specifically, we first analyse the entropy models for the semantic compression, which motivates us to employ a hierarchical architecture based on a newly developed general inversion encoder. Then, we propose the feature compression network (FCN) and semantic compression network (SCN), such that the middle-level semantic feature and core semantics are hierarchically compressed to restore both accuracy and consistency of image semantics, via an entropy model progressively shared by channel-wise context. Experimental results demonstrate that the proposed HSC framework achieves the state-of-the-art performance on subjective quality and consistency for human vision, together with superior performances on machine vision tasks given compressed bitstreams. This essentially coincides with human visual system in understanding images, thus providing a new framework for future image/video compression paradigms. Our code shall be released upon acceptance.
- Abstract(参考訳): 出現するセマンティック圧縮は近年、非常に低ビットレートでも、圧縮中に高い忠実性回復を達成することができる研究努力が増えている。
しかし、既存のセマンティック圧縮法は、通常、標準的なパイプラインと事前定義されたあるいは高次元のセマンティックスを組み合わせ、圧縮の欠如に悩まされる。
そこで本研究では,階層型セマンティック圧縮(HSC)フレームワークを提案する。このフレームワークは生成モデルから本質的なセマンティック空間内で純粋に動作し,一貫性のあるセマンティック復元のための効率的な圧縮を実現する。
より具体的には、まず意味圧縮のためのエントロピーモデルを解析し、新たに開発された汎用インバージョンエンコーダをベースとした階層型アーキテクチャを採用する動機付けとなる。
そこで本稿では,中間レベルのセマンティクスとコアセマンティクスを階層的に圧縮し,エントロピーモデルを用いて,画像セマンティクスの精度と一貫性を回復する機能圧縮ネットワーク(FCN)とセマンティクス圧縮ネットワーク(SCN)を提案する。
実験により,提案したHSCフレームワークは,圧縮されたビットストリームのマシンビジョンタスクにおいて優れた性能とともに,人間の視覚に対する主観的品質と一貫性の最先端性能を実現することが示された。
これは、画像理解における人間の視覚システムと基本的に一致し、将来の画像/ビデオ圧縮パラダイムのための新しいフレームワークを提供する。
我々のコードは受理時に解放される。
関連論文リスト
- Large Language Models for Lossless Image Compression: Next-Pixel Prediction in Language Space is All You Need [53.584140947828004]
前例のないインテリジェンスを持つ言語大モデル(LLM)は、様々なデータモダリティのための汎用ロスレス圧縮機である。
P$2$-LLMは,様々な入念な洞察と方法論を統合した次世代の予測型LLMである。
ベンチマークデータセットの実験では、P$2$-LLMがSOTAの古典的および学習的コーデックに勝ることを示した。
論文 参考訳(メタデータ) (2024-11-19T12:15:40Z) - Learned Image Compression for HE-stained Histopathological Images via Stain Deconvolution [33.69980388844034]
本稿では,一般的なJPEGアルゴリズムがさらなる圧縮に適していないことを示す。
Stain Quantized Latent Compression, a novel DL based histopathology data compression approach。
提案手法はJPEGのような従来の手法と比較して,下流タスクの分類において優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2024-06-18T13:47:17Z) - Unifying Generation and Compression: Ultra-low bitrate Image Coding Via
Multi-stage Transformer [35.500720262253054]
本稿では,新しい画像生成圧縮(UIGC)パラダイムを導入し,生成と圧縮のプロセスを統合する。
UIGCフレームワークの重要な特徴は、トークン化にベクトル量子化(VQ)イメージモデルを採用することである。
実験では、既存のコーデックよりも知覚品質と人間の知覚において、提案されたUIGCフレームワークが優れていることを示した。
論文 参考訳(メタデータ) (2024-03-06T14:27:02Z) - Transferable Learned Image Compression-Resistant Adversarial Perturbations [66.46470251521947]
敵対的攻撃は容易に画像分類システムを破壊し、DNNベースの認識タスクの脆弱性を明らかにする。
我々は、学習した画像圧縮機を前処理モジュールとして利用する画像分類モデルをターゲットにした新しいパイプラインを提案する。
論文 参考訳(メタデータ) (2024-01-06T03:03:28Z) - Extreme Image Compression using Fine-tuned VQGANs [43.43014096929809]
本稿ではベクトル量子化(VQ)に基づく生成モデルを画像圧縮領域に導入する。
VQGANモデルによって学習されたコードブックは、強い表現能力をもたらす。
提案したフレームワークは、知覚的品質指向のメトリクスで最先端のコーデックより優れている。
論文 参考訳(メタデータ) (2023-07-17T06:14:19Z) - Cross Modal Compression: Towards Human-comprehensible Semantic
Compression [73.89616626853913]
クロスモーダル圧縮は、視覚データのためのセマンティック圧縮フレームワークである。
提案したCMCは,超高圧縮比で再現性の向上が期待できることを示す。
論文 参考訳(メタデータ) (2022-09-06T15:31:11Z) - Neural JPEG: End-to-End Image Compression Leveraging a Standard JPEG
Encoder-Decoder [73.48927855855219]
本稿では,エンコーダとデコーダの両端に内在するニューラル表現を強化することで,符号化性能の向上を図るシステムを提案する。
実験により,提案手法はJPEGに対する速度歪み性能を,様々な品質指標で改善することを示した。
論文 参考訳(メタデータ) (2022-01-27T20:20:03Z) - Implicit Neural Representations for Image Compression [103.78615661013623]
Inlicit Neural Representations (INRs) は、様々なデータ型の新規かつ効果的な表現として注目されている。
量子化、量子化を考慮した再学習、エントロピー符号化を含むINRに基づく最初の包括的圧縮パイプラインを提案する。
我々は、INRによるソース圧縮に対する我々のアプローチが、同様の以前の作業よりも大幅に優れていることに気付きました。
論文 参考訳(メタデータ) (2021-12-08T13:02:53Z) - Thousand to One: Semantic Prior Modeling for Conceptual Coding [26.41657489930382]
画像圧縮を極端に少ないものにするための概念符号化方式を提案する。
意味セグメンテーションマップを構造的指導として深層セグメンテーションの事前抽出を行う。
空間独立意味論のチャネル間相関をさらに活用するために, チャネル間エントロピーモデルを提案する。
論文 参考訳(メタデータ) (2021-03-12T08:02:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。