論文の概要: Rate-Distortion-Cognition Controllable Versatile Neural Image Compression
- arxiv url: http://arxiv.org/abs/2407.11700v2
- Date: Wed, 17 Jul 2024 06:26:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-18 11:42:46.324692
- Title: Rate-Distortion-Cognition Controllable Versatile Neural Image Compression
- Title(参考訳): 速度歪み認知制御型可変ニューラルイメージ圧縮
- Authors: Jinming Liu, Ruoyu Feng, Yunpeng Qi, Qiuyu Chen, Zhibo Chen, Wenjun Zeng, Xin Jin,
- Abstract要約: 速度歪み認識制御可能な多目的画像圧縮法を提案する。
本手法は, 良好なICM性能とフレキシブルレート・ディストーション・コグニテーション制御を実現する。
- 参考スコア(独自算出の注目度): 47.72668401825835
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, the field of Image Coding for Machines (ICM) has garnered heightened interest and significant advances thanks to the rapid progress of learning-based techniques for image compression and analysis. Previous studies often require training separate codecs to support various bitrate levels, machine tasks, and networks, thus lacking both flexibility and practicality. To address these challenges, we propose a rate-distortion-cognition controllable versatile image compression, which method allows the users to adjust the bitrate (i.e., Rate), image reconstruction quality (i.e., Distortion), and machine task accuracy (i.e., Cognition) with a single neural model, achieving ultra-controllability. Specifically, we first introduce a cognition-oriented loss in the primary compression branch to train a codec for diverse machine tasks. This branch attains variable bitrate by regulating quantization degree through the latent code channels. To further enhance the quality of the reconstructed images, we employ an auxiliary branch to supplement residual information with a scalable bitstream. Ultimately, two branches use a `$\beta x + (1 - \beta) y$' interpolation strategy to achieve a balanced cognition-distortion trade-off. Extensive experiments demonstrate that our method yields satisfactory ICM performance and flexible Rate-Distortion-Cognition controlling.
- Abstract(参考訳): 近年,画像圧縮・解析の学習技術が急速に進歩し,画像符号化(ICM)分野への関心が高まっている。
従来の研究では、様々なビットレートレベル、マシンタスク、ネットワークをサポートするために別々のコーデックを訓練する必要があることが多く、柔軟性と実用性の両方が欠如している。
これらの課題に対処するために、レート歪み認識制御可能な多目的画像圧縮を提案する。これは、ユーザがビットレート(レート)、画像再構成品質(歪み)、マシンタスク精度(認知)を1つのニューラルモデルで調整し、超制御性を実現する方法である。
具体的には、まず第一圧縮分岐において認知指向の損失を導入し、多様なマシンタスクのためのコーデックを訓練する。
この分岐は、潜時符号チャネルを通して量子化度を調節することで可変ビットレートを得る。
再構成画像の品質をさらに高めるために、我々は、拡張性のあるビットストリームで残余情報を補う補助分岐を用いる。
最終的に、2つの枝は '$\beta x + (1 - \beta) y$' 補間戦略を使用して、バランスの取れた認識歪曲トレードオフを達成する。
拡張実験により,本手法は良好なICM性能とフレキシブルレート・ディストーション・コグニテーション制御が得られることが示された。
関連論文リスト
- Once-for-All: Controllable Generative Image Compression with Dynamic Granularity Adaption [57.056311855630916]
本稿では,制御可能な生成画像圧縮フレームワークである制御-GICを提案する。
高忠実度および一般性圧縮を確保しつつ、広帯域での微粒化適応を可能にする。
我々は、歴史的符号化された多粒度表現に遡ることができる条件条件付き条件付けを開発する。
論文 参考訳(メタデータ) (2024-06-02T14:22:09Z) - Semantic Ensemble Loss and Latent Refinement for High-Fidelity Neural
Image Compression [62.888755394395716]
本研究は、最適な視覚的忠実度のために設計された強化されたニューラル圧縮手法を提案する。
我々は,洗練されたセマンティック・アンサンブル・ロス,シャルボニエ・ロス,知覚的損失,スタイル・ロス,非バイナリ・ディバイザ・ロスを組み込んだモデルを構築した。
実験により,本手法は神経画像圧縮の統計的忠実度を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-01-25T08:11:27Z) - Extreme Image Compression using Fine-tuned VQGANs [43.43014096929809]
本稿ではベクトル量子化(VQ)に基づく生成モデルを画像圧縮領域に導入する。
VQGANモデルによって学習されたコードブックは、強い表現能力をもたらす。
提案したフレームワークは、知覚的品質指向のメトリクスで最先端のコーデックより優れている。
論文 参考訳(メタデータ) (2023-07-17T06:14:19Z) - Improving Multi-generation Robustness of Learned Image Compression [16.86614420872084]
ネットワーク構造を変更せずに50回再符号化しても,BPGの最初の圧縮に匹敵する性能が得られることを示す。
論文 参考訳(メタデータ) (2022-10-31T03:26:11Z) - Preprocessing Enhanced Image Compression for Machine Vision [14.895698385236937]
本稿では,マシンビジョンタスクのための前処理による画像圧縮手法を提案する。
私たちのフレームワークは従来の非微分コーデックの上に構築されています。
実験の結果,提案手法は,約20%の節約により,ダウンストリームマシンビジョンタスクのコーディングと性能のトレードオフを向上することが示された。
論文 参考訳(メタデータ) (2022-06-12T03:36:38Z) - Neural JPEG: End-to-End Image Compression Leveraging a Standard JPEG
Encoder-Decoder [73.48927855855219]
本稿では,エンコーダとデコーダの両端に内在するニューラル表現を強化することで,符号化性能の向上を図るシステムを提案する。
実験により,提案手法はJPEGに対する速度歪み性能を,様々な品質指標で改善することを示した。
論文 参考訳(メタデータ) (2022-01-27T20:20:03Z) - Implicit Neural Representations for Image Compression [103.78615661013623]
Inlicit Neural Representations (INRs) は、様々なデータ型の新規かつ効果的な表現として注目されている。
量子化、量子化を考慮した再学習、エントロピー符号化を含むINRに基づく最初の包括的圧縮パイプラインを提案する。
我々は、INRによるソース圧縮に対する我々のアプローチが、同様の以前の作業よりも大幅に優れていることに気付きました。
論文 参考訳(メタデータ) (2021-12-08T13:02:53Z) - Modeling Lost Information in Lossy Image Compression [72.69327382643549]
ロスシー画像圧縮は、デジタル画像の最もよく使われる演算子の1つである。
Invertible Lossy Compression (ILC) と呼ばれる新しい非可逆的フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-22T04:04:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。