論文の概要: Preprocessing Enhanced Image Compression for Machine Vision
- arxiv url: http://arxiv.org/abs/2206.05650v1
- Date: Sun, 12 Jun 2022 03:36:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-14 16:59:41.439032
- Title: Preprocessing Enhanced Image Compression for Machine Vision
- Title(参考訳): マシンビジョンのための前処理強調画像圧縮
- Authors: Guo Lu, Xingtong Ge, Tianxiong Zhong, Jing Geng, Qiang Hu
- Abstract要約: 本稿では,マシンビジョンタスクのための前処理による画像圧縮手法を提案する。
私たちのフレームワークは従来の非微分コーデックの上に構築されています。
実験の結果,提案手法は,約20%の節約により,ダウンストリームマシンビジョンタスクのコーディングと性能のトレードオフを向上することが示された。
- 参考スコア(独自算出の注目度): 14.895698385236937
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, more and more images are compressed and sent to the back-end
devices for the machine analysis tasks~(\textit{e.g.,} object detection)
instead of being purely watched by humans. However, most traditional or learned
image codecs are designed to minimize the distortion of the human visual system
without considering the increased demand from machine vision systems. In this
work, we propose a preprocessing enhanced image compression method for machine
vision tasks to address this challenge. Instead of relying on the learned image
codecs for end-to-end optimization, our framework is built upon the traditional
non-differential codecs, which means it is standard compatible and can be
easily deployed in practical applications. Specifically, we propose a neural
preprocessing module before the encoder to maintain the useful semantic
information for the downstream tasks and suppress the irrelevant information
for bitrate saving. Furthermore, our neural preprocessing module is
quantization adaptive and can be used in different compression ratios. More
importantly, to jointly optimize the preprocessing module with the downstream
machine vision tasks, we introduce the proxy network for the traditional
non-differential codecs in the back-propagation stage. We provide extensive
experiments by evaluating our compression method for two representative
downstream tasks with different backbone networks. Experimental results show
our method achieves a better trade-off between the coding bitrate and the
performance of the downstream machine vision tasks by saving about 20% bitrate.
- Abstract(参考訳): 近年、多くの画像が圧縮され、人間によって監視されるのではなく、マシン分析タスク~(\textit{e,} object detection)用のバックエンドデバイスに送られるようになっている。
しかし、従来の画像コーデックの多くは、マシンビジョンシステムからの需要の増加を考慮せずに、人間の視覚システムの歪みを最小限に抑えるように設計されている。
本稿では,この課題に対処するために,機械ビジョンタスクのための前処理強化画像圧縮手法を提案する。
エンドツーエンド最適化のために学習したイメージコーデックに頼る代わりに、このフレームワークは従来の非微分コーデック上に構築されています。
具体的には、エンコーダの前のニューラルプリプロセッシングモジュールを提案し、下流のタスクに有用なセマンティック情報を保持し、ビットレート保存の無関係な情報を抑制する。
さらに, 神経前処理モジュールは量子化適応であり, 異なる圧縮比で使用できる。
さらに、前処理モジュールと下流マシンビジョンタスクを協調的に最適化するために、バックプロパゲーション段階で従来の非微分コーデックのためのプロキシネットワークを導入する。
異なるバックボーンネットワークを持つ2つの下流タスクの圧縮法を評価することで、広範囲な実験を行う。
実験の結果,約20%のビットレートを節約することで,符号化ビットレートと下流マシンビジョンタスクの性能とのトレードオフが向上した。
関連論文リスト
- Rate-Distortion-Cognition Controllable Versatile Neural Image Compression [47.72668401825835]
速度歪み認識制御可能な多目的画像圧縮法を提案する。
本手法は, 良好なICM性能とフレキシブルレート・ディストーション・コグニテーション制御を実現する。
論文 参考訳(メタデータ) (2024-07-16T13:17:51Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - A Unified Image Preprocessing Framework For Image Compression [5.813935823171752]
そこで我々は,既存のコーデックの性能向上を図るために,Kuchenと呼ばれる統合された画像圧縮前処理フレームワークを提案する。
このフレームワークは、ハイブリッドデータラベリングシステムと、パーソナライズされた前処理をシミュレートする学習ベースのバックボーンで構成されている。
その結果,我々の統合前処理フレームワークによって最適化された現代のコーデックは,常に最先端圧縮の効率を向上することを示した。
論文 参考訳(メタデータ) (2022-08-15T10:41:00Z) - Estimating the Resize Parameter in End-to-end Learned Image Compression [50.20567320015102]
本稿では,最近の画像圧縮モデルの速度歪みトレードオフをさらに改善する検索自由化フレームワークについて述べる。
提案手法により,Bjontegaard-Deltaレート(BD-rate)を最大10%向上させることができる。
論文 参考訳(メタデータ) (2022-04-26T01:35:02Z) - Neural JPEG: End-to-End Image Compression Leveraging a Standard JPEG
Encoder-Decoder [73.48927855855219]
本稿では,エンコーダとデコーダの両端に内在するニューラル表現を強化することで,符号化性能の向上を図るシステムを提案する。
実験により,提案手法はJPEGに対する速度歪み性能を,様々な品質指標で改善することを示した。
論文 参考訳(メタデータ) (2022-01-27T20:20:03Z) - Implicit Neural Representations for Image Compression [103.78615661013623]
Inlicit Neural Representations (INRs) は、様々なデータ型の新規かつ効果的な表現として注目されている。
量子化、量子化を考慮した再学習、エントロピー符号化を含むINRに基づく最初の包括的圧縮パイプラインを提案する。
我々は、INRによるソース圧縮に対する我々のアプローチが、同様の以前の作業よりも大幅に優れていることに気付きました。
論文 参考訳(メタデータ) (2021-12-08T13:02:53Z) - End-to-end optimized image compression for multiple machine tasks [3.8323580808203785]
我々は,圧縮コンテンツの直接変換を可能にするために,デコーダとタスクアルゴリズムの間に挿入される「コネクタ」を導入する。
画像分類とオブジェクトセグメンテーションの両方において高いレート精度向上を実現し,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2021-03-06T19:09:05Z) - How to Exploit the Transferability of Learned Image Compression to
Conventional Codecs [25.622863999901874]
本稿では,学習した画像の符号化をサロゲートとして利用して,画像の符号化を最適化する方法を示す。
提案手法は,MS-SSIM歪みをデコードオーバーヘッドを伴わずに20%以上の速度改善で補正するために,従来の画像を再構成することができる。
論文 参考訳(メタデータ) (2020-12-03T12:34:51Z) - End-to-end optimized image compression for machines, a study [3.0448872422956437]
画像とビデオのコンテンツのシェアは、人間が見るのではなく、機械によって分析される。
従来のコーディングツールは、もともと人間の知覚のために設計されたマシンタスクを専門化するのが難しい。
ニューラルネットワークベースのコーデックは、任意の畳み込みニューラルネットワーク(CNN)ベースのタスクモデルと、エンドツーエンドで共同でトレーニングすることができる。
論文 参考訳(メタデータ) (2020-11-10T20:10:43Z) - Content Adaptive and Error Propagation Aware Deep Video Compression [110.31693187153084]
本稿では,コンテンツ適応型・誤り伝搬対応型ビデオ圧縮システムを提案する。
本手法では, 複数フレームの圧縮性能を1フレームではなく複数フレームで考慮し, 共同学習手法を用いる。
従来の圧縮システムでは手作りのコーディングモードを使用する代わりに,オンラインエンコーダ更新方式をシステム内に設計する。
論文 参考訳(メタデータ) (2020-03-25T09:04:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。