論文の概要: Image coding for machines: an end-to-end learned approach
- arxiv url: http://arxiv.org/abs/2108.09993v1
- Date: Mon, 23 Aug 2021 07:54:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-24 15:53:04.447826
- Title: Image coding for machines: an end-to-end learned approach
- Title(参考訳): 機械のイメージコーディング--エンドツーエンドの学習アプローチ
- Authors: Nam Le, Honglei Zhang, Francesco Cricri, Ramin Ghaznavi-Youvalari, Esa
Rahtu
- Abstract要約: 本稿では,ニューラルネットワーク(NN)とエンドツーエンド学習を併用したマシンのための画像を提案する。
我々のNNベースのタスクは、オブジェクト検出およびインスタンス分割タスクにおいて、最先端のVersa-tile Video Coding(VVC)標準よりも優れていることを示す。
私たちの知る限りでは、これが初めて学習された機械学習画像の歪みである。
- 参考スコア(独自算出の注目度): 23.92748892163087
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Over recent years, deep learning-based computer vision systems have been
applied to images at an ever-increasing pace, oftentimes representing the only
type of consumption for those images. Given the dramatic explosion in the
number of images generated per day, a question arises: how much better would an
image codec targeting machine-consumption perform against state-of-the-art
codecs targeting human-consumption? In this paper, we propose an image codec
for machines which is neural network (NN) based and end-to-end learned. In
particular, we propose a set of training strategies that address the delicate
problem of balancing competing loss functions, such as computer vision task
losses, image distortion losses, and rate loss. Our experimental results show
that our NN-based codec outperforms the state-of-the-art Versa-tile Video
Coding (VVC) standard on the object detection and instance segmentation tasks,
achieving -37.87% and -32.90% of BD-rate gain, respectively, while being fast
thanks to its compact size. To the best of our knowledge, this is the first
end-to-end learned machine-targeted image codec.
- Abstract(参考訳): 近年では、深層学習に基づくコンピュータビジョンシステムが画像に応用され続けており、多くの場合、画像の唯一の消費形態を表している。
マシン消費を対象とする画像コーデックは、人間の消費を対象とする最先端のコーデックに対して、どの程度の精度で機能するのか?
本稿では,ニューラルネットワーク(nn)をベースとし,エンドツーエンド学習を行うマシンのためのイメージコーデックを提案する。
特に,コンピュータビジョンタスク損失,画像歪み損失,レート損失といった,競合する損失関数のバランスに関する微妙な問題に対処するトレーニング戦略を提案する。
我々のNNベースのコーデックは、オブジェクト検出タスクとインスタンスセグメンテーションタスクにおける最先端のVersa-tile Video Coding(VVC)標準よりも優れており、そのコンパクトさにより、それぞれ-37.87%と-32.90%のBDレートゲインを達成した。
我々の知る限りでは、これが最初のエンドツーエンドの機械学習画像コーデックである。
関連論文リスト
- Tell Codec What Worth Compressing: Semantically Disentangled Image Coding for Machine with LMMs [47.7670923159071]
我々は,LMM(Large Multimodal Models)の常識を巧みに活用して,「機械のためのインテリジェントコーディング」を実現するための新しい画像圧縮パラダイムを提案する。
textitSemantically textitDisentangled textitCompression'' の textitSDComp' メソッドをダブし、様々な視覚タスクの最先端コーデックと比較する。
論文 参考訳(メタデータ) (2024-08-16T07:23:18Z) - Rate-Distortion-Cognition Controllable Versatile Neural Image Compression [47.72668401825835]
速度歪み認識制御可能な多目的画像圧縮法を提案する。
本手法は, 良好なICM性能とフレキシブルレート・ディストーション・コグニテーション制御を実現する。
論文 参考訳(メタデータ) (2024-07-16T13:17:51Z) - NN-VVC: Versatile Video Coding boosted by self-supervisedly learned
image coding for machines [19.183883119933558]
本稿では, NN-VVC という, E2E 学習画像と CVC の利点を組み合わせて, 画像符号化と映像符号化の両面において高い性能を実現するマシン用ハイブリッドを提案する。
実験の結果,提案システムは画像データとビデオデータのVVCよりも最大で-43.20%,-26.8%のBjontegaard Deltaレート低下を達成した。
論文 参考訳(メタデータ) (2024-01-19T15:33:46Z) - Bridging the gap between image coding for machines and humans [20.017766644567036]
監視などの多くのユースケースでは、圧縮処理によって視覚的品質が劇的に劣化しないことが重要である。
ニューラルネットワーク(NN)ベースのICMコーデックの使用に関する最近の研究は、従来の手法に対して大きなコードゲインを示している。
ICMの視覚的品質を大幅に向上させるために, 対角訓練に基づく効果的なデコーダファインタニング手法を提案する。
論文 参考訳(メタデータ) (2024-01-19T14:49:56Z) - Preprocessing Enhanced Image Compression for Machine Vision [14.895698385236937]
本稿では,マシンビジョンタスクのための前処理による画像圧縮手法を提案する。
私たちのフレームワークは従来の非微分コーデックの上に構築されています。
実験の結果,提案手法は,約20%の節約により,ダウンストリームマシンビジョンタスクのコーディングと性能のトレードオフを向上することが示された。
論文 参考訳(メタデータ) (2022-06-12T03:36:38Z) - Reducing Redundancy in the Bottleneck Representation of the Autoencoders [98.78384185493624]
オートエンコーダは教師なしニューラルネットワークの一種であり、様々なタスクを解くのに使用できる。
本稿では,ボトルネック表現における特徴冗長性を明示的に罰する手法を提案する。
我々は,3つの異なるデータセットを用いた次元削減,MNISTデータセットを用いた画像圧縮,ファッションMNISTを用いた画像デノナイズという,さまざまなタスクにまたがってアプローチを検証した。
論文 参考訳(メタデータ) (2022-02-09T18:48:02Z) - A New Image Codec Paradigm for Human and Machine Uses [53.48873918537017]
本研究では,人間用と機械用の両方にスケーラブルな画像パラダイムを提案する。
高レベルのインスタンスセグメンテーションマップと低レベルの信号特徴をニューラルネットワークで抽出する。
画像は16ビットのグレースケールプロファイルと信号特徴を持つ一般的な画質のイメージ再構成を実現するために設計および訓練される。
論文 参考訳(メタデータ) (2021-12-19T06:17:38Z) - Learned Image Coding for Machines: A Content-Adaptive Approach [24.749491401730065]
マシン間通信は新しい課題であり、データ圧縮の文脈で新しい視点を開く。
本稿では、エンドツーエンドの学習画像の潜在表現を最適化する推論時コンテンツ適応微調整手法を提案する。
我々のシステムは最先端画像/ビデオ符号化(VVC)に対して30.54%のBDレートを達成する。
論文 参考訳(メタデータ) (2021-08-23T07:53:35Z) - Image Restoration by Deep Projected GSURE [115.57142046076164]
Ill-posed inverse problem は、デブロアリングや超解像など、多くの画像処理アプリケーションに現れる。
本稿では,一般化されたSteinUnbiased Risk Estimator(GSURE)の「投影変換」とCNNによる潜在画像のパラメータ化を含む損失関数の最小化に基づく,新たな画像復元フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-04T08:52:46Z) - How to Exploit the Transferability of Learned Image Compression to
Conventional Codecs [25.622863999901874]
本稿では,学習した画像の符号化をサロゲートとして利用して,画像の符号化を最適化する方法を示す。
提案手法は,MS-SSIM歪みをデコードオーバーヘッドを伴わずに20%以上の速度改善で補正するために,従来の画像を再構成することができる。
論文 参考訳(メタデータ) (2020-12-03T12:34:51Z) - Analyzing and Mitigating JPEG Compression Defects in Deep Learning [69.04777875711646]
本稿では,JPEG圧縮が共通タスクやデータセットに与える影響を統一的に検討する。
高圧縮の一般的なパフォーマンス指標には大きなペナルティがあることが示される。
論文 参考訳(メタデータ) (2020-11-17T20:32:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。