論文の概要: Perceptual Video Coding for Machines via Satisfied Machine Ratio
Modeling
- arxiv url: http://arxiv.org/abs/2211.06797v2
- Date: Sun, 10 Sep 2023 05:28:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 23:03:02.651529
- Title: Perceptual Video Coding for Machines via Satisfied Machine Ratio
Modeling
- Title(参考訳): 満足度マシン比モデリングによる機械の知覚映像符号化
- Authors: Qi Zhang, Shanshe Wang, Xinfeng Zhang, Chuanmin Jia, Zhao Wang, Siwei
Ma, Wen Gao
- Abstract要約: Video Coding for Machines (VCM) は、機械分析のための視覚信号を圧縮することを目的としている。
本稿では,これらの問題に対処するためにSMR(Satisfied Machine Ratio)を提案する。
SMRは、機械の圧縮画像やビデオの品質を統計的に測定し、それらから満足度スコアを収集する。
- 参考スコア(独自算出の注目度): 66.56355316611598
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video Coding for Machines (VCM) aims to compress visual signals for machine
analysis. However, existing methods only consider a few machines, neglecting
the majority. Moreover, the machine perceptual characteristics are not
effectively leveraged, leading to suboptimal compression efficiency. In this
paper, we introduce Satisfied Machine Ratio (SMR) to address these issues. SMR
statistically measures the quality of compressed images and videos for machines
by aggregating satisfaction scores from them. Each score is calculated based on
the difference in machine perceptions between original and compressed images.
Targeting image classification and object detection tasks, we build two
representative machine libraries for SMR annotation and construct a large-scale
SMR dataset to facilitate SMR studies. We then propose an SMR prediction model
based on the correlation between deep features differences and SMR.
Furthermore, we introduce an auxiliary task to increase the prediction accuracy
by predicting the SMR difference between two images in different quality
levels. Extensive experiments demonstrate that using the SMR models
significantly improves compression performance for VCM, and the SMR models
generalize well to unseen machines, traditional and neural codecs, and
datasets. In summary, SMR enables perceptual coding for machines and advances
VCM from specificity to generality. Code is available at
\url{https://github.com/ywwynm/SMR}.
- Abstract(参考訳): Video Coding for Machines (VCM) は、機械分析のための視覚信号を圧縮することを目的としている。
しかし、既存のメソッドは少数のマシンのみを考慮し、大多数を無視する。
さらに,機械の知覚特性は有効に活用されず,最適下圧縮効率が向上する。
本稿では,これらの問題に対処するためにSMR(Satisfied Machine Ratio)を提案する。
SMRは、圧縮画像とビデオの品質を統計的に測定し、それらから満足度スコアを収集する。
各スコアは、原画像と圧縮画像の機械知覚の差に基づいて算出される。
画像分類とオブジェクト検出タスクを目標とし、SMRアノテーションのための2つの代表的なマシンライブラリを構築し、SMR研究を容易にする大規模なSMRデータセットを構築する。
次に,深部特徴差とSMRとの相関に基づくSMR予測モデルを提案する。
さらに,画質の異なる2つの画像間のsmr差を予測し,予測精度を向上させる補助タスクを提案する。
大規模な実験では、SMRモデルを使用することで、VCMの圧縮性能が大幅に向上し、SMRモデルは見えないマシン、従来型およびニューラルコーデック、データセットによく一般化されている。
要約すると、SMRは機械の知覚的コーディングを可能にし、VCMを特異性から一般性へと進化させる。
コードは \url{https://github.com/ywwynm/SMR} で入手できる。
関連論文リスト
- Machine vision-aware quality metrics for compressed image and video assessment [0.0]
現代のビデオ分析の取り組みには、人間の介入を最小限に抑えたマシンビジョン処理を必要とするほど多くのデータが含まれている。
本稿では,圧縮が検出および認識アルゴリズムに与える影響について検討する。
マシンビジョンに合わせて、各タスクに新しいフル参照イメージ/ビデオ品質メトリクスを導入している。
論文 参考訳(メタデータ) (2024-11-11T08:07:34Z) - A Rate-Distortion-Classification Approach for Lossy Image Compression [0.0]
損失画像圧縮では、画像を特定のビットレートに圧縮しながら、最小限の信号歪みを実現する。
画像圧縮と視覚解析のギャップを埋めるために、損失画像圧縮のためのRDCモデルを提案する。
論文 参考訳(メタデータ) (2024-05-06T14:11:36Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - VVC+M: Plug and Play Scalable Image Coding for Humans and Machines [25.062104976775448]
人間や機械のスケーラブルな符号化では、機械に使用される圧縮表現がさらに活用され、入力再構成が可能となる。
本稿では,VVCなどのビデオコーデックの残差符号化機能を利用して,任意の画像圧縮(ICM)方式からスケーラブルな画像を生成することを提案する。
論文 参考訳(メタデータ) (2023-05-17T00:22:39Z) - Modality-Agnostic Variational Compression of Implicit Neural
Representations [96.35492043867104]
Inlicit Neural Representation (INR) としてパラメータ化されたデータの関数的ビューに基づくモーダリティ非依存型ニューラル圧縮アルゴリズムを提案する。
潜時符号化と疎性の間のギャップを埋めて、ソフトゲーティング機構に非直線的にマッピングされたコンパクト潜時表現を得る。
このような潜在表現のデータセットを得た後、ニューラル圧縮を用いてモーダリティ非依存空間におけるレート/歪みトレードオフを直接最適化する。
論文 参考訳(メタデータ) (2023-01-23T15:22:42Z) - A New Image Codec Paradigm for Human and Machine Uses [53.48873918537017]
本研究では,人間用と機械用の両方にスケーラブルな画像パラダイムを提案する。
高レベルのインスタンスセグメンテーションマップと低レベルの信号特徴をニューラルネットワークで抽出する。
画像は16ビットのグレースケールプロファイルと信号特徴を持つ一般的な画質のイメージ再構成を実現するために設計および訓練される。
論文 参考訳(メタデータ) (2021-12-19T06:17:38Z) - Video Coding for Machine: Compact Visual Representation Compression for
Intelligent Collaborative Analytics [101.35754364753409]
Video Coding for Machines (VCM) は、ビデオ/画像圧縮と特徴圧縮をある程度別々の研究トラックにブリッジすることを約束している。
本稿では,既存の学術・産業活動に基づくVCM方法論と哲学を要約する。
論文 参考訳(メタデータ) (2021-10-18T12:42:13Z) - Deep Optimized Multiple Description Image Coding via Scalar Quantization
Learning [37.00592782976494]
多重記述(MD)圧縮損失を最小限に抑えることで最適化された深層多重記述符号化(MDC)フレームワークを提案する。
これら2種類のネットワークからなる自動エンコーダネットワークを対称パラメータ共有構造として設計する。
我々のフレームワークは、いくつかの一般的なデータセットでテストした場合、画像符号化効率に関する最先端のMDCアプローチよりも優れている。
論文 参考訳(メタデータ) (2020-01-12T05:03:16Z) - An Emerging Coding Paradigm VCM: A Scalable Coding Approach Beyond
Feature and Signal [99.49099501559652]
Video Coding for Machine (VCM)は、視覚的特徴圧縮と古典的なビデオ符号化のギャップを埋めることを目的としている。
我々は,学習した動きパターンのガイダンスを用いて,映像フレームを再構成するために条件付き深層生成ネットワークを用いる。
予測モデルを介してスパース動作パターンを抽出することを学ぶことにより、特徴表現をエレガントに活用し、符号化されたフレームの外観を生成する。
論文 参考訳(メタデータ) (2020-01-09T14:18:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。