論文の概要: Perceptual Video Coding for Machines via Satisfied Machine Ratio
Modeling
- arxiv url: http://arxiv.org/abs/2211.06797v3
- Date: Tue, 9 Jan 2024 13:02:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-10 20:52:23.628110
- Title: Perceptual Video Coding for Machines via Satisfied Machine Ratio
Modeling
- Title(参考訳): 満足度マシン比モデリングによる機械の知覚映像符号化
- Authors: Qi Zhang, Shanshe Wang, Xinfeng Zhang, Chuanmin Jia, Zhao Wang, Siwei
Ma, Wen Gao
- Abstract要約: Satisfied Machine Ratio (SMR) は、圧縮された画像やビデオの知覚的品質を評価するメトリクスである。
SMRは機械の知覚的コーディングを可能にし、機械のためのビデオ符号化を特異性から一般性まで推進する。
- 参考スコア(独自算出の注目度): 66.56355316611598
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video Coding for Machines (VCM) aims to compress visual signals for machine
analysis. However, existing methods only consider a few machines, neglecting
the majority. Moreover, the machine's perceptual characteristics are not
leveraged effectively, resulting in suboptimal compression efficiency. To
overcome these limitations, this paper introduces Satisfied Machine Ratio
(SMR), a metric that statistically evaluates the perceptual quality of
compressed images and videos for machines by aggregating satisfaction scores
from them. Each score is derived from machine perceptual differences between
original and compressed images. Targeting image classification and object
detection tasks, we build two representative machine libraries for SMR
annotation and create a large-scale SMR dataset to facilitate SMR studies. We
then propose an SMR prediction model based on the correlation between deep
feature differences and SMR. Furthermore, we introduce an auxiliary task to
increase the prediction accuracy by predicting the SMR difference between two
images in different quality. Extensive experiments demonstrate that SMR models
significantly improve compression performance for machines and exhibit robust
generalizability on unseen machines, codecs, datasets, and frame types. SMR
enables perceptual coding for machines and propels VCM from specificity to
generality. Code is available at https://github.com/ywwynm/SMR.
- Abstract(参考訳): Video Coding for Machines (VCM) は、機械分析のための視覚信号を圧縮することを目的としている。
しかし、既存のメソッドは少数のマシンのみを考慮し、大多数を無視する。
さらに、マシンの知覚特性を効果的に活用せず、最適下圧縮効率が向上する。
そこで本稿では,これらの制約を克服するために,圧縮画像と映像の知覚品質を統計的に評価し,満足度スコアを集計して評価する「満足度マシン比(smr)」を提案する。
各スコアは、オリジナル画像と圧縮画像の機械知覚の違いに由来する。
画像分類とオブジェクト検出タスクを目標とし、SMRアノテーションのための2つの代表的なマシンライブラリを構築し、SMR研究を容易にする大規模なSMRデータセットを作成する。
次に,深い特徴量差とsmrとの相関に基づくsmr予測モデルを提案する。
さらに,2つの画像間のsmr差を異なる品質で予測することにより,予測精度を向上させる補助タスクを提案する。
広範な実験により、smrモデルがマシンの圧縮性能を大幅に改善し、未知のマシン、コーデック、データセット、フレームタイプにおいて堅牢な一般化性を示すことが示されている。
SMRは機械の知覚的コーディングを可能にし、VCMを特異性から一般性まで推進する。
コードはhttps://github.com/ywwynm/SMRで入手できる。
関連論文リスト
- A Rate-Distortion-Classification Approach for Lossy Image Compression [0.0]
損失画像圧縮では、画像を特定のビットレートに圧縮しながら、最小限の信号歪みを実現する。
画像圧縮と視覚解析のギャップを埋めるために、損失画像圧縮のためのRDCモデルを提案する。
論文 参考訳(メタデータ) (2024-05-06T14:11:36Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - VVC+M: Plug and Play Scalable Image Coding for Humans and Machines [25.062104976775448]
人間や機械のスケーラブルな符号化では、機械に使用される圧縮表現がさらに活用され、入力再構成が可能となる。
本稿では,VVCなどのビデオコーデックの残差符号化機能を利用して,任意の画像圧縮(ICM)方式からスケーラブルな画像を生成することを提案する。
論文 参考訳(メタデータ) (2023-05-17T00:22:39Z) - Modality-Agnostic Variational Compression of Implicit Neural
Representations [96.35492043867104]
Inlicit Neural Representation (INR) としてパラメータ化されたデータの関数的ビューに基づくモーダリティ非依存型ニューラル圧縮アルゴリズムを提案する。
潜時符号化と疎性の間のギャップを埋めて、ソフトゲーティング機構に非直線的にマッピングされたコンパクト潜時表現を得る。
このような潜在表現のデータセットを得た後、ニューラル圧縮を用いてモーダリティ非依存空間におけるレート/歪みトレードオフを直接最適化する。
論文 参考訳(メタデータ) (2023-01-23T15:22:42Z) - A New Image Codec Paradigm for Human and Machine Uses [53.48873918537017]
本研究では,人間用と機械用の両方にスケーラブルな画像パラダイムを提案する。
高レベルのインスタンスセグメンテーションマップと低レベルの信号特徴をニューラルネットワークで抽出する。
画像は16ビットのグレースケールプロファイルと信号特徴を持つ一般的な画質のイメージ再構成を実現するために設計および訓練される。
論文 参考訳(メタデータ) (2021-12-19T06:17:38Z) - Video Coding for Machine: Compact Visual Representation Compression for
Intelligent Collaborative Analytics [101.35754364753409]
Video Coding for Machines (VCM) は、ビデオ/画像圧縮と特徴圧縮をある程度別々の研究トラックにブリッジすることを約束している。
本稿では,既存の学術・産業活動に基づくVCM方法論と哲学を要約する。
論文 参考訳(メタデータ) (2021-10-18T12:42:13Z) - Deep Optimized Multiple Description Image Coding via Scalar Quantization
Learning [37.00592782976494]
多重記述(MD)圧縮損失を最小限に抑えることで最適化された深層多重記述符号化(MDC)フレームワークを提案する。
これら2種類のネットワークからなる自動エンコーダネットワークを対称パラメータ共有構造として設計する。
我々のフレームワークは、いくつかの一般的なデータセットでテストした場合、画像符号化効率に関する最先端のMDCアプローチよりも優れている。
論文 参考訳(メタデータ) (2020-01-12T05:03:16Z) - An Emerging Coding Paradigm VCM: A Scalable Coding Approach Beyond
Feature and Signal [99.49099501559652]
Video Coding for Machine (VCM)は、視覚的特徴圧縮と古典的なビデオ符号化のギャップを埋めることを目的としている。
我々は,学習した動きパターンのガイダンスを用いて,映像フレームを再構成するために条件付き深層生成ネットワークを用いる。
予測モデルを介してスパース動作パターンを抽出することを学ぶことにより、特徴表現をエレガントに活用し、符号化されたフレームの外観を生成する。
論文 参考訳(メタデータ) (2020-01-09T14:18:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。