論文の概要: SMR: Satisfied Machine Ratio Modeling for Machine Recognition-Oriented
Image and Video Compression
- arxiv url: http://arxiv.org/abs/2211.06797v1
- Date: Sun, 13 Nov 2022 03:16:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 18:15:55.883410
- Title: SMR: Satisfied Machine Ratio Modeling for Machine Recognition-Oriented
Image and Video Compression
- Title(参考訳): SMR: 機械認識指向画像と映像圧縮のための満足度マシン比モデリング
- Authors: Qi Zhang, Shanshe Wang, Xinfeng Zhang, Chuanmin Jia, Jingshan Pan,
Siwei Ma, Wen Gao
- Abstract要約: Satisfied Machine Ratio (SMR) は、画像の品質をマシンの観点から測定する。
SMR研究のための2200万以上の注釈付き画像を含む、最初の大規模SMRデータセットを作成します。
圧縮画像やビデオフレームのSMRを予測するために,ディープラーニングに基づくモデルを提案する。
- 参考スコア(独自算出の注目度): 80.94252399467156
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tons of images and videos are fed into machines for visual recognition all
the time. Like human vision system (HVS), machine vision system (MVS) is
sensitive to image quality, as quality degradation leads to information loss
and recognition failure. In recent years, MVS-targeted image processing,
particularly image and video compression, has emerged. However, existing
methods only target an individual machine rather than the general machine
community, thus cannot satisfy every type of machine. Moreover, the MVS
characteristics are not well leveraged, which limits compression efficiency. In
this paper, we introduce a new concept, Satisfied Machine Ratio (SMR), to
address these issues. SMR statistically measures the image quality from the
machine's perspective by collecting and combining satisfaction scores from a
large quantity and variety of machine subjects, where such scores are obtained
with MVS characteristics considered properly. We create the first large-scale
SMR dataset that contains over 22 million annotated images for SMR studies.
Furthermore, a deep learning-based model is proposed to predict the SMR for any
given compressed image or video frame. Extensive experiments show that using
the SMR model can significantly improve the performance of machine
recognition-oriented image and video compression. And the SMR model generalizes
well to unseen machines, compression frameworks, and datasets.
- Abstract(参考訳): 大量の画像やビデオが、視覚認識のためのマシンに常時供給される。
人間の視覚システム(HVS)と同様に、マシンビジョンシステム(MVS)は、品質劣化が情報損失と認識障害をもたらすため、画像の品質に敏感である。
近年,mvsを対象とする画像処理,特に画像圧縮や映像圧縮が登場している。
しかし、既存の手法は一般的なマシンコミュニティではなく個々のマシンのみを対象としているため、あらゆる種類のマシンを満足することができない。
さらに、圧縮効率を抑えるMVS特性は十分に活用されていない。
本稿では,これらの問題に対処するための新しい概念であるSatisfied Machine Ratio(SMR)を紹介する。
SMRは、多量・多種多様な機械被写体から満足度スコアを収集し、組み合わせることで、画像品質を機械の観点から統計的に測定し、そのスコアとMVS特性を適切に考慮した。
SMR研究のための2200万以上の注釈付き画像を含む、最初の大規模SMRデータセットを作成します。
さらに,圧縮画像やビデオフレームのSMRを予測するために,深層学習に基づくモデルを提案する。
大規模な実験により、SMRモデルを用いることで、認識指向画像とビデオ圧縮の性能が大幅に向上することが示された。
そして、smrモデルは、見えないマシン、圧縮フレームワーク、データセットにうまく一般化します。
関連論文リスト
- Machine vision-aware quality metrics for compressed image and video assessment [0.0]
現代のビデオ分析の取り組みには、人間の介入を最小限に抑えたマシンビジョン処理を必要とするほど多くのデータが含まれている。
本稿では,圧縮が検出および認識アルゴリズムに与える影響について検討する。
マシンビジョンに合わせて、各タスクに新しいフル参照イメージ/ビデオ品質メトリクスを導入している。
論文 参考訳(メタデータ) (2024-11-11T08:07:34Z) - A Rate-Distortion-Classification Approach for Lossy Image Compression [0.0]
損失画像圧縮では、画像を特定のビットレートに圧縮しながら、最小限の信号歪みを実現する。
画像圧縮と視覚解析のギャップを埋めるために、損失画像圧縮のためのRDCモデルを提案する。
論文 参考訳(メタデータ) (2024-05-06T14:11:36Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - VVC+M: Plug and Play Scalable Image Coding for Humans and Machines [25.062104976775448]
人間や機械のスケーラブルな符号化では、機械に使用される圧縮表現がさらに活用され、入力再構成が可能となる。
本稿では,VVCなどのビデオコーデックの残差符号化機能を利用して,任意の画像圧縮(ICM)方式からスケーラブルな画像を生成することを提案する。
論文 参考訳(メタデータ) (2023-05-17T00:22:39Z) - Modality-Agnostic Variational Compression of Implicit Neural
Representations [96.35492043867104]
Inlicit Neural Representation (INR) としてパラメータ化されたデータの関数的ビューに基づくモーダリティ非依存型ニューラル圧縮アルゴリズムを提案する。
潜時符号化と疎性の間のギャップを埋めて、ソフトゲーティング機構に非直線的にマッピングされたコンパクト潜時表現を得る。
このような潜在表現のデータセットを得た後、ニューラル圧縮を用いてモーダリティ非依存空間におけるレート/歪みトレードオフを直接最適化する。
論文 参考訳(メタデータ) (2023-01-23T15:22:42Z) - A New Image Codec Paradigm for Human and Machine Uses [53.48873918537017]
本研究では,人間用と機械用の両方にスケーラブルな画像パラダイムを提案する。
高レベルのインスタンスセグメンテーションマップと低レベルの信号特徴をニューラルネットワークで抽出する。
画像は16ビットのグレースケールプロファイルと信号特徴を持つ一般的な画質のイメージ再構成を実現するために設計および訓練される。
論文 参考訳(メタデータ) (2021-12-19T06:17:38Z) - Video Coding for Machine: Compact Visual Representation Compression for
Intelligent Collaborative Analytics [101.35754364753409]
Video Coding for Machines (VCM) は、ビデオ/画像圧縮と特徴圧縮をある程度別々の研究トラックにブリッジすることを約束している。
本稿では,既存の学術・産業活動に基づくVCM方法論と哲学を要約する。
論文 参考訳(メタデータ) (2021-10-18T12:42:13Z) - Deep Optimized Multiple Description Image Coding via Scalar Quantization
Learning [37.00592782976494]
多重記述(MD)圧縮損失を最小限に抑えることで最適化された深層多重記述符号化(MDC)フレームワークを提案する。
これら2種類のネットワークからなる自動エンコーダネットワークを対称パラメータ共有構造として設計する。
我々のフレームワークは、いくつかの一般的なデータセットでテストした場合、画像符号化効率に関する最先端のMDCアプローチよりも優れている。
論文 参考訳(メタデータ) (2020-01-12T05:03:16Z) - An Emerging Coding Paradigm VCM: A Scalable Coding Approach Beyond
Feature and Signal [99.49099501559652]
Video Coding for Machine (VCM)は、視覚的特徴圧縮と古典的なビデオ符号化のギャップを埋めることを目的としている。
我々は,学習した動きパターンのガイダンスを用いて,映像フレームを再構成するために条件付き深層生成ネットワークを用いる。
予測モデルを介してスパース動作パターンを抽出することを学ぶことにより、特徴表現をエレガントに活用し、符号化されたフレームの外観を生成する。
論文 参考訳(メタデータ) (2020-01-09T14:18:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。