論文の概要: Machine vision-aware quality metrics for compressed image and video assessment
- arxiv url: http://arxiv.org/abs/2411.06776v1
- Date: Mon, 11 Nov 2024 08:07:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:11:47.265228
- Title: Machine vision-aware quality metrics for compressed image and video assessment
- Title(参考訳): 圧縮画像とビデオアセスメントのためのマシンビジョン対応品質指標
- Authors: Mikhail Dremin, Konstantin Kozhemyakov, Ivan Molodetskikh, Malakhov Kirill, Artur Sagitov, Dmitriy Vatolin,
- Abstract要約: 現代のビデオ分析の取り組みには、人間の介入を最小限に抑えたマシンビジョン処理を必要とするほど多くのデータが含まれている。
本稿では,圧縮が検出および認識アルゴリズムに与える影響について検討する。
マシンビジョンに合わせて、各タスクに新しいフル参照イメージ/ビデオ品質メトリクスを導入している。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: A main goal in developing video-compression algorithms is to enhance human-perceived visual quality while maintaining file size. But modern video-analysis efforts such as detection and recognition, which are integral to video surveillance and autonomous vehicles, involve so much data that they necessitate machine-vision processing with minimal human intervention. In such cases, the video codec must be optimized for machine vision. This paper explores the effects of compression on detection and recognition algorithms (objects, faces, and license plates) and introduces novel full-reference image/video-quality metrics for each task, tailored to machine vision. Experimental results indicate our proposed metrics correlate better with the machine-vision results for the respective tasks than do existing image/video-quality metrics.
- Abstract(参考訳): ビデオ圧縮アルゴリズム開発の主な目的は、ファイルサイズを維持しながら、人間の知覚された視覚的品質を向上させることである。
しかし、ビデオ監視や自動運転車に不可欠な検出や認識といった現代のビデオ分析の取り組みには、人間の介入を最小限に抑えたマシンビジョン処理を必要とするほど多くのデータが含まれている。
そのような場合、ビデオコーデックはマシンビジョンに最適化されなければならない。
本稿では, 圧縮が検出・認識アルゴリズム(オブジェクト, 顔, ナンバープレート)に与える影響を考察し, マシンビジョンに合わせて, タスクごとに新しいフル参照画像/ビデオ品質メトリクスを導入する。
実験結果から,提案手法は既存の画像/ビデオ品質指標よりも,各タスクの機械ビジョン結果と相関することがわかった。
関連論文リスト
- VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - Perceptual Video Coding for Machines via Satisfied Machine Ratio
Modeling [66.56355316611598]
Satisfied Machine Ratio (SMR) は、圧縮された画像やビデオの知覚的品質を評価するメトリクスである。
SMRは機械の知覚的コーディングを可能にし、機械のためのビデオ符号化を特異性から一般性まで推進する。
論文 参考訳(メタデータ) (2022-11-13T03:16:36Z) - Scalable Video Coding for Humans and Machines [42.870358996305356]
本稿では,ベース層ビットストリームによるマシンビジョンと,拡張層ビットストリームによるヒューマンビジョンをサポートするスケーラブルなビデオコーディングフレームワークを提案する。
提案するフレームワークには,従来型とディープニューラルネットワーク(DNN)ベースのビデオ符号化の両方のコンポーネントが含まれている。
論文 参考訳(メタデータ) (2022-08-04T07:45:41Z) - Video Coding for Machine: Compact Visual Representation Compression for
Intelligent Collaborative Analytics [101.35754364753409]
Video Coding for Machines (VCM) は、ビデオ/画像圧縮と特徴圧縮をある程度別々の研究トラックにブリッジすることを約束している。
本稿では,既存の学術・産業活動に基づくVCM方法論と哲学を要約する。
論文 参考訳(メタデータ) (2021-10-18T12:42:13Z) - End-to-end optimized image compression for multiple machine tasks [3.8323580808203785]
我々は,圧縮コンテンツの直接変換を可能にするために,デコーダとタスクアルゴリズムの間に挿入される「コネクタ」を導入する。
画像分類とオブジェクトセグメンテーションの両方において高いレート精度向上を実現し,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2021-03-06T19:09:05Z) - Human-Machine Collaborative Video Coding Through Cuboidal Partitioning [26.70051123157869]
本稿では,人間の視覚と,キュービドを用いたマシンビジョンアプリケーションの間に存在する共通性を活用することによって,映像符号化フレームワークを提案する。
ビデオフレーム上の矩形領域を推定する立方体は、計算的に効率的であり、コンパクトな表現とオブジェクト中心である。
ここでは、現在のフレームから立方体特徴記述子を抽出し、オブジェクト検出の形式で機械ビジョンタスクを達成するために使用される。
論文 参考訳(メタデータ) (2021-02-02T04:44:45Z) - Video Coding for Machines: A Paradigm of Collaborative Compression and
Intelligent Analytics [127.65410486227007]
フレーム全体を圧縮、再構成することを目的としたビデオ符号化と、最も重要な情報のみを保存し、送信する特徴圧縮は、スケールの2つの端に立つ。
最近のビデオ圧縮の急激なトレンド、例えばディープラーニングベースのコーディングツールやエンドツーエンドの画像/ビデオコーディング、MPEG-7のコンパクトな特徴記述子標準などの取り組みは、持続的かつ迅速な開発を促進する。
本稿では,新たな領域であるVCM(Video Coding for Machines)の探索を行う。
論文 参考訳(メタデータ) (2020-01-10T17:24:13Z) - An Emerging Coding Paradigm VCM: A Scalable Coding Approach Beyond
Feature and Signal [99.49099501559652]
Video Coding for Machine (VCM)は、視覚的特徴圧縮と古典的なビデオ符号化のギャップを埋めることを目的としている。
我々は,学習した動きパターンのガイダンスを用いて,映像フレームを再構成するために条件付き深層生成ネットワークを用いる。
予測モデルを介してスパース動作パターンを抽出することを学ぶことにより、特徴表現をエレガントに活用し、符号化されたフレームの外観を生成する。
論文 参考訳(メタデータ) (2020-01-09T14:18:18Z) - Towards Coding for Human and Machine Vision: A Scalable Image Coding
Approach [104.02201472370801]
圧縮モデルと生成モデルの両方を活用することにより,新しい画像符号化フレームワークを考案した。
高度な生成モデルを導入することで、コンパクトな特徴表現と参照画素から画像を再構成するフレキシブルネットワークを訓練する。
実験により、人間の視覚的品質と顔のランドマーク検出の両方において、我々の枠組みが優れていることが示された。
論文 参考訳(メタデータ) (2020-01-09T10:37:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。