論文の概要: Accuracy Improvement of Object Detection in VVC Coded Video Using
YOLO-v7 Features
- arxiv url: http://arxiv.org/abs/2304.00689v1
- Date: Mon, 3 Apr 2023 02:38:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-04 16:55:34.567035
- Title: Accuracy Improvement of Object Detection in VVC Coded Video Using
YOLO-v7 Features
- Title(参考訳): YOLO-v7特徴量を用いたVVC符号化ビデオにおける物体検出精度の向上
- Authors: Takahiro Shindo, Taiju Watanabe, Kein Yamada, Hiroshi Watanabe
- Abstract要約: 一般的に、画像符号化により画質が劣化すると、画像認識精度も低下する。
符号化されたビデオに後処理を適用することにより、画像認識精度を向上させるニューラルネットワークベースのアプローチを提案する。
提案手法とVVCの組み合わせにより,オブジェクト検出精度において,通常のVVCよりも優れた符号化性能が得られることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With advances in image recognition technology based on deep learning,
automatic video analysis by Artificial Intelligence is becoming more
widespread. As the amount of video used for image recognition increases,
efficient compression methods for such video data are necessary. In general,
when the image quality deteriorates due to image encoding, the image
recognition accuracy also falls. Therefore, in this paper, we propose a
neural-network-based approach to improve image recognition accuracy, especially
the object detection accuracy by applying post-processing to the encoded video.
Versatile Video Coding (VVC) will be used for the video compression method,
since it is the latest video coding method with the best encoding performance.
The neural network is trained using the features of YOLO-v7, the latest object
detection model. By using VVC as the video coding method and YOLO-v7 as the
detection model, high object detection accuracy is achieved even at low bit
rates. Experimental results show that the combination of the proposed method
and VVC achieves better coding performance than regular VVC in object detection
accuracy.
- Abstract(参考訳): ディープラーニングに基づく画像認識技術の進歩に伴い、人工知能による自動ビデオ解析が普及している。
画像認識に使用される映像の量が増加するにつれて、このような映像データの効率的な圧縮方法が必要となる。
一般的に、画像符号化により画質が劣化すると、画像認識精度も低下する。
そこで本稿では,符号化映像に後処理を適用することにより,画像認識精度,特に物体検出精度を向上させるニューラルネットワークに基づく手法を提案する。
Versatile Video Coding (VVC) は, ビデオ圧縮法として, 最高の符号化性能を有する最新のビデオ符号化法である。
ニューラルネットワークは、最新のオブジェクト検出モデルであるYOLO-v7の特徴を使ってトレーニングされている。
VVCをビデオ符号化法とし、YOLO-v7を検出モデルとし、低ビットレートでも高い物体検出精度を実現する。
実験の結果,提案手法とvvcの組み合わせにより,対象検出精度が通常のvvcよりも高い符号化性能が得られることがわかった。
関連論文リスト
- NN-VVC: Versatile Video Coding boosted by self-supervisedly learned
image coding for machines [19.183883119933558]
本稿では, NN-VVC という, E2E 学習画像と CVC の利点を組み合わせて, 画像符号化と映像符号化の両面において高い性能を実現するマシン用ハイブリッドを提案する。
実験の結果,提案システムは画像データとビデオデータのVVCよりも最大で-43.20%,-26.8%のBjontegaard Deltaレート低下を達成した。
論文 参考訳(メタデータ) (2024-01-19T15:33:46Z) - A Deep Learning Approach to Video Anomaly Detection using Convolutional
Autoencoders [0.0]
提案手法は、畳み込みオートエンコーダを用いて、通常のビデオのパターンを学習し、テストビデオの各フレームをこの学習表現と比較する。
我々は我々のアプローチを評価し、Ped1データセットで99.35%、Ped2データセットで97%の精度を達成した。
その結果,本手法は他の最先端手法よりも優れており,実世界のビデオ異常検出に利用することができることがわかった。
論文 参考訳(メタデータ) (2023-11-07T21:23:32Z) - Deepfake Video Detection Using Generative Convolutional Vision
Transformer [3.8297637120486496]
本稿では,深度映像検出のためのGenConViT(Generative Convolutional Vision Transformer)を提案する。
我々のモデルは特徴抽出のためにConvNeXtとSwin Transformerモデルを組み合わせている。
GenConViTは、視覚的アーティファクトと潜在データ分布から学習することにより、幅広いディープフェイクビデオを検出するパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2023-07-13T19:27:40Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - VVC Extension Scheme for Object Detection Using Contrast Reduction [0.0]
Versatile Video Coding (VVC) を用いたオブジェクト検出のためのビデオ符号化の拡張方式を提案する。
提案方式では,元の画像のサイズとコントラストを小さくし,VVCエンコーダで符号化して高圧縮性能を実現する。
実験結果から,提案手法はオブジェクト検出精度の点で,通常のVVCよりも優れた符号化性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-05-30T06:29:04Z) - Towards Scalable Neural Representation for Diverse Videos [68.73612099741956]
Inlicit Neural representations (INR)は、3Dシーンや画像の表現において注目を集めている。
既存のINRベースの手法は、冗長な視覚コンテンツを持つ短いビデオの符号化に限られている。
本稿では,多種多様な視覚コンテンツを持つ長編・多作ビデオの符号化のためのニューラル表現の開発に焦点をあてる。
論文 参考訳(メタデータ) (2023-03-24T16:32:19Z) - Rethinking Resolution in the Context of Efficient Video Recognition [49.957690643214576]
クロスレゾリューションKD(ResKD)は、低解像度フレームでの認識精度を高めるための単純だが効果的な方法である。
我々は,最先端アーキテクチャ,すなわち3D-CNNとビデオトランスフォーマーに対して,その効果を広く示す。
論文 参考訳(メタデータ) (2022-09-26T15:50:44Z) - Saliency-Driven Versatile Video Coding for Neural Object Detection [7.367608892486084]
本稿では,最新のビデオ符号化標準であるVersatile Video Coding (VVC) を用いた,機械作業用ビデオ符号化のためのサリエンシ駆動コーディングフレームワークを提案する。
符号化に先立って有能な領域を決定するために, リアルタイムのオブジェクト検出ネットワークであるYou Only Look Once(YOLO)と, 新たな判定基準を併用した。
基準VVCを一定の品質で比較すると,提案手法を適用することで,デコーダ側と同じ検出で最大29%の精度を節約できることがわかった。
論文 参考訳(メタデータ) (2022-03-11T14:27:43Z) - Neural Data-Dependent Transform for Learned Image Compression [72.86505042102155]
ニューラルデータに依存した変換を構築し,各画像の符号化効率を最適化する連続オンラインモード決定機構を導入する。
実験の結果,提案したニューラルシンタクス設計と連続オンラインモード決定機構の有効性が示された。
論文 参考訳(メタデータ) (2022-03-09T14:56:48Z) - A New Image Codec Paradigm for Human and Machine Uses [53.48873918537017]
本研究では,人間用と機械用の両方にスケーラブルな画像パラダイムを提案する。
高レベルのインスタンスセグメンテーションマップと低レベルの信号特徴をニューラルネットワークで抽出する。
画像は16ビットのグレースケールプロファイルと信号特徴を持つ一般的な画質のイメージ再構成を実現するために設計および訓練される。
論文 参考訳(メタデータ) (2021-12-19T06:17:38Z) - An Emerging Coding Paradigm VCM: A Scalable Coding Approach Beyond
Feature and Signal [99.49099501559652]
Video Coding for Machine (VCM)は、視覚的特徴圧縮と古典的なビデオ符号化のギャップを埋めることを目的としている。
我々は,学習した動きパターンのガイダンスを用いて,映像フレームを再構成するために条件付き深層生成ネットワークを用いる。
予測モデルを介してスパース動作パターンを抽出することを学ぶことにより、特徴表現をエレガントに活用し、符号化されたフレームの外観を生成する。
論文 参考訳(メタデータ) (2020-01-09T14:18:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。