論文の概要: Saliency-Driven Versatile Video Coding for Neural Object Detection
- arxiv url: http://arxiv.org/abs/2203.05944v1
- Date: Fri, 11 Mar 2022 14:27:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-14 13:48:32.307030
- Title: Saliency-Driven Versatile Video Coding for Neural Object Detection
- Title(参考訳): ニューラルオブジェクト検出のためのサリエンシ駆動型ヴァーサタイルビデオ符号化
- Authors: Kristian Fischer, Felix Fleckenstein, Christian Herglotz, Andr\'e Kaup
- Abstract要約: 本稿では,最新のビデオ符号化標準であるVersatile Video Coding (VVC) を用いた,機械作業用ビデオ符号化のためのサリエンシ駆動コーディングフレームワークを提案する。
符号化に先立って有能な領域を決定するために, リアルタイムのオブジェクト検出ネットワークであるYou Only Look Once(YOLO)と, 新たな判定基準を併用した。
基準VVCを一定の品質で比較すると,提案手法を適用することで,デコーダ側と同じ検出で最大29%の精度を節約できることがわかった。
- 参考スコア(独自算出の注目度): 7.367608892486084
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Saliency-driven image and video coding for humans has gained importance in
the recent past. In this paper, we propose such a saliency-driven coding
framework for the video coding for machines task using the latest video coding
standard Versatile Video Coding (VVC). To determine the salient regions before
encoding, we employ the real-time-capable object detection network You Only
Look Once~(YOLO) in combination with a novel decision criterion. To measure the
coding quality for a machine, the state-of-the-art object segmentation network
Mask R-CNN was applied to the decoded frame. From extensive simulations we find
that, compared to the reference VVC with a constant quality, up to 29 % of
bitrate can be saved with the same detection accuracy at the decoder side by
applying the proposed saliency-driven framework. Besides, we compare YOLO
against other, more traditional saliency detection methods.
- Abstract(参考訳): 人為的な画像とビデオの符号化は、近年重要になっている。
本稿では,最新のビデオ符号化標準であるVersatile Video Coding (VVC) を用いて,機械タスクの映像符号化のためのサリエンシ駆動型コーディングフレームワークを提案する。
符号化に先立って有能な領域を決定するために,リアルタイムのオブジェクト検出ネットワークであるYou Only Look Once~(YOLO)を,新しい判定基準と組み合わせて採用する。
マシンの符号化品質を測定するために、最先端のオブジェクトセグメンテーションネットワークMask R-CNNをデコードフレームに適用した。
大規模なシミュレーションから,提案手法を適用して,一定の品質の基準VVCと比較して,デコーダ側で同じ検出精度で最大29%のビットレートを保存できることが判明した。
さらに,より伝統的な塩分検出手法であるyoloと比較した。
関連論文リスト
- VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - VVC Extension Scheme for Object Detection Using Contrast Reduction [0.0]
Versatile Video Coding (VVC) を用いたオブジェクト検出のためのビデオ符号化の拡張方式を提案する。
提案方式では,元の画像のサイズとコントラストを小さくし,VVCエンコーダで符号化して高圧縮性能を実現する。
実験結果から,提案手法はオブジェクト検出精度の点で,通常のVVCよりも優れた符号化性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-05-30T06:29:04Z) - Decoder-Only or Encoder-Decoder? Interpreting Language Model as a
Regularized Encoder-Decoder [75.03283861464365]
seq2seqタスクは、与えられた入力ソースシーケンスに基づいてターゲットシーケンスを生成することを目的としている。
伝統的に、seq2seqタスクのほとんどはエンコーダによって解決され、ソースシーケンスとデコーダをエンコードしてターゲットテキストを生成する。
最近、デコーダのみの言語モデルをseq2seqタスクに直接適用する、多くの新しいアプローチが出現しました。
論文 参考訳(メタデータ) (2023-04-08T15:44:29Z) - Accuracy Improvement of Object Detection in VVC Coded Video Using
YOLO-v7 Features [0.0]
一般的に、画像符号化により画質が劣化すると、画像認識精度も低下する。
符号化されたビデオに後処理を適用することにより、画像認識精度を向上させるニューラルネットワークベースのアプローチを提案する。
提案手法とVVCの組み合わせにより,オブジェクト検出精度において,通常のVVCよりも優れた符号化性能が得られることを示す。
論文 参考訳(メタデータ) (2023-04-03T02:38:54Z) - Scalable Video Coding for Humans and Machines [42.870358996305356]
本稿では,ベース層ビットストリームによるマシンビジョンと,拡張層ビットストリームによるヒューマンビジョンをサポートするスケーラブルなビデオコーディングフレームワークを提案する。
提案するフレームワークには,従来型とディープニューラルネットワーク(DNN)ベースのビデオ符号化の両方のコンポーネントが含まれている。
論文 参考訳(メタデータ) (2022-08-04T07:45:41Z) - A Coding Framework and Benchmark towards Low-Bitrate Video Understanding [63.05385140193666]
我々は,従来のコーデックとニューラルネットワーク(NN)の両方を活用する,従来型ニューラル混合符号化フレームワークを提案する。
このフレームワークは、動画の移動効率の良いセマンティック表現を確実に保持することで最適化される。
8つのデータセットに3つのダウンストリームタスクを備えた低ビットレートビデオ理解ベンチマークを構築し、このアプローチの顕著な優位性を実証した。
論文 参考訳(メタデータ) (2022-02-06T16:29:15Z) - A New Image Codec Paradigm for Human and Machine Uses [53.48873918537017]
本研究では,人間用と機械用の両方にスケーラブルな画像パラダイムを提案する。
高レベルのインスタンスセグメンテーションマップと低レベルの信号特徴をニューラルネットワークで抽出する。
画像は16ビットのグレースケールプロファイルと信号特徴を持つ一般的な画質のイメージ再構成を実現するために設計および訓練される。
論文 参考訳(メタデータ) (2021-12-19T06:17:38Z) - Human-Machine Collaborative Video Coding Through Cuboidal Partitioning [26.70051123157869]
本稿では,人間の視覚と,キュービドを用いたマシンビジョンアプリケーションの間に存在する共通性を活用することによって,映像符号化フレームワークを提案する。
ビデオフレーム上の矩形領域を推定する立方体は、計算的に効率的であり、コンパクトな表現とオブジェクト中心である。
ここでは、現在のフレームから立方体特徴記述子を抽出し、オブジェクト検出の形式で機械ビジョンタスクを達成するために使用される。
論文 参考訳(メタデータ) (2021-02-02T04:44:45Z) - Beyond Single Stage Encoder-Decoder Networks: Deep Decoders for Semantic
Image Segmentation [56.44853893149365]
セマンティックセグメンテーションのための単一エンコーダ-デコーダ手法は、セマンティックセグメンテーションの品質とレイヤー数あたりの効率の観点からピークに達している。
そこで本研究では,より多くの情報コンテンツを取得するために,浅層ネットワークの集合を用いたデコーダに基づく新しいアーキテクチャを提案する。
アーキテクチャをさらに改善するために,ネットワークの注目度を高めるために,クラスの再バランスを目的とした重み関数を導入する。
論文 参考訳(メタデータ) (2020-07-19T18:44:34Z) - An Emerging Coding Paradigm VCM: A Scalable Coding Approach Beyond
Feature and Signal [99.49099501559652]
Video Coding for Machine (VCM)は、視覚的特徴圧縮と古典的なビデオ符号化のギャップを埋めることを目的としている。
我々は,学習した動きパターンのガイダンスを用いて,映像フレームを再構成するために条件付き深層生成ネットワークを用いる。
予測モデルを介してスパース動作パターンを抽出することを学ぶことにより、特徴表現をエレガントに活用し、符号化されたフレームの外観を生成する。
論文 参考訳(メタデータ) (2020-01-09T14:18:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。