論文の概要: A Structured Analysis of the Video Degradation Effects on the
Performance of a Machine Learning-enabled Pedestrian Detector
- arxiv url: http://arxiv.org/abs/2106.15889v1
- Date: Wed, 30 Jun 2021 08:30:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-01 22:28:34.159828
- Title: A Structured Analysis of the Video Degradation Effects on the
Performance of a Machine Learning-enabled Pedestrian Detector
- Title(参考訳): 機械学習対応歩行者検知器の性能に及ぼす映像劣化の影響に関する構造化解析
- Authors: Christian Berger
- Abstract要約: 本稿では,ML対応歩行者検出器の性能に及ぼす映像劣化の影響について検討する。
その結果、慎重に選択されたロッキーなビデオ構成は、特定のML対応システムの適切な性能を保っていることが明らかとなった。
- 参考スコア(独自算出の注目度): 3.096615629099617
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: ML-enabled software systems have been incorporated in many public
demonstrations for automated driving (AD) systems. Such solutions have also
been considered as a crucial approach to aim at SAE Level 5 systems, where the
passengers in such vehicles do not have to interact with the system at all
anymore. Already in 2016, Nvidia demonstrated a complete end-to-end approach
for training the complete software stack covering perception, planning and
decision making, and the actual vehicle control. While such approaches show the
great potential of such ML-enabled systems, there have also been demonstrations
where already changes to single pixels in a video frame can potentially lead to
completely different decisions with dangerous consequences. In this paper, a
structured analysis has been conducted to explore video degradation effects on
the performance of an ML-enabled pedestrian detector. Firstly, a baseline of
applying YOLO to 1,026 frames with pedestrian annotations in the KITTI Vision
Benchmark Suite has been established. Next, video degradation candidates for
each of these frames were generated using the leading video codecs libx264,
libx265, Nvidia HEVC, and AV1: 52 frames for the various compression presets
for color and gray-scale frames resulting in 104 degradation candidates per
original KITTI frame and 426,816 images in total. YOLO was applied to each
image to compute the intersection-over-union (IoU) metric to compare the
performance with the original baseline. While aggressively lossy compression
settings result in significant performance drops as expected, it was also
observed that some configurations actually result in slightly better IoU
results compared to the baseline. The findings show that carefully chosen lossy
video configurations preserve a decent performance of particular ML-enabled
systems while allowing for substantial savings when storing or transmitting
data.
- Abstract(参考訳): ML対応ソフトウェアシステムは、自動運転(AD)システムのための多くの公開デモンストレーションに組み込まれている。
このようなソリューションはSAEレベル5システムに向けた重要なアプローチと考えられており、そのような車両の乗客はシステムと全く対話する必要がなくなった。
2016年すでにNvidiaは、認識、計画、意思決定、および実際の車両制御を含む完全なソフトウェアスタックをトレーニングするための完全なエンドツーエンドアプローチを実演した。
このようなアプローチは、このようなML対応システムの大きな可能性を示しているが、ビデオフレーム内の1つのピクセルに既に変更されている場合、危険な結果を伴う決定がまったく異なる可能性があるという実証もある。
本稿では,ML対応歩行者検出器の性能に及ぼす映像劣化の影響について,構造化解析を行った。
まず,KITTI Vision Benchmark Suite の歩行者用アノテーションを用いた 1,026 フレームにYOLOを適用した。
次に、各フレームの映像劣化候補を、カラーおよびグレースケールの様々な圧縮プリセットの映像コーデックlibx264、libx265、nvidia hevc、av1:52フレームを用いて生成し、元のkittiフレームあたり104個の劣化候補と合計426,816枚の画像を生成する。
YOLO を各画像に適用し,IoU メトリックを計算し,その性能を元のベースラインと比較した。
圧縮設定を積極的に損なうと、期待通りパフォーマンスが大幅に低下するが、いくつかの構成では、ベースラインよりもわずかに優れたIoU結果が得られることも観察された。
その結果、慎重に選択された損失のあるビデオ構成は、特定のML対応システムの適切な性能を維持しつつ、データの保存や送信時にかなりの節約を可能にすることがわかった。
関連論文リスト
- A Simple Recipe for Contrastively Pre-training Video-First Encoders
Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - Advancing Learned Video Compression with In-loop Frame Prediction [177.67218448278143]
本稿では,ループ内フレーム予測モジュールを用いたALVC(Advanced Learned Video Compression)アプローチを提案する。
予測フレームは、以前圧縮されたフレームよりも優れた参照として機能し、圧縮性能の恩恵を受けることができる。
本実験は,学習ビデオ圧縮におけるALVC手法の最先端性能を示すものである。
論文 参考訳(メタデータ) (2022-11-13T19:53:14Z) - Deep Unsupervised Key Frame Extraction for Efficient Video
Classification [63.25852915237032]
本研究は、畳み込みニューラルネットワーク(CNN)と時間セグメント密度ピーククラスタリング(TSDPC)を組み合わせたキーフレームの検索方法を提案する。
提案した TSDPC は汎用的で強力なフレームワークであり,従来の研究に比べて2つの利点がある。
さらに、CNNの上部にLong Short-Term Memory Network (LSTM)を追加し、分類性能をさらに高める。
論文 参考訳(メタデータ) (2022-11-12T20:45:35Z) - YOLOV: Making Still Image Object Detectors Great at Video Object
Detection [23.039968987772543]
映像オブジェクト検出(VID)は,映像の外観のばらつきやフレームの多様さにより困難である。
この研究は、問題に対処するための単純だが効果的な戦略を提案する。
我々のYOLOXベースのモデルは、有望なパフォーマンスを達成することができる(例えば、1つの2080Ti GPU上のImageNet VIDデータセット上で、30FPS以上の87.5% AP50)。
論文 参考訳(メタデータ) (2022-08-20T14:12:06Z) - Real-time HOG+SVM based object detection using SoC FPGA for a UHD video
stream [0.0]
本稿では、HOG(Histogram of Oriented Gradients)特徴抽出とSVM(Support Vector Machine)分類を用いた、よく知られた歩行者検出器のリアルタイム実装について述べる。
このシステムは、歩行者を単一のスケールで検出することができる。
論文 参考訳(メタデータ) (2022-04-22T10:29:21Z) - Learning Trajectory-Aware Transformer for Video Super-Resolution [50.49396123016185]
ビデオ超解像は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。
既存のアプローチは通常、隣接する限られたフレームからビデオフレームを並べて集約する。
ビデオ超解像用トランスフォーマー(TTVSR)を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:39Z) - Box Supervised Video Segmentation Proposal Network [3.384080569028146]
本稿では,本質的な映像特性を生かしたボックス管理型映像オブジェクト分割提案ネットワークを提案する。
提案手法は,最先端の自己監督ベンチマークを16.4%,6.9%上回る性能を示した。
提案手法のロバスト性を実証し,データセットに対する広範なテストと改善を行った。
論文 参考訳(メタデータ) (2022-02-14T20:38:28Z) - Self-Supervised Learning of Perceptually Optimized Block Motion
Estimates for Video Compression [50.48504867843605]
多段階畳み込みニューラルネットワークを用いた探索自由ブロック運動推定フレームワークを提案する。
動作補償フレームの知覚品質を最適化するために,マルチスケール構造類似度(MS-SSIM)損失関数をデプロイする。
論文 参考訳(メタデータ) (2021-10-05T03:38:43Z) - ELF-VC: Efficient Learned Flexible-Rate Video Coding [61.10102916737163]
低レイテンシモードの性能向上を実現するための,学習ビデオ圧縮のための新しいアイデアをいくつか提案する。
一般的なビデオテストセット UVG と MCL-JCV 上で,ELF-VC と呼ぶ手法をベンチマークする。
我々の手法は少なくとも5倍高速に動作し、これらの数値を報告するすべてのMLコーデックよりもパラメータが少ない。
論文 参考訳(メタデータ) (2021-04-29T17:50:35Z) - Learning Dynamic Network Using a Reuse Gate Function in Semi-supervised
Video Object Segmentation [27.559093073097483]
セミ監視ビデオオブジェクト(Semi-VOS)の現在のアプローチは、以前のフレームから情報を伝達し、現在のフレームのセグメンテーションマスクを生成します。
時間的情報を用いて、最小限の変更で迅速にフレームを識別する。
フレーム間の変化を推定し、ネットワーク全体を計算したり、以前のフレームの機能を再利用したりするパスを決定する、新しい動的ネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-21T19:40:17Z) - "I have vxxx bxx connexxxn!": Facing Packet Loss in Deep Speech Emotion
Recognition [0.0]
音声による感情認識を利用するアプリケーションでは、フレームロスは多様体の応用を考えると深刻な問題となる。
フレームロスが音声による感情認識に与える影響を初めて検討する。
論文 参考訳(メタデータ) (2020-05-15T19:33:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。