Fugu-MT 論文翻訳(概要): A Structured Analysis of the Video Degradation Effects on the Performance of a Machine Learning-enabled Pedestrian Detector

論文の概要: A Structured Analysis of the Video Degradation Effects on the Performance of a Machine Learning-enabled Pedestrian Detector

arxiv url: http://arxiv.org/abs/2106.15889v1
Date: Wed, 30 Jun 2021 08:30:12 GMT
ステータス: 翻訳完了
システム内更新日: 2021-07-01 22:28:34.159828
Title: A Structured Analysis of the Video Degradation Effects on the Performance of a Machine Learning-enabled Pedestrian Detector
Title（参考訳）: 機械学習対応歩行者検知器の性能に及ぼす映像劣化の影響に関する構造化解析
Authors: Christian Berger
Abstract要約: 本稿では,ML対応歩行者検出器の性能に及ぼす映像劣化の影響について検討する。その結果、慎重に選択されたロッキーなビデオ構成は、特定のML対応システムの適切な性能を保っていることが明らかとなった。
参考スコア（独自算出の注目度）: 3.096615629099617
License: http://creativecommons.org/licenses/by/4.0/
Abstract: ML-enabled software systems have been incorporated in many public demonstrations for automated driving (AD) systems. Such solutions have also been considered as a crucial approach to aim at SAE Level 5 systems, where the passengers in such vehicles do not have to interact with the system at all anymore. Already in 2016, Nvidia demonstrated a complete end-to-end approach for training the complete software stack covering perception, planning and decision making, and the actual vehicle control. While such approaches show the great potential of such ML-enabled systems, there have also been demonstrations where already changes to single pixels in a video frame can potentially lead to completely different decisions with dangerous consequences. In this paper, a structured analysis has been conducted to explore video degradation effects on the performance of an ML-enabled pedestrian detector. Firstly, a baseline of applying YOLO to 1,026 frames with pedestrian annotations in the KITTI Vision Benchmark Suite has been established. Next, video degradation candidates for each of these frames were generated using the leading video codecs libx264, libx265, Nvidia HEVC, and AV1: 52 frames for the various compression presets for color and gray-scale frames resulting in 104 degradation candidates per original KITTI frame and 426,816 images in total. YOLO was applied to each image to compute the intersection-over-union (IoU) metric to compare the performance with the original baseline. While aggressively lossy compression settings result in significant performance drops as expected, it was also observed that some configurations actually result in slightly better IoU results compared to the baseline. The findings show that carefully chosen lossy video configurations preserve a decent performance of particular ML-enabled systems while allowing for substantial savings when storing or transmitting data.
Abstract（参考訳）: ML対応ソフトウェアシステムは、自動運転(AD)システムのための多くの公開デモンストレーションに組み込まれている。このようなソリューションはSAEレベル5システムに向けた重要なアプローチと考えられており、そのような車両の乗客はシステムと全く対話する必要がなくなった。 2016年すでにNvidiaは、認識、計画、意思決定、および実際の車両制御を含む完全なソフトウェアスタックをトレーニングするための完全なエンドツーエンドアプローチを実演した。このようなアプローチは、このようなML対応システムの大きな可能性を示しているが、ビデオフレーム内の1つのピクセルに既に変更されている場合、危険な結果を伴う決定がまったく異なる可能性があるという実証もある。本稿では,ML対応歩行者検出器の性能に及ぼす映像劣化の影響について,構造化解析を行った。まず,KITTI Vision Benchmark Suite の歩行者用アノテーションを用いた 1,026 フレームにYOLOを適用した。次に、各フレームの映像劣化候補を、カラーおよびグレースケールの様々な圧縮プリセットの映像コーデックlibx264、libx265、nvidia hevc、av1:52フレームを用いて生成し、元のkittiフレームあたり104個の劣化候補と合計426,816枚の画像を生成する。 YOLO を各画像に適用し,IoU メトリックを計算し,その性能を元のベースラインと比較した。圧縮設定を積極的に損なうと、期待通りパフォーマンスが大幅に低下するが、いくつかの構成では、ベースラインよりもわずかに優れたIoU結果が得られることも観察された。その結果、慎重に選択された損失のあるビデオ構成は、特定のML対応システムの適切な性能を維持しつつ、データの保存や送信時にかなりの節約を可能にすることがわかった。

関連論文リスト

DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs [124.52164183968145]
視覚言語モデル(VLM)の計算負担を軽減する,効率的なトレーニング不要なフレームワークであるDyMUを提案する。まず、動的トークンマージ(DToMe)は、画像の複雑さに基づいて類似のトークンをマージすることで、視覚トークンの埋め込み数を削減します。第二に、仮想トークンアンマージ(VTU)は、大きな言語モデル(LLM)の期待トークンシーケンスを、フルシーケンスの注意ダイナミクスを効率的に再構築することでシミュレートする。
論文参考訳（メタデータ） (2025-04-23T18:38:18Z)
LiVOS: Light Video Object Segmentation with Gated Linear Matching [116.58237547253935]
LiVOSはリニアアテンションによるリニアマッチングを利用する軽量メモリネットワークである。長くて高解像度のビデオでは、STMベースのメソッドと53%のGPUメモリで一致し、32Gの消費者向けGPU上で4096pの推論をサポートする。
論文参考訳（メタデータ） (2024-11-05T05:36:17Z)
Practical Video Object Detection via Feature Selection and Aggregation [18.15061460125668]
ビデオオブジェクト検出(VOD)は、オブジェクトの外観における高いフレーム間変動と、いくつかのフレームにおける多様な劣化を懸念する必要がある。現代のアグリゲーション法のほとんどは、高い計算コストに苦しむ2段階検出器用に調整されている。この研究は、特徴選択と集約の非常に単純だが強力な戦略を考案し、限界計算コストでかなりの精度を得る。
論文参考訳（メタデータ） (2024-07-29T02:12:11Z)
A Simple Recipe for Contrastively Pre-training Video-First Encoders Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。 1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文参考訳（メタデータ） (2023-12-12T16:10:19Z)
Advancing Learned Video Compression with In-loop Frame Prediction [177.67218448278143]
本稿では,ループ内フレーム予測モジュールを用いたALVC(Advanced Learned Video Compression)アプローチを提案する。予測フレームは、以前圧縮されたフレームよりも優れた参照として機能し、圧縮性能の恩恵を受けることができる。本実験は,学習ビデオ圧縮におけるALVC手法の最先端性能を示すものである。
論文参考訳（メタデータ） (2022-11-13T19:53:14Z)
Deep Unsupervised Key Frame Extraction for Efficient Video Classification [63.25852915237032]
本研究は、畳み込みニューラルネットワーク(CNN)と時間セグメント密度ピーククラスタリング(TSDPC)を組み合わせたキーフレームの検索方法を提案する。提案した TSDPC は汎用的で強力なフレームワークであり,従来の研究に比べて2つの利点がある。さらに、CNNの上部にLong Short-Term Memory Network (LSTM)を追加し、分類性能をさらに高める。
論文参考訳（メタデータ） (2022-11-12T20:45:35Z)
YOLOV: Making Still Image Object Detectors Great at Video Object Detection [23.039968987772543]
映像オブジェクト検出(VID)は,映像の外観のばらつきやフレームの多様さにより困難である。この研究は、問題に対処するための単純だが効果的な戦略を提案する。我々のYOLOXベースのモデルは、有望なパフォーマンスを達成することができる(例えば、1つの2080Ti GPU上のImageNet VIDデータセット上で、30FPS以上の87.5% AP50)。
論文参考訳（メタデータ） (2022-08-20T14:12:06Z)
Real-time HOG+SVM based object detection using SoC FPGA for a UHD video stream [0.0]
本稿では、HOG(Histogram of Oriented Gradients)特徴抽出とSVM(Support Vector Machine)分類を用いた、よく知られた歩行者検出器のリアルタイム実装について述べる。このシステムは、歩行者を単一のスケールで検出することができる。
論文参考訳（メタデータ） (2022-04-22T10:29:21Z)
Learning Trajectory-Aware Transformer for Video Super-Resolution [50.49396123016185]
ビデオ超解像は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。既存のアプローチは通常、隣接する限られたフレームからビデオフレームを並べて集約する。ビデオ超解像用トランスフォーマー(TTVSR)を提案する。
論文参考訳（メタデータ） (2022-04-08T03:37:39Z)
Box Supervised Video Segmentation Proposal Network [3.384080569028146]
本稿では,本質的な映像特性を生かしたボックス管理型映像オブジェクト分割提案ネットワークを提案する。提案手法は,最先端の自己監督ベンチマークを16.4%,6.9%上回る性能を示した。提案手法のロバスト性を実証し,データセットに対する広範なテストと改善を行った。
論文参考訳（メタデータ） (2022-02-14T20:38:28Z)
Self-Supervised Learning of Perceptually Optimized Block Motion Estimates for Video Compression [50.48504867843605]
多段階畳み込みニューラルネットワークを用いた探索自由ブロック運動推定フレームワークを提案する。動作補償フレームの知覚品質を最適化するために,マルチスケール構造類似度(MS-SSIM)損失関数をデプロイする。
論文参考訳（メタデータ） (2021-10-05T03:38:43Z)
"I have vxxx bxx connexxxn!": Facing Packet Loss in Deep Speech Emotion Recognition [0.0]
音声による感情認識を利用するアプリケーションでは、フレームロスは多様体の応用を考えると深刻な問題となる。フレームロスが音声による感情認識に与える影響を初めて検討する。
論文参考訳（メタデータ） (2020-05-15T19:33:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。