論文の概要: FrameHopper: Selective Processing of Video Frames in Detection-driven
Real-Time Video Analytics
- arxiv url: http://arxiv.org/abs/2203.11493v1
- Date: Tue, 22 Mar 2022 07:05:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-24 03:16:58.364953
- Title: FrameHopper: Selective Processing of Video Frames in Detection-driven
Real-Time Video Analytics
- Title(参考訳): FrameHopper: 検出駆動リアルタイムビデオ分析におけるビデオフレームの選択処理
- Authors: Md Adnan Arefeen, Sumaiya Tabassum Nimi, and Md Yusuf Sarwar Uddin
- Abstract要約: 検出駆動リアルタイムビデオ分析では、ビデオフレームに含まれるオブジェクトを連続的に検出する必要がある。
これらの検出器をリソース制約されたエッジデバイスの各フレームで実行することは、計算集約的である。
本稿では,これらのスキップ長を決定するために,オフライン強化学習(RL)に基づくアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 2.5119455331413376
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Detection-driven real-time video analytics require continuous detection of
objects contained in the video frames using deep learning models like YOLOV3,
EfficientDet. However, running these detectors on each and every frame in
resource-constrained edge devices is computationally intensive. By taking the
temporal correlation between consecutive video frames into account, we note
that detection outputs tend to be overlapping in successive frames. Elimination
of similar consecutive frames will lead to a negligible drop in performance
while offering significant performance benefits by reducing overall computation
and communication costs. The key technical questions are, therefore, (a) how to
identify which frames to be processed by the object detector, and (b) how many
successive frames can be skipped (called skip-length) once a frame is selected
to be processed. The overall goal of the process is to keep the error due to
skipping frames as small as possible. We introduce a novel error vs processing
rate optimization problem with respect to the object detection task that
balances between the error rate and the fraction of frames filtering.
Subsequently, we propose an off-line Reinforcement Learning (RL)-based
algorithm to determine these skip-lengths as a state-action policy of the RL
agent from a recorded video and then deploy the agent online for live video
streams. To this end, we develop FrameHopper, an edge-cloud collaborative video
analytics framework, that runs a lightweight trained RL agent on the camera and
passes filtered frames to the server where the object detection model runs for
a set of applications. We have tested our approach on a number of live videos
captured from real-life scenarios and show that FrameHopper processes only a
handful of frames but produces detection results closer to the oracle solution
and outperforms recent state-of-the-art solutions in most cases.
- Abstract(参考訳): 検出駆動リアルタイムビデオ分析では、YOLOV3やEfficientDetといったディープラーニングモデルを使用して、ビデオフレームに含まれるオブジェクトを連続的に検出する必要がある。
しかし、リソース制約されたエッジデバイスの各フレームでこれらの検出器を実行することは、計算集約的である。
連続する映像フレーム間の時間的相関を考慮に入れることで,検出出力が連続するフレームで重なり合う傾向があることに注意する。
同様の連続フレームの排除は性能の低下を招き、全体的な計算と通信コストを削減し、大幅なパフォーマンス上のメリットを提供する。
それゆえ 重要な技術的疑問は
(a)対象検出器が処理するフレームの識別方法、及び
(b)フレームが選択されると、連続したフレームをスキップできる回数(スキップ長と呼ばれる)
プロセスの全体的な目標は、フレームのスキップによるエラーを可能な限り小さくすることです。
本稿では,エラー率とフレームフィルタの分数とのバランスをとるオブジェクト検出タスクに関して,新しいエラー対処理速度最適化問題を提案する。
その後,記録ビデオからRLエージェントの状態対応ポリシーとして,これらのスキップ長を決定するために,オフライン強化学習(RL)に基づくアルゴリズムを提案し,そのエージェントをライブビデオストリーム用にオンライン配信する。
この目的のために,カメラ上で軽量なRLエージェントを動作させ,オブジェクト検出モデルが動作しているサーバにフィルタフレームを渡す,エッジクラウド協調型ビデオ分析フレームワークであるFrameHopperを開発した。
我々は、現実のシナリオから捉えた多数のライブビデオでアプローチを検証し、FrameHopperがほんの一握りのフレームしか処理せず、オラクルソリューションに近い検出結果を生成し、ほとんどの場合、最新の最先端ソリューションよりも優れています。
関連論文リスト
- Tracking by Associating Clips [110.08925274049409]
本稿では,オブジェクト関連をクリップワイドマッチングとして扱う方法を検討する。
我々の新しい視点では、1つの長いビデオシーケンスを複数のショートクリップとみなし、そのトラックはクリップ内とクリップ間の両方で実行される。
この新しい手法の利点は2つある。まず、ビデオチャンキングによって中断フレームをバイパスできるため、エラーの蓄積や伝播の追跡に頑健である。
次に、クリップワイドマッチング中に複数のフレーム情報を集約し、現在のフレームワイドマッチングよりも高精度な長距離トラックアソシエーションを実現する。
論文 参考訳(メタデータ) (2022-12-20T10:33:17Z) - Look at Adjacent Frames: Video Anomaly Detection without Offline
Training [21.334952965297667]
オフラインでモデルをトレーニングすることなく,ビデオ中の異常事象を検出する手法を提案する。
具体的には,画像フレーム,ピクセル・バイ・ピクセルを周波数情報から再構成するためにオンラインで最適化されたランダムな多層パーセプトロンをベースとした。
インクリメンタルラーナは、各フレームを観察した後に多層パーセプトロンのパラメータを更新するために使用され、ビデオストリームに沿って異常なイベントを検出することができる。
論文 参考訳(メタデータ) (2022-07-27T21:18:58Z) - Distortion-Aware Network Pruning and Feature Reuse for Real-time Video
Segmentation [49.17930380106643]
本稿では,リアルタイム視覚タスクのスキップ接続によるアーキテクチャの高速化を目的とした新しいフレームワークを提案する。
具体的には、各フレームの到着時に、前のフレームから特徴を変換し、特定の空間的ビンで再利用する。
次に、現在のフレームの領域におけるバックボーンネットワークの部分計算を行い、現在のフレームと前のフレームの時間差をキャプチャする。
論文 参考訳(メタデータ) (2022-06-20T07:20:02Z) - Learning Trajectory-Aware Transformer for Video Super-Resolution [50.49396123016185]
ビデオ超解像は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。
既存のアプローチは通常、隣接する限られたフレームからビデオフレームを並べて集約する。
ビデオ超解像用トランスフォーマー(TTVSR)を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:39Z) - Efficient Video Segmentation Models with Per-frame Inference [117.97423110566963]
推論のオーバーヘッドを導入することなく、時間的一貫性を改善することに注力する。
本稿では,時間的一貫性の喪失やオンライン/オフラインの知識蒸留手法など,ビデオシーケンスから学ぶためのいくつかの手法を提案する。
論文 参考訳(メタデータ) (2022-02-24T23:51:36Z) - OCSampler: Compressing Videos to One Clip with Single-step Sampling [82.0417131211353]
本稿では,OCSampler というフレームワークを提案する。
我々の基本的な動機は、効率的なビデオ認識タスクは、フレームをシーケンシャルに拾うのではなく、シーケンス全体を一度に処理することにある。
論文 参考訳(メタデータ) (2022-01-12T09:50:38Z) - Parallel Detection for Efficient Video Analytics at the Edge [5.547133811014004]
ディープニューラルネットワーク(DNN)訓練対象検出器は、エッジでのリアルタイムビデオ分析のためにミッションクリティカルシステムに広くデプロイされている。
ミッションクリティカルエッジサービスにおける一般的なパフォーマンス要件は、エッジデバイス上でのオンラインオブジェクト検出のほぼリアルタイムレイテンシである。
本稿では,エッジシステムにおける高速物体検出のためのマルチモデルマルチデバイス検出並列性を利用して,これらの問題に対処する。
論文 参考訳(メタデータ) (2021-07-27T02:50:46Z) - Temporal Early Exits for Efficient Video Object Detection [1.1470070927586016]
本稿では,フレーム単位の動画オブジェクト検出の計算複雑性を低減するため,時間的早期出口を提案する。
提案手法は,既存の手法と比較して,フレーム単位の動画オブジェクト検出の計算複雑性と実行を最大34倍に削減する。
論文 参考訳(メタデータ) (2021-06-21T15:49:46Z) - Frame-rate Up-conversion Detection Based on Convolutional Neural Network
for Learning Spatiotemporal Features [7.895528973776606]
本稿では、FRUCによる法医学的特徴をエンドツーエンドに学習するフレームレート変換検出ネットワーク(FCDNet)を提案する。
FCDNetは連続するフレームのスタックを入力として使用し、ネットワークブロックを使ってアーティファクトを効果的に学習して特徴を学習する。
論文 参考訳(メタデータ) (2021-03-25T08:47:46Z) - Efficient Semantic Video Segmentation with Per-frame Inference [117.97423110566963]
本研究では,フレームごとの効率的なセマンティックビデオセグメンテーションを推論プロセス中に処理する。
そこで我々は,コンパクトモデルと大規模モデルのパフォーマンスギャップを狭めるために,新しい知識蒸留法を設計した。
論文 参考訳(メタデータ) (2020-02-26T12:24:32Z) - Pack and Detect: Fast Object Detection in Videos Using Region-of-Interest Packing [15.162117090697006]
そこで我々は,ビデオにおけるオブジェクト検出の計算要求を削減するためのPack and Detectを提案する。
ImageNetのビデオオブジェクト検出データセットを使用した実験は、PaDがフレームに必要なFLOPSの数を4.99ドル削減できることを示している。
論文 参考訳(メタデータ) (2018-09-05T19:29:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。