論文の概要: Temporal Early Exits for Efficient Video Object Detection
- arxiv url: http://arxiv.org/abs/2106.11208v1
- Date: Mon, 21 Jun 2021 15:49:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-22 15:27:29.991783
- Title: Temporal Early Exits for Efficient Video Object Detection
- Title(参考訳): 効率的なビデオオブジェクト検出のための時間的早期出力
- Authors: Amin Sabet, Jonathon Hare, Bashir Al-Hashimi, Geoff V. Merrett
- Abstract要約: 本稿では,フレーム単位の動画オブジェクト検出の計算複雑性を低減するため,時間的早期出口を提案する。
提案手法は,既存の手法と比較して,フレーム単位の動画オブジェクト検出の計算複雑性と実行を最大34倍に削減する。
- 参考スコア(独自算出の注目度): 1.1470070927586016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transferring image-based object detectors to the domain of video remains
challenging under resource constraints. Previous efforts utilised optical flow
to allow unchanged features to be propagated, however, the overhead is
considerable when working with very slowly changing scenes from applications
such as surveillance. In this paper, we propose temporal early exits to reduce
the computational complexity of per-frame video object detection. Multiple
temporal early exit modules with low computational overhead are inserted at
early layers of the backbone network to identify the semantic differences
between consecutive frames. Full computation is only required if the frame is
identified as having a semantic change to previous frames; otherwise, detection
results from previous frames are reused. Experiments on CDnet show that our
method significantly reduces the computational complexity and execution of
per-frame video object detection up to $34 \times$ compared to existing methods
with an acceptable reduction of 2.2\% in mAP.
- Abstract(参考訳): 画像に基づく物体検出器をビデオ領域に転送することは、資源制約下では依然として困難である。
しかし、監視のようなアプリケーションから非常にゆっくりと変化するシーンを扱う場合、オーバーヘッドはかなり大きい。
本稿では,フレーム単位のビデオオブジェクト検出の計算量を削減するため,時間的早期出口を提案する。
計算オーバーヘッドの少ない複数の時間的早期出口モジュールをバックボーンネットワークの初期層に挿入し、連続するフレーム間の意味的差異を特定する。
完全な計算は、フレームが前のフレームに意味的変化を持つと認識される場合にのみ必要であり、さもないと、前のフレームからの検出結果が再利用される。
CDnet上での実験により,本手法は,mAPの2.2\%を許容できる既存の手法と比較して,フレーム単位の動画オブジェクト検出の計算複雑性と実行を最大34 \times$まで大幅に低減することが示された。
関連論文リスト
- You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - Motion-inductive Self-supervised Object Discovery in Videos [99.35664705038728]
本稿では,連続的なRGBフレームの処理モデルを提案し,層状表現を用いて任意のフレーム間の光の流れを推定する。
3つの公開ビデオセグメンテーションデータセットにおいて,従来の最先端手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-01T08:38:28Z) - Distortion-Aware Network Pruning and Feature Reuse for Real-time Video
Segmentation [49.17930380106643]
本稿では,リアルタイム視覚タスクのスキップ接続によるアーキテクチャの高速化を目的とした新しいフレームワークを提案する。
具体的には、各フレームの到着時に、前のフレームから特徴を変換し、特定の空間的ビンで再利用する。
次に、現在のフレームの領域におけるバックボーンネットワークの部分計算を行い、現在のフレームと前のフレームの時間差をキャプチャする。
論文 参考訳(メタデータ) (2022-06-20T07:20:02Z) - FrameHopper: Selective Processing of Video Frames in Detection-driven
Real-Time Video Analytics [2.5119455331413376]
検出駆動リアルタイムビデオ分析では、ビデオフレームに含まれるオブジェクトを連続的に検出する必要がある。
これらの検出器をリソース制約されたエッジデバイスの各フレームで実行することは、計算集約的である。
本稿では,これらのスキップ長を決定するために,オフライン強化学習(RL)に基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-22T07:05:57Z) - Implicit Motion Handling for Video Camouflaged Object Detection [60.98467179649398]
本稿では,新しいビデオカモフラージュオブジェクト検出(VCOD)フレームワークを提案する。
短期的および長期的整合性を利用して、ビデオフレームからカモフラージュされたオブジェクトを検出する。
論文 参考訳(メタデータ) (2022-03-14T17:55:41Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Motion Vector Extrapolation for Video Object Detection [0.0]
MOVEXは、一般的なCPUベースのシステムで低レイテンシのビデオオブジェクト検出を可能にする。
提案手法は,任意の対象検出器のベースライン遅延を著しく低減することを示す。
さらなるレイテンシ低減は、元のレイテンシよりも最大25倍低いもので、最小限の精度で達成できる。
論文 参考訳(メタデータ) (2021-04-18T17:26:37Z) - Frame-rate Up-conversion Detection Based on Convolutional Neural Network
for Learning Spatiotemporal Features [7.895528973776606]
本稿では、FRUCによる法医学的特徴をエンドツーエンドに学習するフレームレート変換検出ネットワーク(FCDNet)を提案する。
FCDNetは連続するフレームのスタックを入力として使用し、ネットワークブロックを使ってアーティファクトを効果的に学習して特徴を学習する。
論文 参考訳(メタデータ) (2021-03-25T08:47:46Z) - Motion-blurred Video Interpolation and Extrapolation [72.3254384191509]
本稿では,映像から鮮明なフレームをエンドツーエンドに切り離し,補間し,外挿する新しい枠組みを提案する。
予測フレーム間の時間的コヒーレンスを確保し,潜在的な時間的あいまいさに対処するために,単純で効果的なフローベースルールを提案する。
論文 参考訳(メタデータ) (2021-03-04T12:18:25Z) - Joint Detection and Tracking in Videos with Identification Features [36.55599286568541]
本稿では,ビデオ検出,追跡,再識別機能の最初の共同最適化を提案する。
提案手法はMOTの最先端に到達し,オンライントラッカーにおけるUA-DETRAC'18追跡課題のうち,第1位,第3位にランクインした。
論文 参考訳(メタデータ) (2020-05-21T21:06:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。