論文の概要: Pack and Detect: Fast Object Detection in Videos Using Region-of-Interest Packing
- arxiv url: http://arxiv.org/abs/1809.01701v5
- Date: Wed, 17 Jul 2024 02:09:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 00:05:30.830012
- Title: Pack and Detect: Fast Object Detection in Videos Using Region-of-Interest Packing
- Title(参考訳): Pack and Detect:Rerea-of-interest Packingを用いたビデオにおける高速物体検出
- Authors: Athindran Ramesh Kumar, Balaraman Ravindran, Anand Raghunathan,
- Abstract要約: そこで我々は,ビデオにおけるオブジェクト検出の計算要求を削減するためのPack and Detectを提案する。
ImageNetのビデオオブジェクト検出データセットを使用した実験は、PaDがフレームに必要なFLOPSの数を4.99ドル削減できることを示している。
- 参考スコア(独自算出の注目度): 15.162117090697006
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Object detection in videos is an important task in computer vision for various applications such as object tracking, video summarization and video search. Although great progress has been made in improving the accuracy of object detection in recent years due to the rise of deep neural networks, the state-of-the-art algorithms are highly computationally intensive. In order to address this challenge, we make two important observations in the context of videos: (i) Objects often occupy only a small fraction of the area in each video frame, and (ii) There is a high likelihood of strong temporal correlation between consecutive frames. Based on these observations, we propose Pack and Detect (PaD), an approach to reduce the computational requirements of object detection in videos. In PaD, only selected video frames called anchor frames are processed at full size. In the frames that lie between anchor frames (inter-anchor frames), regions of interest (ROIs) are identified based on the detections in the previous frame. We propose an algorithm to pack the ROIs of each inter-anchor frame together into a reduced-size frame. The computational requirements of the detector are reduced due to the lower size of the input. In order to maintain the accuracy of object detection, the proposed algorithm expands the ROIs greedily to provide additional background around each object to the detector. PaD can use any underlying neural network architecture to process the full-size and reduced-size frames. Experiments using the ImageNet video object detection dataset indicate that PaD can potentially reduce the number of FLOPS required for a frame by $4\times$. This leads to an overall increase in throughput of $1.25\times$ on a 2.1 GHz Intel Xeon server with a NVIDIA Titan X GPU at the cost of $1.1\%$ drop in accuracy.
- Abstract(参考訳): ビデオにおけるオブジェクト検出は、オブジェクト追跡、ビデオ要約、ビデオ検索などの様々なアプリケーションにおいて、コンピュータビジョンにおいて重要なタスクである。
近年、ディープニューラルネットワークの出現により、物体検出の精度が向上しているにもかかわらず、最先端のアルゴリズムは非常に計算集約的である。
この課題に対処するために、ビデオの文脈で2つの重要な観察を行う。
i) オブジェクトは、各ビデオフレーム内の領域のごく一部しか占有せず、
(II)連続フレーム間の強い時間相関の可能性が高い。
これらの観測に基づいて,ビデオにおける物体検出の計算要求を低減させるPaD(Pack and Detect)を提案する。
PaDでは、アンカーフレームと呼ばれる選択されたビデオフレームのみがフルサイズで処理される。
アンカーフレーム間(アンカーフレーム間)にあるフレームでは、前フレームの検知に基づいて関心領域(ROI)を特定する。
本稿では,各アンカーフレームのROIを縮小サイズフレームにまとめるアルゴリズムを提案する。
検出器の計算要求は、入力のサイズが小さくなるため減少する。
オブジェクト検出の精度を維持するため、提案アルゴリズムはROIを優しく拡張し、各オブジェクトの周囲に追加の背景を提供する。
PaDは、基盤となるニューラルネットワークアーキテクチャを使用して、フルサイズおよび縮小サイズのフレームを処理することができる。
ImageNetのビデオオブジェクト検出データセットを使用した実験は、PaDがフレームに必要なFLOPSの数を4\times$で削減できることを示している。
これにより、NVIDIA Titan X GPUを搭載した2.1GHzのIntel Xeonサーバでは、スループットが1.25\times$1.25\times$で、精度は1.1\%低下する。
関連論文リスト
- 3D Small Object Detection with Dynamic Spatial Pruning [62.72638845817799]
本稿では,3次元小物体検出のための効率的な特徴解析手法を提案する。
空間分解能の高いDSPDet3Dというマルチレベル3次元検出器を提案する。
ほぼ全ての物体を検知しながら、4500k以上のポイントからなる建物全体を直接処理するには2秒もかからない。
論文 参考訳(メタデータ) (2023-05-05T17:57:04Z) - FrameHopper: Selective Processing of Video Frames in Detection-driven
Real-Time Video Analytics [2.5119455331413376]
検出駆動リアルタイムビデオ分析では、ビデオフレームに含まれるオブジェクトを連続的に検出する必要がある。
これらの検出器をリソース制約されたエッジデバイスの各フレームで実行することは、計算集約的である。
本稿では,これらのスキップ長を決定するために,オフライン強化学習(RL)に基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-22T07:05:57Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - rSVDdpd: A Robust Scalable Video Surveillance Background Modelling
Algorithm [13.535770763481905]
本稿では,新しいロバストな特異値分解手法rSVDdpdに基づくビデオ監視背景モデリングアルゴリズムを提案する。
また,提案アルゴリズムは,カメラの改ざんの有無で,ベンチマークデータセットとリアルタイムビデオ監視データセットに優越することを示した。
論文 参考訳(メタデータ) (2021-09-22T12:20:44Z) - FOVEA: Foveated Image Magnification for Autonomous Navigation [53.69803081925454]
入力キャンバスを小さく保ちながら、ある領域を弾性的に拡大する注意的アプローチを提案する。
提案手法は,高速R-CNNより高速かつ微調整の少ない検出APを高速化する。
Argoverse-HD と BDD100K の自律走行データセットでは,提案手法が標準の高速 R-CNN を超越した検出APを微調整なしで促進することを示す。
論文 参考訳(メタデータ) (2021-08-27T03:07:55Z) - You Better Look Twice: a new perspective for designing accurate
detectors with reduced computations [56.34005280792013]
BLT-netは、新しい低計算の2段階オブジェクト検出アーキテクチャである。
非常にエレガントな第1ステージを使用して、オブジェクトをバックグラウンドから分離することで、計算を削減します。
結果のイメージ提案は、高度に正確なモデルによって第2段階で処理される。
論文 参考訳(メタデータ) (2021-07-21T12:39:51Z) - Real-Time and Accurate Object Detection in Compressed Video by Long
Short-term Feature Aggregation [30.73836337432833]
ビデオオブジェクト検出は、検出速度と精度の限界を押し上げるために研究される。
コスト削減のため、ビデオ中のキーフレームをあまりサンプリングせず、残りのフレームはキーフレームではないように扱います。
大きくて深いネットワークはキーフレームの特徴を抽出するのに使われ、小さなネットワークはキーでないフレームに使われます。
提案するビデオオブジェクト検出ネットワークは,大規模なImageNet VIDベンチマークを用いて評価する。
論文 参考訳(メタデータ) (2021-03-25T01:38:31Z) - Single Shot Video Object Detector [215.06904478667337]
Single Shot Video Object Detector (SSVD)は、新しいアーキテクチャであり、ビデオ内のオブジェクト検出のための1段階の検出器に機能集約を新規に統合する。
448の448ドルの入力で、SSVDはImageNet VIDデータセットで79.2%のmAPを達成した。
論文 参考訳(メタデータ) (2020-07-07T15:36:26Z) - RN-VID: A Feature Fusion Architecture for Video Object Detection [10.667492516216889]
本稿では,映像オブジェクト検出の新しいアプローチであるRN-VID(RetinaNet-VIDeoの略)を提案する。
まず、近隣のフレームからの情報を利用して特徴マップを拡張できる新しいアーキテクチャを提案する。
第2に、チャネルの再順序付けと1 x 1畳み込みを用いて、同じ次元の特徴写像をマージする新しいモジュールを提案する。
論文 参考訳(メタデータ) (2020-03-24T14:54:46Z) - Plug & Play Convolutional Regression Tracker for Video Object Detection [37.47222104272429]
ビデオオブジェクト検出ターゲットは、オブジェクトのバウンディングボックスを同時にローカライズし、所定のビデオ内のクラスを識別する。
ビデオオブジェクト検出の課題のひとつは、ビデオ全体にわたるすべてのオブジェクトを一貫して検出することだ。
ビデオオブジェクト検出タスクのためのPlug & Playスケール適応型畳み込みレグレッショントラッカーを提案する。
論文 参考訳(メタデータ) (2020-03-02T15:57:55Z) - ZoomNet: Part-Aware Adaptive Zooming Neural Network for 3D Object
Detection [69.68263074432224]
ステレオ画像に基づく3D検出のためのZoomNetという新しいフレームワークを提案する。
ZoomNetのパイプラインは、通常の2Dオブジェクト検出モデルから始まり、左右のバウンディングボックスのペアを取得するために使用される。
さらに,RGB画像のテクスチャキューを多用し,より正確な異質度推定を行うため,適応ズームという概念的に真直ぐなモジュールを導入する。
論文 参考訳(メタデータ) (2020-03-01T17:18:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。