論文の概要: Efficient One-stage Video Object Detection by Exploiting Temporal
Consistency
- arxiv url: http://arxiv.org/abs/2402.09241v1
- Date: Wed, 14 Feb 2024 15:32:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 14:55:37.681529
- Title: Efficient One-stage Video Object Detection by Exploiting Temporal
Consistency
- Title(参考訳): 時間一貫性の爆発によるワンステージ映像検出
- Authors: Guanxiong Sun, Yang Hua, Guosheng Hu, Neil Robertson
- Abstract要約: 1段検出器は、画像データ上の従来の2段検出器と比較して、競争精度と速度の速さを達成している。
本稿では,まず,ビデオ物体検出に一段検出器を用いる際の計算ボトルネックを解析する。
本稿では,計算ボトルネックに対処し,効率的なワンステージVODを実現するための,シンプルで効率的なフレームワークを提案する。
- 参考スコア(独自算出の注目度): 35.16197118579414
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, one-stage detectors have achieved competitive accuracy and faster
speed compared with traditional two-stage detectors on image data. However, in
the field of video object detection (VOD), most existing VOD methods are still
based on two-stage detectors. Moreover, directly adapting existing VOD methods
to one-stage detectors introduces unaffordable computational costs. In this
paper, we first analyse the computational bottlenecks of using one-stage
detectors for VOD. Based on the analysis, we present a simple yet efficient
framework to address the computational bottlenecks and achieve efficient
one-stage VOD by exploiting the temporal consistency in video frames.
Specifically, our method consists of a location-prior network to filter out
background regions and a size-prior network to skip unnecessary computations on
low-level feature maps for specific frames. We test our method on various
modern one-stage detectors and conduct extensive experiments on the ImageNet
VID dataset. Excellent experimental results demonstrate the superior
effectiveness, efficiency, and compatibility of our method. The code is
available at https://github.com/guanxiongsun/vfe.pytorch.
- Abstract(参考訳): 近年,画像データを用いた従来の2段検出器と比較して,1段検出器の精度と高速化が図られている。
しかし、ビデオオブジェクト検出(VOD)の分野では、既存のVOD法の多くはまだ2段階検出器に基づいている。
さらに,既存のVOD法をワンステージ検出器に直接適用することで,計算コストの削減が図られる。
本稿では,VOD用1段検出器の計算ボトルネックをまず解析する。
解析に基づいて,ビデオフレームの時間的一貫性を利用して,計算ボトルネックに対処し,効率的なワンステージVODを実現する。
具体的には,バックグラウンド領域をフィルタリングする位置優先ネットワークと,特定のフレームに対する低レベル特徴マップの不要な計算をスキップするサイズ優先ネットワークからなる。
我々は, 現代の一段検出装置上で実験を行い, ImageNet VIDデータセット上で広範囲に実験を行った。
優れた実験結果から,本手法の有効性,効率,適合性が示された。
コードはhttps://github.com/guanxiongsun/vfe.pytorchで入手できる。
関連論文リスト
- Practical Video Object Detection via Feature Selection and Aggregation [18.15061460125668]
ビデオオブジェクト検出(VOD)は、オブジェクトの外観における高いフレーム間変動と、いくつかのフレームにおける多様な劣化を懸念する必要がある。
現代のアグリゲーション法のほとんどは、高い計算コストに苦しむ2段階検出器用に調整されている。
この研究は、特徴選択と集約の非常に単純だが強力な戦略を考案し、限界計算コストでかなりの精度を得る。
論文 参考訳(メタデータ) (2024-07-29T02:12:11Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - TempNet: Temporal Attention Towards the Detection of Animal Behaviour in
Videos [63.85815474157357]
本稿では,映像中の生物学的行動を検出するための,効率的なコンピュータビジョンと深層学習に基づく手法を提案する。
TempNetはエンコーダブリッジと残留ブロックを使用して、2段階の空間的、そして時間的、エンコーダでモデル性能を維持する。
本研究では,サブルフィッシュ (Anoplopoma fimbria) 幼虫の検出への応用を実証する。
論文 参考訳(メタデータ) (2022-11-17T23:55:12Z) - YOLOV: Making Still Image Object Detectors Great at Video Object
Detection [23.039968987772543]
映像オブジェクト検出(VID)は,映像の外観のばらつきやフレームの多様さにより困難である。
この研究は、問題に対処するための単純だが効果的な戦略を提案する。
我々のYOLOXベースのモデルは、有望なパフォーマンスを達成することができる(例えば、1つの2080Ti GPU上のImageNet VIDデータセット上で、30FPS以上の87.5% AP50)。
論文 参考訳(メタデータ) (2022-08-20T14:12:06Z) - NSNet: Non-saliency Suppression Sampler for Efficient Video Recognition [89.84188594758588]
非定常フレームの応答を抑制するために, NSNet(Non-Sliency Suppression Network)を提案する。
NSNetは最先端の精度効率トレードオフを実現し、最先端の手法よりもはるかに高速な2.44.3xの実用的な推論速度を示す。
論文 参考訳(メタデータ) (2022-07-21T09:41:22Z) - ETAD: A Unified Framework for Efficient Temporal Action Detection [70.21104995731085]
時間的行動検出(TAD)のようなトリミングされていないビデオ理解は、しばしば計算資源に対する膨大な需要の苦痛に悩まされる。
我々は、効率的なエンド・ツー・エンドの時間的行動検出(ETAD)のための統合されたフレームワークを構築している。
ETADはTHUMOS-14とActivityNet-1.3の両方で最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-05-14T21:16:21Z) - Implicit Motion Handling for Video Camouflaged Object Detection [60.98467179649398]
本稿では,新しいビデオカモフラージュオブジェクト検出(VCOD)フレームワークを提案する。
短期的および長期的整合性を利用して、ビデオフレームからカモフラージュされたオブジェクトを検出する。
論文 参考訳(メタデータ) (2022-03-14T17:55:41Z) - Motion Vector Extrapolation for Video Object Detection [0.0]
MOVEXは、一般的なCPUベースのシステムで低レイテンシのビデオオブジェクト検出を可能にする。
提案手法は,任意の対象検出器のベースライン遅延を著しく低減することを示す。
さらなるレイテンシ低減は、元のレイテンシよりも最大25倍低いもので、最小限の精度で達成できる。
論文 参考訳(メタデータ) (2021-04-18T17:26:37Z) - Efficient Two-Stream Network for Violence Detection Using Separable
Convolutional LSTM [0.0]
Separable Convolutional LSTM(SepConvLSTM)と予め訓練されたMobileNetを活用した効率的な2ストリームディープラーニングアーキテクチャを提案する。
SepConvLSTMは、ConvLSTMの各ゲートの畳み込み操作を深さ方向に分離可能な畳み込みに置き換えて構築されます。
我々のモデルは、大きくて挑戦的なrwf-2000データセットの精度を2%以上上回っている。
論文 参考訳(メタデータ) (2021-02-21T12:01:48Z) - Finding Action Tubes with a Sparse-to-Dense Framework [62.60742627484788]
本稿では,ビデオストリームからのアクションチューブ提案を1つのフォワードパスでスパース・トゥ・デンス方式で生成するフレームワークを提案する。
UCF101-24, JHMDB-21, UCFSportsベンチマークデータセット上で, 本モデルの有効性を評価する。
論文 参考訳(メタデータ) (2020-08-30T15:38:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。