論文の概要: Real-Time and Accurate Object Detection in Compressed Video by Long
Short-term Feature Aggregation
- arxiv url: http://arxiv.org/abs/2103.14529v1
- Date: Thu, 25 Mar 2021 01:38:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-30 04:57:06.482041
- Title: Real-Time and Accurate Object Detection in Compressed Video by Long
Short-term Feature Aggregation
- Title(参考訳): 長時間特徴集約による圧縮映像のリアルタイム・高精度物体検出
- Authors: Xinggang Wang, Zhaojin Huang, Bencheng Liao, Lichao Huang, Yongchao
Gong, Chang Huang
- Abstract要約: ビデオオブジェクト検出は、検出速度と精度の限界を押し上げるために研究される。
コスト削減のため、ビデオ中のキーフレームをあまりサンプリングせず、残りのフレームはキーフレームではないように扱います。
大きくて深いネットワークはキーフレームの特徴を抽出するのに使われ、小さなネットワークはキーでないフレームに使われます。
提案するビデオオブジェクト検出ネットワークは,大規模なImageNet VIDベンチマークを用いて評価する。
- 参考スコア(独自算出の注目度): 30.73836337432833
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video object detection is a fundamental problem in computer vision and has a
wide spectrum of applications. Based on deep networks, video object detection
is actively studied for pushing the limits of detection speed and accuracy. To
reduce the computation cost, we sparsely sample key frames in video and treat
the rest frames are non-key frames; a large and deep network is used to extract
features for key frames and a tiny network is used for non-key frames. To
enhance the features of non-key frames, we propose a novel short-term feature
aggregation method to propagate the rich information in key frame features to
non-key frame features in a fast way. The fast feature aggregation is enabled
by the freely available motion cues in compressed videos. Further, key frame
features are also aggregated based on optical flow. The propagated deep
features are then integrated with the directly extracted features for object
detection. The feature extraction and feature integration parameters are
optimized in an end-to-end manner. The proposed video object detection network
is evaluated on the large-scale ImageNet VID benchmark and achieves 77.2\% mAP,
which is on-par with state-of-the-art accuracy, at the speed of 30 FPS using a
Titan X GPU. The source codes are available at
\url{https://github.com/hustvl/LSFA}.
- Abstract(参考訳): ビデオ物体検出はコンピュータビジョンにおける根本的な問題であり、幅広い応用範囲がある。
ディープネットワークに基づいて,検出速度と精度の限界を押し上げるために,映像物体検出が積極的に研究されている。
計算コストを低減させるため,キーフレームをビデオでサンプリングし,残りフレームを非キーフレームとして扱い,大きなディープネットワークをキーフレームの特徴抽出に,小さなネットワークを非キーフレームに使用する。
非鍵フレームの特徴を高めるために、キーフレームの特徴の豊富な情報を高速に非鍵フレームの特徴に伝達する、新しい短期的特徴集約法を提案する。
高速機能アグリゲーションは、圧縮ビデオで自由に利用可能なモーションキューによって実現される。
さらに、光フローに基づいてキーフレームの特徴を集約する。
伝播した深い特徴は、オブジェクト検出のために直接抽出された特徴と統合される。
特徴抽出と機能統合パラメータはエンドツーエンドで最適化される。
提案するビデオオブジェクト検出ネットワークは、大規模なImageNet VIDベンチマークに基づいて評価され、Titan X GPUを用いた30FPSの速度で77.2\% mAPを達成する。
ソースコードは \url{https://github.com/hustvl/LSFA} で入手できる。
関連論文リスト
- Spatio-temporal Prompting Network for Robust Video Feature Extraction [74.54597668310707]
フレームテンポラリ(Frametemporal)は、ビデオ理解の分野における大きな課題の1つだ。
最近のアプローチでは、トランスフォーマーベースの統合モジュールを活用して、時間的品質情報を得る。
N-Temporal Prompting Network (NNSTP) という,クリーンで統一されたフレームワークを提案する。
ネットワークバックボーン内の入力特徴を調整することで,映像特徴の抽出を効率的に行うことができる。
論文 参考訳(メタデータ) (2024-02-04T17:52:04Z) - A Spatial-Temporal Deformable Attention based Framework for Breast
Lesion Detection in Videos [107.96514633713034]
本稿では,STNet という空間的・時間的変形可能なアテンションベースのフレームワークを提案する。
我々のSTNetは、局所的な空間的時間的特徴融合を行うために、空間的時間的変形可能なアテンションモジュールを導入している。
乳腺病変の超音波画像データセットを用いた実験により,STNetは最先端の検出性能を得ることができた。
論文 参考訳(メタデータ) (2023-09-09T07:00:10Z) - Key Frame Extraction with Attention Based Deep Neural Networks [0.0]
本稿では,注目層を持つディープオートエンコーダモデルを用いて,ディープラーニングに基づく検出手法を提案する。
提案手法は,まずオートエンコーダのエンコーダ部を用いて映像フレームから特徴を抽出し,k-meansアルゴリズムを用いて特徴と類似フレームをグループ化する。
本手法は,TVSUMクラスタリングビデオデータセットを用いて評価し,0.77の分類精度を達成し,既存の多くの手法よりも高い成功率を示した。
論文 参考訳(メタデータ) (2023-06-21T15:09:37Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Single Shot Video Object Detector [215.06904478667337]
Single Shot Video Object Detector (SSVD)は、新しいアーキテクチャであり、ビデオ内のオブジェクト検出のための1段階の検出器に機能集約を新規に統合する。
448の448ドルの入力で、SSVDはImageNet VIDデータセットで79.2%のmAPを達成した。
論文 参考訳(メタデータ) (2020-07-07T15:36:26Z) - Plug & Play Convolutional Regression Tracker for Video Object Detection [37.47222104272429]
ビデオオブジェクト検出ターゲットは、オブジェクトのバウンディングボックスを同時にローカライズし、所定のビデオ内のクラスを識別する。
ビデオオブジェクト検出の課題のひとつは、ビデオ全体にわたるすべてのオブジェクトを一貫して検出することだ。
ビデオオブジェクト検出タスクのためのPlug & Playスケール適応型畳み込みレグレッショントラッカーを提案する。
論文 参考訳(メタデータ) (2020-03-02T15:57:55Z) - Pack and Detect: Fast Object Detection in Videos Using Region-of-Interest Packing [15.162117090697006]
そこで我々は,ビデオにおけるオブジェクト検出の計算要求を削減するためのPack and Detectを提案する。
ImageNetのビデオオブジェクト検出データセットを使用した実験は、PaDがフレームに必要なFLOPSの数を4.99ドル削減できることを示している。
論文 参考訳(メタデータ) (2018-09-05T19:29:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。