論文の概要: Spatio-Temporal Learnable Proposals for End-to-End Video Object
Detection
- arxiv url: http://arxiv.org/abs/2210.02368v2
- Date: Fri, 7 Oct 2022 14:07:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 10:20:22.073376
- Title: Spatio-Temporal Learnable Proposals for End-to-End Video Object
Detection
- Title(参考訳): エンドツーエンドビデオオブジェクト検出のための時空間学習型提案
- Authors: Khurram Azeem Hashmi, Didier Stricker, Muhammamd Zeshan Afzal
- Abstract要約: 本稿では、Sparse R-CNNを用いて時間情報を利用する新しいビデオオブジェクト検出パイプラインであるSparseVODを提案する。
提案手法は1フレームのSparse RCNNをmAPで8%-9%改善する。
- 参考スコア(独自算出の注目度): 12.650574326251023
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper presents the novel idea of generating object proposals by
leveraging temporal information for video object detection. The feature
aggregation in modern region-based video object detectors heavily relies on
learned proposals generated from a single-frame RPN. This imminently introduces
additional components like NMS and produces unreliable proposals on low-quality
frames. To tackle these restrictions, we present SparseVOD, a novel video
object detection pipeline that employs Sparse R-CNN to exploit temporal
information. In particular, we introduce two modules in the dynamic head of
Sparse R-CNN. First, the Temporal Feature Extraction module based on the
Temporal RoI Align operation is added to extract the RoI proposal features.
Second, motivated by sequence-level semantic aggregation, we incorporate the
attention-guided Semantic Proposal Feature Aggregation module to enhance object
feature representation before detection. The proposed SparseVOD effectively
alleviates the overhead of complicated post-processing methods and makes the
overall pipeline end-to-end trainable. Extensive experiments show that our
method significantly improves the single-frame Sparse RCNN by 8%-9% in mAP.
Furthermore, besides achieving state-of-the-art 80.3% mAP on the ImageNet VID
dataset with ResNet-50 backbone, our SparseVOD outperforms existing
proposal-based methods by a significant margin on increasing IoU thresholds
(IoU > 0.5).
- Abstract(参考訳): 本稿では,映像オブジェクト検出に時間的情報を活用することによってオブジェクト提案を生成する新しいアイデアを提案する。
現代の領域ベースのビデオオブジェクト検出器の特徴集約は、シングルフレームRPNから生成された学習された提案に大きく依存している。
これはすぐにNMSのような追加のコンポーネントを導入し、低品質のフレームに対する信頼性の低い提案を生み出します。
これらの制約に対処するために,Sparse R-CNNを用いて時間情報を利用する新しいビデオオブジェクト検出パイプラインであるSparseVODを提案する。
特に,Sparse R-CNNの動的ヘッドに2つのモジュールを導入する。
まず、時間的roiアライメント操作に基づく時間的特徴抽出モジュールを追加して、roi提案特徴を抽出する。
第2に、シーケンスレベルのセマンティックアグリゲーションによって動機付けられた、注目誘導セマンティック提案特徴集合モジュールを組み込んで、検出前のオブジェクト特徴表現を強化する。
提案するsparsevodは、複雑な後処理メソッドのオーバーヘッドを効果的に軽減し、パイプライン全体をエンドツーエンドでトレーニング可能にする。
大規模実験の結果,本手法は1フレームのSparse RCNNをmAPで8%-9%改善することがわかった。
さらに、ResNet-50バックボーンでImageNet VIDデータセット上で最先端の80.3%のmAPを達成することに加えて、SparseVODはIoU閾値の増大(IoU > 0.5)において、既存の提案ベースのメソッドよりも優れています。
関連論文リスト
- LR-FPN: Enhancing Remote Sensing Object Detection with Location Refined Feature Pyramid Network [2.028685490378346]
浅い位置情報の抽出を促進するために,新しい位置改良型特徴ピラミッドネットワーク(LR-FPN)を提案する。
2つの大規模なリモートセンシングデータセットの実験により、提案したLR-FPNは最先端のオブジェクト検出手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-04-02T03:36:07Z) - TransVOD: End-to-end Video Object Detection with Spatial-Temporal
Transformers [96.981282736404]
時空間トランスフォーマアーキテクチャに基づく最初のエンドツーエンドビデオオブジェクト検出システムであるTransVODを提案する。
提案した TransVOD++ は,90.0% mAP の ImageNet VID の精度で,最先端のレコードを新たに設定する。
提案したTransVOD Liteは,約30FPSで動作する場合に,83.7%のmAPで最高の速度と精度のトレードオフを実現する。
論文 参考訳(メタデータ) (2022-01-13T16:17:34Z) - Exploring Motion and Appearance Information for Temporal Sentence
Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-01-03T02:44:18Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - A Generic Object Re-identification System for Short Videos [39.662850217144964]
オブジェクト検出モジュールにはTIFN(Temporal Information Fusion Network)が提案されている。
The Cross-Layer Pointwise Siamese Network (CPSN) is proposed to enhance the robustness of the appearance model。
実世界のショートビデオを含む2つの課題データセットは、ビデオオブジェクトの軌跡抽出とジェネリックオブジェクトの再同定のために構築されている。
論文 参考訳(メタデータ) (2021-02-10T05:45:09Z) - DS-Net: Dynamic Spatiotemporal Network for Video Salient Object
Detection [78.04869214450963]
時間情報と空間情報のより効果的な融合のための新しい動的時空間ネットワーク(DSNet)を提案する。
提案手法は最先端アルゴリズムよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-12-09T06:42:30Z) - Fast Video Object Segmentation With Temporal Aggregation Network and
Dynamic Template Matching [67.02962970820505]
ビデオオブジェクト(VOS)に「トラッキング・バイ・検出」を導入する。
本稿では,時間的アグリゲーションネットワークと動的時間進化テンプレートマッチング機構を提案する。
我々は,DAVISベンチマークで1フレームあたり0.14秒,J&Fで75.9%の速度で,複雑なベルとホイッスルを伴わずに,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-11T05:44:16Z) - LiDAR-based Online 3D Video Object Detection with Graph-based Message
Passing and Spatiotemporal Transformer Attention [100.52873557168637]
3Dオブジェクト検出器は、通常は単一フレームの検出にフォーカスするが、連続する点のクラウドフレームでは情報を無視する。
本稿では,ポイントシーケンスで動作するエンドツーエンドのオンライン3Dビデオオブジェクト検出器を提案する。
論文 参考訳(メタデータ) (2020-04-03T06:06:52Z) - Spatio-temporal Tubelet Feature Aggregation and Object Linking in Videos [2.4923006485141284]
論文は、オブジェクト分類を改善するために、利用可能なビデオの時間情報をどのように活用するかという問題に対処する。
本稿では,FANetと呼ばれる2段階の物体検出器を提案する。
論文 参考訳(メタデータ) (2020-04-01T13:52:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。