論文の概要: FFAVOD: Feature Fusion Architecture for Video Object Detection
- arxiv url: http://arxiv.org/abs/2109.07298v1
- Date: Wed, 15 Sep 2021 13:53:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-16 14:58:32.000081
- Title: FFAVOD: Feature Fusion Architecture for Video Object Detection
- Title(参考訳): FFAVOD:ビデオオブジェクト検出のための機能融合アーキテクチャ
- Authors: Hughes Perreault, Guillaume-Alexandre Bilodeau, Nicolas Saunier,
Maguelonne H\'eritier
- Abstract要約: 本稿では,ビデオオブジェクト検出のための機能融合アーキテクチャとしてFFAVODを提案する。
まず,周辺フレーム間で特徴マップをネットワークで共有できる新しいビデオオブジェクト検出アーキテクチャを提案する。
提案したアーキテクチャと融合モジュールを用いることで,移動路利用者のシーケンスを含む2つのオブジェクト検出ベンチマークにおいて,3つのベースオブジェクト検出器の性能を向上させることができることを示す。
- 参考スコア(独自算出の注目度): 11.365829102707014
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: A significant amount of redundancy exists between consecutive frames of a
video. Object detectors typically produce detections for one image at a time,
without any capabilities for taking advantage of this redundancy. Meanwhile,
many applications for object detection work with videos, including intelligent
transportation systems, advanced driver assistance systems and video
surveillance. Our work aims at taking advantage of the similarity between video
frames to produce better detections. We propose FFAVOD, standing for feature
fusion architecture for video object detection. We first introduce a novel
video object detection architecture that allows a network to share feature maps
between nearby frames. Second, we propose a feature fusion module that learns
to merge feature maps to enhance them. We show that using the proposed
architecture and the fusion module can improve the performance of three base
object detectors on two object detection benchmarks containing sequences of
moving road users. Additionally, to further increase performance, we propose an
improvement to the SpotNet attention module. Using our architecture on the
improved SpotNet detector, we obtain the state-of-the-art performance on the
UA-DETRAC public benchmark as well as on the UAVDT dataset. Code is available
at https://github.com/hu64/FFAVOD.
- Abstract(参考訳): ビデオの連続フレームの間にかなりの冗長性が存在する。
物体検出器は通常、この冗長性を利用することなく、一度に1つの画像を検出する。
一方、オブジェクト検出の多くのアプリケーションは、インテリジェントトランスポーテーションシステム、高度な運転支援システム、ビデオ監視など、ビデオで動作します。
本研究の目的は,ビデオフレーム間の類似性を活かして,より優れた検出を実現することである。
本稿では,ビデオオブジェクト検出のための機能融合アーキテクチャとしてFFAVODを提案する。
まず,近接フレーム間の特徴マップをネットワークで共有可能な,新しい映像物体検出アーキテクチャを提案する。
第2に,機能マップをマージして機能マップを強化する機能融合モジュールを提案する。
提案するアーキテクチャとフュージョンモジュールを用いることで,移動道路利用者のシーケンスを含む2つの物体検出ベンチマークにおいて,3つの基本物体検出器の性能向上が期待できることを示す。
さらに,さらに性能を向上させるため,spotnet attentionモジュールの改良を提案する。
改良されたSpotNet検出器のアーキテクチャを用いて、UA-DETRAC公開ベンチマークやUAVDTデータセット上での最先端のパフォーマンスを得る。
コードはhttps://github.com/hu64/ffavodで入手できる。
関連論文リスト
- STF: Spatio-Temporal Fusion Module for Improving Video Object Detection [7.213855322671065]
ビデオ内のConsive frameは冗長性を含んでいるが、検出タスクの補完情報も含んでいる。
本稿では,この補完情報を活用するための時空間融合フレームワーク(STF)を提案する。
提案した時間融合モジュールは、ベースラインオブジェクト検出器と比較して検出性能が向上する。
論文 参考訳(メタデータ) (2024-02-16T15:19:39Z) - Camouflaged Object Detection with Feature Grafting and Distractor Aware [9.791590363932519]
そこで我々は,Camouflaged Object Detectionタスクを処理するために,FDNet(Feature Grafting and Distractor Aware Network)を提案する。
具体的には、CNNとTransformerを使ってマルチスケール画像を並列にエンコードする。
Distractor Aware Moduleは、CODタスクで考えられる2つの障害を明示的にモデル化して、粗いカモフラージュマップを洗練させるように設計されている。
論文 参考訳(メタデータ) (2023-07-08T09:37:08Z) - Memory Maps for Video Object Detection and Tracking on UAVs [14.573513188682183]
本稿では,無人航空機(UAV)における映像物体の検出と追跡のための新しい手法を提案する。
メタデータを取り入れることで、実際の世界座標におけるオブジェクト位置のメモリマップを作成する。
我々は,この表現を用いて信頼度を高め,時間的コンピュータビジョンタスクの性能を向上させる。
論文 参考訳(メタデータ) (2023-03-06T21:29:45Z) - A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。
マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。
我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-08-22T03:38:01Z) - A Unified Transformer Framework for Group-based Segmentation:
Co-Segmentation, Co-Saliency Detection and Video Salient Object Detection [59.21990697929617]
人間は、ダイナミックな世界に住んでいるので、画像のグループやビデオのフレームから学ぶことによってオブジェクトをマイニングする傾向があります。
従来のアプローチでは、類似したタスクで異なるネットワークを個別に設計するが、互いに適用するのは困難である。
UFO(UnifiedObject Framework for Co-Object Framework)という,これらの問題に対処するための統一フレームワークを導入する。
論文 参考訳(メタデータ) (2022-03-09T13:35:19Z) - Recent Trends in 2D Object Detection and Applications in Video Event
Recognition [0.76146285961466]
物体検出における先駆的な研究について論じるとともに,近年のディープラーニングを活用したブレークスルーも取り上げている。
本稿では、画像とビデオの両方で2次元物体検出のための最近のデータセットを強調し、様々な最先端物体検出技術の比較性能の概要を示す。
論文 参考訳(メタデータ) (2022-02-07T14:15:11Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Full-Duplex Strategy for Video Object Segmentation [141.43983376262815]
Full- Strategy Network (FSNet)はビデオオブジェクトセグメンテーション(VOS)のための新しいフレームワークである
我々のFSNetは、融合復号ステージの前に、クロスモーダルな機能パス(すなわち、送信と受信)を同時に実行します。
我々のFSNetは、VOSとビデオの有能なオブジェクト検出タスクの両方において、他の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-06T14:50:50Z) - Ensembling object detectors for image and video data analysis [98.26061123111647]
本稿では,複数の物体検出器の出力をアンサンブルすることで,画像データ上の境界ボックスの検出性能と精度を向上させる手法を提案する。
本研究では,2段階追跡に基づく検出精度向上手法を提案することで,映像データに拡張する。
論文 参考訳(メタデータ) (2021-02-09T12:38:16Z) - Single Shot Video Object Detector [215.06904478667337]
Single Shot Video Object Detector (SSVD)は、新しいアーキテクチャであり、ビデオ内のオブジェクト検出のための1段階の検出器に機能集約を新規に統合する。
448の448ドルの入力で、SSVDはImageNet VIDデータセットで79.2%のmAPを達成した。
論文 参考訳(メタデータ) (2020-07-07T15:36:26Z) - RN-VID: A Feature Fusion Architecture for Video Object Detection [10.667492516216889]
本稿では,映像オブジェクト検出の新しいアプローチであるRN-VID(RetinaNet-VIDeoの略)を提案する。
まず、近隣のフレームからの情報を利用して特徴マップを拡張できる新しいアーキテクチャを提案する。
第2に、チャネルの再順序付けと1 x 1畳み込みを用いて、同じ次元の特徴写像をマージする新しいモジュールを提案する。
論文 参考訳(メタデータ) (2020-03-24T14:54:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。