論文の概要: Single Shot Video Object Detector
- arxiv url: http://arxiv.org/abs/2007.03560v1
- Date: Tue, 7 Jul 2020 15:36:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-12 20:10:05.529112
- Title: Single Shot Video Object Detector
- Title(参考訳): シングルショットビデオオブジェクト検出器
- Authors: Jiajun Deng and Yingwei Pan and Ting Yao and Wengang Zhou and Houqiang
Li and Tao Mei
- Abstract要約: Single Shot Video Object Detector (SSVD)は、新しいアーキテクチャであり、ビデオ内のオブジェクト検出のための1段階の検出器に機能集約を新規に統合する。
448の448ドルの入力で、SSVDはImageNet VIDデータセットで79.2%のmAPを達成した。
- 参考スコア(独自算出の注目度): 215.06904478667337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Single shot detectors that are potentially faster and simpler than two-stage
detectors tend to be more applicable to object detection in videos.
Nevertheless, the extension of such object detectors from image to video is not
trivial especially when appearance deterioration exists in videos, \emph{e.g.},
motion blur or occlusion. A valid question is how to explore temporal coherence
across frames for boosting detection. In this paper, we propose to address the
problem by enhancing per-frame features through aggregation of neighboring
frames. Specifically, we present Single Shot Video Object Detector (SSVD) -- a
new architecture that novelly integrates feature aggregation into a one-stage
detector for object detection in videos. Technically, SSVD takes Feature
Pyramid Network (FPN) as backbone network to produce multi-scale features.
Unlike the existing feature aggregation methods, SSVD, on one hand, estimates
the motion and aggregates the nearby features along the motion path, and on the
other, hallucinates features by directly sampling features from the adjacent
frames in a two-stream structure. Extensive experiments are conducted on
ImageNet VID dataset, and competitive results are reported when comparing to
state-of-the-art approaches. More remarkably, for $448 \times 448$ input, SSVD
achieves 79.2% mAP on ImageNet VID, by processing one frame in 85 ms on an
Nvidia Titan X Pascal GPU. The code is available at
\url{https://github.com/ddjiajun/SSVD}.
- Abstract(参考訳): 単発検出器は2段検出器よりも高速でシンプルであり、ビデオの物体検出にも適用しやすい傾向にある。
それでも、画像からビデオへの対象検出器の拡張は、特にビデオの外観劣化である「emph{e.g.}」、動きのぼやけや閉塞が存在する場合、簡単ではない。
有効な疑問は、検出を促進するためにフレーム間で時間的コヒーレンスを探索する方法である。
本稿では,隣接するフレームの集約によるフレーム単位の特徴の強化により,この問題に対処することを提案する。
具体的には、single shot video object detector (ssvd) -- 機能集約を、ビデオ中のオブジェクト検出のためのワンステージ検出器に新規に統合する、新しいアーキテクチャーです。
技術的には、SSVDはFPN(Feature Pyramid Network)をバックボーンネットワークとして、マルチスケールの機能を生成する。
既存の特徴集約法とは異なり、ssvdは動きを推定し、運動経路に沿って周辺特徴を集約し、他方では隣接するフレームから2つのストリーム構造で特徴を直接サンプリングすることで特徴を幻視する。
ImageNet VIDデータセット上で大規模な実験を行い、最先端のアプローチと比較して競争結果が報告される。
さらに驚くべきことに、SSVDは448 \times 448$の入力でImageNet VID上で79.2%のmAPを達成し、Nvidia Titan X Pascal GPUで85msで1フレームを処理している。
コードは \url{https://github.com/ddjiajun/ssvd} で入手できる。
関連論文リスト
- Practical Video Object Detection via Feature Selection and Aggregation [18.15061460125668]
ビデオオブジェクト検出(VOD)は、オブジェクトの外観における高いフレーム間変動と、いくつかのフレームにおける多様な劣化を懸念する必要がある。
現代のアグリゲーション法のほとんどは、高い計算コストに苦しむ2段階検出器用に調整されている。
この研究は、特徴選択と集約の非常に単純だが強力な戦略を考案し、限界計算コストでかなりの精度を得る。
論文 参考訳(メタデータ) (2024-07-29T02:12:11Z) - Spatio-temporal Prompting Network for Robust Video Feature Extraction [74.54597668310707]
フレームテンポラリ(Frametemporal)は、ビデオ理解の分野における大きな課題の1つだ。
最近のアプローチでは、トランスフォーマーベースの統合モジュールを活用して、時間的品質情報を得る。
N-Temporal Prompting Network (NNSTP) という,クリーンで統一されたフレームワークを提案する。
ネットワークバックボーン内の入力特徴を調整することで,映像特徴の抽出を効率的に行うことができる。
論文 参考訳(メタデータ) (2024-02-04T17:52:04Z) - Multi-grained Temporal Prototype Learning for Few-shot Video Object
Segmentation [156.4142424784322]
FSVOS(Few-Shot Video Object)は、いくつかのアノテーション付きサポートイメージで定義されるのと同じカテゴリで、クエリビデオ内のオブジェクトをセグメントすることを目的としている。
本稿では,ビデオデータの時間的相関性を扱うために,多粒度時間的ガイダンス情報を活用することを提案する。
提案するビデオIPMTモデルは,2つのベンチマークデータセットにおいて,従来のモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2023-09-20T09:16:34Z) - YOLOV: Making Still Image Object Detectors Great at Video Object
Detection [23.039968987772543]
映像オブジェクト検出(VID)は,映像の外観のばらつきやフレームの多様さにより困難である。
この研究は、問題に対処するための単純だが効果的な戦略を提案する。
我々のYOLOXベースのモデルは、有望なパフォーマンスを達成することができる(例えば、1つの2080Ti GPU上のImageNet VIDデータセット上で、30FPS以上の87.5% AP50)。
論文 参考訳(メタデータ) (2022-08-20T14:12:06Z) - Spatial-Temporal Frequency Forgery Clue for Video Forgery Detection in
VIS and NIR Scenario [87.72258480670627]
既存の周波数領域に基づく顔偽造検出手法では、GAN鍛造画像は、実際の画像と比較して、周波数スペクトルに明らかな格子状の視覚的アーチファクトを持つ。
本稿では,コサイン変換に基づくフォージェリークリュー拡張ネットワーク(FCAN-DCT)を提案し,より包括的な時空間特徴表現を実現する。
論文 参考訳(メタデータ) (2022-07-05T09:27:53Z) - Real-Time and Accurate Object Detection in Compressed Video by Long
Short-term Feature Aggregation [30.73836337432833]
ビデオオブジェクト検出は、検出速度と精度の限界を押し上げるために研究される。
コスト削減のため、ビデオ中のキーフレームをあまりサンプリングせず、残りのフレームはキーフレームではないように扱います。
大きくて深いネットワークはキーフレームの特徴を抽出するのに使われ、小さなネットワークはキーでないフレームに使われます。
提案するビデオオブジェクト検出ネットワークは,大規模なImageNet VIDベンチマークを用いて評価する。
論文 参考訳(メタデータ) (2021-03-25T01:38:31Z) - CompFeat: Comprehensive Feature Aggregation for Video Instance
Segmentation [67.17625278621134]
ビデオインスタンスのセグメンテーションは、特定のビデオのそれぞれのオブジェクトを検出し、セグメンテーションし、追跡する必要がある複雑なタスクです。
従来のアプローチは、オブジェクトの検出、セグメンテーション、追跡にのみシングルフレーム機能を使用します。
本稿では,時間的および空間的コンテキスト情報を用いて,フレームレベルとオブジェクトレベルでの機能を洗練する新しい包括的特徴集約アプローチ(compfeat)を提案する。
論文 参考訳(メタデータ) (2020-12-07T00:31:42Z) - Fast Video Object Segmentation With Temporal Aggregation Network and
Dynamic Template Matching [67.02962970820505]
ビデオオブジェクト(VOS)に「トラッキング・バイ・検出」を導入する。
本稿では,時間的アグリゲーションネットワークと動的時間進化テンプレートマッチング機構を提案する。
我々は,DAVISベンチマークで1フレームあたり0.14秒,J&Fで75.9%の速度で,複雑なベルとホイッスルを伴わずに,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-11T05:44:16Z) - RN-VID: A Feature Fusion Architecture for Video Object Detection [10.667492516216889]
本稿では,映像オブジェクト検出の新しいアプローチであるRN-VID(RetinaNet-VIDeoの略)を提案する。
まず、近隣のフレームからの情報を利用して特徴マップを拡張できる新しいアーキテクチャを提案する。
第2に、チャネルの再順序付けと1 x 1畳み込みを用いて、同じ次元の特徴写像をマージする新しいモジュールを提案する。
論文 参考訳(メタデータ) (2020-03-24T14:54:46Z) - Plug & Play Convolutional Regression Tracker for Video Object Detection [37.47222104272429]
ビデオオブジェクト検出ターゲットは、オブジェクトのバウンディングボックスを同時にローカライズし、所定のビデオ内のクラスを識別する。
ビデオオブジェクト検出の課題のひとつは、ビデオ全体にわたるすべてのオブジェクトを一貫して検出することだ。
ビデオオブジェクト検出タスクのためのPlug & Playスケール適応型畳み込みレグレッショントラッカーを提案する。
論文 参考訳(メタデータ) (2020-03-02T15:57:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。