論文の概要: YOLOV: Making Still Image Object Detectors Great at Video Object
Detection
- arxiv url: http://arxiv.org/abs/2208.09686v1
- Date: Sat, 20 Aug 2022 14:12:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-23 13:17:16.832772
- Title: YOLOV: Making Still Image Object Detectors Great at Video Object
Detection
- Title(参考訳): YOLOV:静止画オブジェクト検出器をビデオオブジェクト検出に活用
- Authors: Yuheng Shi, Naiyan Wang, Xiaojie Guo
- Abstract要約: 映像オブジェクト検出(VID)は,映像の外観のばらつきやフレームの多様さにより困難である。
この研究は、問題に対処するための単純だが効果的な戦略を提案する。
我々のYOLOXベースのモデルは、有望なパフォーマンスを達成することができる(例えば、1つの2080Ti GPU上のImageNet VIDデータセット上で、30FPS以上の87.5% AP50)。
- 参考スコア(独自算出の注目度): 23.039968987772543
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Video object detection (VID) is challenging because of the high variation of
object appearance as well as the diverse deterioration in some frames. On the
positive side, the detection in a certain frame of a video, compared with in a
still image, can draw support from other frames. Hence, how to aggregate
features across different frames is pivotal to the VID problem. Most of
existing aggregation algorithms are customized for two-stage detectors. But,
the detectors in this category are usually computationally expensive due to the
two-stage nature. This work proposes a simple yet effective strategy to address
the above concerns, which spends marginal overheads with significant gains in
accuracy. Concretely, different from the traditional two-stage pipeline, we
advocate putting the region-level selection after the one-stage detection to
avoid processing massive low-quality candidates. Besides, a novel module is
constructed to evaluate the relationship between a target frame and its
reference ones, and guide the aggregation. Extensive experiments and ablation
studies are conducted to verify the efficacy of our design, and reveal its
superiority over other state-of-the-art VID approaches in both effectiveness
and efficiency. Our YOLOX-based model can achieve promising performance (e.g.,
87.5\% AP50 at over 30 FPS on the ImageNet VID dataset on a single 2080Ti GPU),
making it attractive for large-scale or real-time applications. The
implementation is simple, the demo code and models have been made available at
https://github.com/YuHengsss/YOLOV .
- Abstract(参考訳): ビデオオブジェクト検出(vid)は、オブジェクトの外観の変動が大きいことや、フレームの劣化が多様であることなどから、難しい。
正の面では、静止画と比較してビデオの特定のフレームにおける検出は、他のフレームからの支持を引き出すことができる。
したがって、異なるフレーム間で機能を集約する方法は、VID問題にとって重要な問題である。
既存の集約アルゴリズムのほとんどは、2段階検出器用にカスタマイズされている。
しかし、このカテゴリの検出器は通常、2段階の性質のため計算コストがかかる。
この研究は、上記の懸念に対処するための単純だが効果的な戦略を提案し、精度が大幅に向上した限界オーバーヘッドに費やしている。
具体的には、従来の2段階パイプラインとは違って、1段階検出後の領域レベルの選択は、大規模な低品質候補の処理を避けるために推奨する。
また、ターゲットフレームとその参照フレームとの関係を評価し、アグリゲーションをガイドする新規モジュールを構築した。
我々の設計の有効性を検証し、その効果と効率の両面で他の最先端のVIDアプローチよりも優れていることを示す。
当社のYOLOXベースのモデルは,有望なパフォーマンス(例えば,イメージNet VIDデータセットを1つの2080Ti GPU上で30FPS以上で87.5\% AP50)を実現しています。
実装はシンプルで、デモコードとモデルはhttps://github.com/YuHengss/YOLOV で公開されている。
関連論文リスト
- Practical Video Object Detection via Feature Selection and Aggregation [18.15061460125668]
ビデオオブジェクト検出(VOD)は、オブジェクトの外観における高いフレーム間変動と、いくつかのフレームにおける多様な劣化を懸念する必要がある。
現代のアグリゲーション法のほとんどは、高い計算コストに苦しむ2段階検出器用に調整されている。
この研究は、特徴選択と集約の非常に単純だが強力な戦略を考案し、限界計算コストでかなりの精度を得る。
論文 参考訳(メタデータ) (2024-07-29T02:12:11Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - AVisT: A Benchmark for Visual Object Tracking in Adverse Visibility [125.77396380698639]
AVisTは、視認性の悪いさまざまなシナリオにおける視覚的トラッキングのためのベンチマークである。
AVisTは、80kの注釈付きフレームを持つ120の挑戦的なシーケンスで構成されており、18の多様なシナリオにまたがっている。
我々は、属性間でのトラッキング性能を詳細に分析し、AVisTで17の人気のトラッカーと最近のトラッカーをベンチマークした。
論文 参考訳(メタデータ) (2022-08-14T17:49:37Z) - Implicit Motion Handling for Video Camouflaged Object Detection [60.98467179649398]
本稿では,新しいビデオカモフラージュオブジェクト検出(VCOD)フレームワークを提案する。
短期的および長期的整合性を利用して、ビデオフレームからカモフラージュされたオブジェクトを検出する。
論文 参考訳(メタデータ) (2022-03-14T17:55:41Z) - Recent Trends in 2D Object Detection and Applications in Video Event
Recognition [0.76146285961466]
物体検出における先駆的な研究について論じるとともに,近年のディープラーニングを活用したブレークスルーも取り上げている。
本稿では、画像とビデオの両方で2次元物体検出のための最近のデータセットを強調し、様々な最先端物体検出技術の比較性能の概要を示す。
論文 参考訳(メタデータ) (2022-02-07T14:15:11Z) - Efficient Person Search: An Anchor-Free Approach [86.45858994806471]
パーソンサーチは、クエリーの人物を、リアルで切り刻まれていない画像から、同時にローカライズし、識別することを目的としている。
この目標を達成するために、最先端モデルは通常、Faster R-CNNのような2段階検出器にre-idブランチを追加する。
本研究では,この課題に対処するためのアンカーフリーな手法を提案する。
論文 参考訳(メタデータ) (2021-09-01T07:01:33Z) - Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。
我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。
その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-08-19T13:13:01Z) - Single Shot Video Object Detector [215.06904478667337]
Single Shot Video Object Detector (SSVD)は、新しいアーキテクチャであり、ビデオ内のオブジェクト検出のための1段階の検出器に機能集約を新規に統合する。
448の448ドルの入力で、SSVDはImageNet VIDデータセットで79.2%のmAPを達成した。
論文 参考訳(メタデータ) (2020-07-07T15:36:26Z) - Joint Detection and Tracking in Videos with Identification Features [36.55599286568541]
本稿では,ビデオ検出,追跡,再識別機能の最初の共同最適化を提案する。
提案手法はMOTの最先端に到達し,オンライントラッカーにおけるUA-DETRAC'18追跡課題のうち,第1位,第3位にランクインした。
論文 参考訳(メタデータ) (2020-05-21T21:06:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。