論文の概要: Object Detection Difficulty: Suppressing Over-aggregation for Faster and
Better Video Object Detection
- arxiv url: http://arxiv.org/abs/2308.11327v1
- Date: Tue, 22 Aug 2023 09:59:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 18:17:55.428164
- Title: Object Detection Difficulty: Suppressing Over-aggregation for Faster and
Better Video Object Detection
- Title(参考訳): オブジェクト検出の難しさ:より高速で優れたビデオオブジェクト検出のための過剰集約の抑制
- Authors: Bingqing Zhang, Sen Wang, Yifan Liu, Brano Kusy, Xue Li and Jiajun Liu
- Abstract要約: ビデオオブジェクト検出(VOD)モデルは、冗長なアグリゲーション戦略によって過度に集約される問題にしばしば遭遇する。
本研究では,画像中の物体を検出することの難しさを定量化するために,画像レベルの物体検出困難度(ODD)尺度を提案する。
得られたORDスコアはVODプロセスでオーバーアグリゲーションを軽減するために使用できる。
- 参考スコア(独自算出の注目度): 19.96470463506838
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current video object detection (VOD) models often encounter issues with
over-aggregation due to redundant aggregation strategies, which perform feature
aggregation on every frame. This results in suboptimal performance and
increased computational complexity. In this work, we propose an image-level
Object Detection Difficulty (ODD) metric to quantify the difficulty of
detecting objects in a given image. The derived ODD scores can be used in the
VOD process to mitigate over-aggregation. Specifically, we train an ODD
predictor as an auxiliary head of a still-image object detector to compute the
ODD score for each image based on the discrepancies between detection results
and ground-truth bounding boxes. The ODD score enhances the VOD system in two
ways: 1) it enables the VOD system to select superior global reference frames,
thereby improving overall accuracy; and 2) it serves as an indicator in the
newly designed ODD Scheduler to eliminate the aggregation of frames that are
easy to detect, thus accelerating the VOD process. Comprehensive experiments
demonstrate that, when utilized for selecting global reference frames, ODD-VOD
consistently enhances the accuracy of Global-frame-based VOD models. When
employed for acceleration, ODD-VOD consistently improves the frames per second
(FPS) by an average of 73.3% across 8 different VOD models without sacrificing
accuracy. When combined, ODD-VOD attains state-of-the-art performance when
competing with many VOD methods in both accuracy and speed. Our work represents
a significant advancement towards making VOD more practical for real-world
applications.
- Abstract(参考訳): 現在のビデオオブジェクト検出(VOD)モデルは、各フレームで機能集約を行う冗長な集約戦略のため、過剰集約の問題にしばしば遭遇する。
これにより、最適でない性能と計算の複雑さが増す。
本研究では,画像中の物体検出の難しさを定量化するために,画像レベル物体検出難易度(odd)指標を提案する。
得られたORDスコアはVODプロセスでオーバーアグリゲーションを軽減するために使用できる。
具体的には、静止物体検出器の補助ヘッドとしてODD予測器を訓練し、検出結果と接地束縛箱との差に基づいて各画像のODDスコアを算出する。
ODDスコアはVODシステムを2つの方法で強化する。
1)VODシステムは優れたグローバル参照フレームを選択できるため、全体的な精度が向上する。
2) 新たに設計された ODD Scheduler の指標として機能し,検出が容易なフレームの集約を排除し,VOD プロセスの高速化を図る。
包括的実験により、グローバル参照フレームの選択に使用する場合、ODD-VODはグローバルフレームベースのVODモデルの精度を一貫して向上することを示した。
アクセラレーションに使用する場合、odd-vodは8つのvodモデルで平均73.3%のフレーム/秒(fps)を、精度を犠牲にすることなく一貫して改善する。
組み合わせると、ODD-VODは精度と速度の両方で多くのVOD手法と競合するとき、最先端の性能が得られる。
我々の研究は、現実のアプリケーションにVODをより実用的なものにするための大きな進歩を示している。
関連論文リスト
- Practical Video Object Detection via Feature Selection and Aggregation [18.15061460125668]
ビデオオブジェクト検出(VOD)は、オブジェクトの外観における高いフレーム間変動と、いくつかのフレームにおける多様な劣化を懸念する必要がある。
現代のアグリゲーション法のほとんどは、高い計算コストに苦しむ2段階検出器用に調整されている。
この研究は、特徴選択と集約の非常に単純だが強力な戦略を考案し、限界計算コストでかなりの精度を得る。
論文 参考訳(メタデータ) (2024-07-29T02:12:11Z) - Global Context Aggregation Network for Lightweight Saliency Detection of
Surface Defects [70.48554424894728]
我々は,エンコーダ・デコーダ構造上の表面欠陥を簡易に検出するためのGCANet(Global Context Aggregation Network)を開発した。
まず、軽量バックボーンの上部層に新しいトランスフォーマーエンコーダを導入し、DSA(Depth-wise Self-Attention)モジュールを通じてグローバルなコンテキスト情報をキャプチャする。
3つの公開欠陥データセットの実験結果から,提案したネットワークは,他の17の最先端手法と比較して,精度と実行効率のトレードオフを良好に達成できることが示された。
論文 参考訳(メタデータ) (2023-09-22T06:19:11Z) - SODFormer: Streaming Object Detection with Transformer Using Events and
Frames [31.293847706713052]
DAカメラは、非同期イベントとフレームの相補的な2つのモードをストリーミングする。
本稿では,SODFormerを用いた新しいストリーミングオブジェクト検出手法を提案する。
論文 参考訳(メタデータ) (2023-08-08T04:53:52Z) - Unsupervised Video Anomaly Detection with Diffusion Models Conditioned
on Compact Motion Representations [17.816344808780965]
教師なしビデオ異常検出(VAD)問題とは、ビデオ内の各フレームをラベルにアクセスすることなく正常または異常に分類することである。
提案手法は条件付き拡散モデルを用いて,事前学習したネットワークから入力データを抽出する。
提案手法は,データ駆動しきい値を用いて,異常事象の指標として高い再構成誤差を考慮している。
論文 参考訳(メタデータ) (2023-07-04T07:36:48Z) - DFA: Dynamic Feature Aggregation for Efficient Video Object Detection [15.897168900583774]
本稿では,機能拡張のためのフレームを適応的に選択するバニラ動的アグリゲーションモジュールを提案する。
バニラ動的アグリゲーションモジュールを、より効果的で再構成可能なデフォルマブルバージョンに拡張します。
提案手法と統合したImageNet VIDベンチマークでは,FGFAとSELSAがそれぞれ31%,SELSAが76%向上した。
論文 参考訳(メタデータ) (2022-10-02T17:54:15Z) - NSNet: Non-saliency Suppression Sampler for Efficient Video Recognition [89.84188594758588]
非定常フレームの応答を抑制するために, NSNet(Non-Sliency Suppression Network)を提案する。
NSNetは最先端の精度効率トレードオフを実現し、最先端の手法よりもはるかに高速な2.44.3xの実用的な推論速度を示す。
論文 参考訳(メタデータ) (2022-07-21T09:41:22Z) - SALISA: Saliency-based Input Sampling for Efficient Video Object
Detection [58.22508131162269]
ビデオオブジェクト検出のための新しい一様SALiencyベースの入力SAmpling技術であるSALISAを提案する。
SALISAは小物体の検出を著しく改善することを示す。
論文 参考訳(メタデータ) (2022-04-05T17:59:51Z) - Implicit Motion Handling for Video Camouflaged Object Detection [60.98467179649398]
本稿では,新しいビデオカモフラージュオブジェクト検出(VCOD)フレームワークを提案する。
短期的および長期的整合性を利用して、ビデオフレームからカモフラージュされたオブジェクトを検出する。
論文 参考訳(メタデータ) (2022-03-14T17:55:41Z) - Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z) - TransVOD: End-to-end Video Object Detection with Spatial-Temporal
Transformers [96.981282736404]
時空間トランスフォーマアーキテクチャに基づく最初のエンドツーエンドビデオオブジェクト検出システムであるTransVODを提案する。
提案した TransVOD++ は,90.0% mAP の ImageNet VID の精度で,最先端のレコードを新たに設定する。
提案したTransVOD Liteは,約30FPSで動作する場合に,83.7%のmAPで最高の速度と精度のトレードオフを実現する。
論文 参考訳(メタデータ) (2022-01-13T16:17:34Z) - Joint Detection and Tracking in Videos with Identification Features [36.55599286568541]
本稿では,ビデオ検出,追跡,再識別機能の最初の共同最適化を提案する。
提案手法はMOTの最先端に到達し,オンライントラッカーにおけるUA-DETRAC'18追跡課題のうち,第1位,第3位にランクインした。
論文 参考訳(メタデータ) (2020-05-21T21:06:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。