論文の概要: OD-VIRAT: A Large-Scale Benchmark for Object Detection in Realistic Surveillance Environments
- arxiv url: http://arxiv.org/abs/2507.12396v1
- Date: Wed, 16 Jul 2025 16:41:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.476051
- Title: OD-VIRAT: A Large-Scale Benchmark for Object Detection in Realistic Surveillance Environments
- Title(参考訳): OD-VIRAT:リアルタイムサーベイランス環境におけるオブジェクト検出のための大規模ベンチマーク
- Authors: Hayat Ullah, Abbas Khan, Arslan Munir, Hari Kalva,
- Abstract要約: 本稿では,OD-VIRAT Large と OD-VIRAT Tiny という2つのビジュアルオブジェクト検出ベンチマークを提案する。
両ベンチマークのビデオシーケンスは、高度と距離から記録された10の異なる人間の監視シーンをカバーしている。
提案されたベンチマークはバウンディングボックスとカテゴリの豊富なアノテーションを提供しており、OD-VIRAT Largeは599,996イメージに870万のアノテートインスタンスを持ち、OD-VIRAT Tinyは19,860イメージに288,901のアノテートインスタンスがある。
- 参考スコア(独自算出の注目度): 1.6997584834278812
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Realistic human surveillance datasets are crucial for training and evaluating computer vision models under real-world conditions, facilitating the development of robust algorithms for human and human-interacting object detection in complex environments. These datasets need to offer diverse and challenging data to enable a comprehensive assessment of model performance and the creation of more reliable surveillance systems for public safety. To this end, we present two visual object detection benchmarks named OD-VIRAT Large and OD-VIRAT Tiny, aiming at advancing visual understanding tasks in surveillance imagery. The video sequences in both benchmarks cover 10 different scenes of human surveillance recorded from significant height and distance. The proposed benchmarks offer rich annotations of bounding boxes and categories, where OD-VIRAT Large has 8.7 million annotated instances in 599,996 images and OD-VIRAT Tiny has 288,901 annotated instances in 19,860 images. This work also focuses on benchmarking state-of-the-art object detection architectures, including RETMDET, YOLOX, RetinaNet, DETR, and Deformable-DETR on this object detection-specific variant of VIRAT dataset. To the best of our knowledge, it is the first work to examine the performance of these recently published state-of-the-art object detection architectures on realistic surveillance imagery under challenging conditions such as complex backgrounds, occluded objects, and small-scale objects. The proposed benchmarking and experimental settings will help in providing insights concerning the performance of selected object detection models and set the base for developing more efficient and robust object detection architectures.
- Abstract(参考訳): 現実的な人間の監視データセットは、実環境下でのコンピュータビジョンモデルのトレーニングと評価に不可欠であり、複雑な環境で人間と人間の相互作用する物体検出のための堅牢なアルゴリズムの開発を容易にする。
これらのデータセットは、モデルパフォーマンスの包括的な評価と、より信頼性の高い監視システムの構築を可能にするために、多種多様な挑戦的なデータを提供する必要がある。
この目的のために、監視画像における視覚的理解タスクの進展を目的とした、OD-VIRAT Large と OD-VIRAT Tiny という2つの視覚的物体検出ベンチマークを提案する。
両ベンチマークのビデオシーケンスは、高度と距離から記録された10の異なる人間の監視シーンをカバーしている。
提案されたベンチマークはバウンディングボックスとカテゴリの豊富なアノテーションを提供しており、OD-VIRAT Largeは599,996イメージに870万のアノテートインスタンスを持ち、OD-VIRAT Tinyは19,860イメージに288,901のアノテートインスタンスがある。
この研究は、RETMDET、YOLOX、RetinaNet、DETR、Deformable-DETRを含む最先端のオブジェクト検出アーキテクチャのベンチマークにも重点を置いている。
我々の知る限りでは、複雑な背景、隠蔽された物体、小規模物体などの困難な条件下で、現実的な監視画像に対する最新のオブジェクト検出アーキテクチャの性能を調査するのは、これが初めてである。
提案したベンチマークと実験的設定は、選択されたオブジェクト検出モデルの性能に関する洞察を与え、より効率的で堅牢なオブジェクト検出アーキテクチャを開発するための基盤を設定するのに役立つだろう。
関連論文リスト
- SAR Object Detection with Self-Supervised Pretraining and Curriculum-Aware Sampling [41.24071764578782]
衛星搭載合成開口レーダ画像における物体検出は、都市モニタリングや災害対応といったタスクにおいて大きな可能性を秘めている。
衛星搭載SAR画像における小さな物体の検出は、比較的低い空間分解能と固有のノイズのため、特に複雑な問題を引き起こす。
本稿では,SARオブジェクト検出モデルであるTransARを紹介する。
論文 参考訳(メタデータ) (2025-04-17T19:44:05Z) - Innovative Horizons in Aerial Imagery: LSKNet Meets DiffusionDet for
Advanced Object Detection [55.2480439325792]
本稿では,LSKNetのバックボーンをDiffusionDetヘッドに統合したオブジェクト検出モデルの詳細な評価を行う。
提案手法は平均精度(MAP)を約45.7%向上させる。
この進歩は、提案された修正の有効性を強調し、航空画像解析の新しいベンチマークを設定する。
論文 参考訳(メタデータ) (2023-11-21T19:49:13Z) - The Impact of Different Backbone Architecture on Autonomous Vehicle
Dataset [120.08736654413637]
バックボーンアーキテクチャによって抽出された特徴の質は、全体的な検出性能に大きな影響を与える可能性がある。
本研究は,KITTI,NuScenes,BDDの3つの自律走行車データセットを評価し,対象検出タスクにおける異なるバックボーンアーキテクチャの性能を比較した。
論文 参考訳(メタデータ) (2023-09-15T17:32:15Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Long Range Object-Level Monocular Depth Estimation for UAVs [0.0]
本稿では,画像からモノクロ物体を長距離検出するための最先端手法の新たな拡張法を提案する。
まず、回帰タスクとして深度推定をモデル化する際、SigmoidおよびReLUライクエンコーディングを提案する。
次に,深度推定を分類問題とし,訓練損失の計算にソフトアルグマックス関数を導入する。
論文 参考訳(メタデータ) (2023-02-17T15:26:04Z) - Aerial Image Object Detection With Vision Transformer Detector (ViTDet) [0.0]
Vision Transformer Detector (ViTDet) はオブジェクト検出のためのマルチスケール特徴を抽出するために提案されている。
ViTDetのシンプルな設計は、自然のシーン画像に優れた性能を実現し、どんな検出器アーキテクチャにも簡単に組み込むことができる。
以上の結果から,VTDetは水平バウンディングボックス(HBB)オブジェクト検出において,畳み込みニューラルネットワークよりも一貫して優れていることがわかった。
論文 参考訳(メタデータ) (2023-01-28T02:25:30Z) - Recent Trends in 2D Object Detection and Applications in Video Event
Recognition [0.76146285961466]
物体検出における先駆的な研究について論じるとともに,近年のディープラーニングを活用したブレークスルーも取り上げている。
本稿では、画像とビデオの両方で2次元物体検出のための最近のデータセットを強調し、様々な最先端物体検出技術の比較性能の概要を示す。
論文 参考訳(メタデータ) (2022-02-07T14:15:11Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - Robust Object Detection via Instance-Level Temporal Cycle Confusion [89.1027433760578]
物体検出器の分布外一般化を改善するための補助的自己監視タスクの有効性を検討する。
最大エントロピーの原理に触発されて,新しい自己監督タスクであるインスタンスレベル時間サイクル混乱(cycconf)を導入する。
それぞれのオブジェクトに対して、タスクは、ビデオ内の隣接するフレームで最も異なるオブジェクトの提案を見つけ、自己スーパービジョンのために自分自身にサイクルバックすることです。
論文 参考訳(メタデータ) (2021-04-16T21:35:08Z) - FAIR1M: A Benchmark Dataset for Fine-grained Object Recognition in
High-Resolution Remote Sensing Imagery [21.9319970004788]
我々は,高分解能リモートセンシング画像において,100万以上のインスタンスと15,000以上の画像を含む新しいベンチマークデータセットを提案する。
FAIR1Mデータセットのすべてのオブジェクトは、指向境界ボックスによって5つのカテゴリと37のサブカテゴリに関してアノテートされます。
論文 参考訳(メタデータ) (2021-03-09T17:20:15Z) - Slender Object Detection: Diagnoses and Improvements [74.40792217534]
本稿では,超高アスペクト比,すなわちtextbfslender オブジェクトの特定タイプの検出について検討する。
古典的物体検出法では、細い物体に対してのみ評価される場合、COCO上の18.9%のmAPの劇的な低下が観察される。
論文 参考訳(メタデータ) (2020-11-17T09:39:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。