論文の概要: XS-VID: An Extremely Small Video Object Detection Dataset
- arxiv url: http://arxiv.org/abs/2407.18137v1
- Date: Thu, 25 Jul 2024 15:42:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-26 13:29:21.038709
- Title: XS-VID: An Extremely Small Video Object Detection Dataset
- Title(参考訳): XS-VID:超小型ビデオオブジェクト検出データセット
- Authors: Jiahao Guo, Ziyang Xu, Lianjun Wu, Fei Gao, Wenyu Liu, Xinggang Wang,
- Abstract要約: XS-VIDデータセットは,様々な期間や場面の航空データからなり,8つの主要な対象カテゴリに注釈を付ける。
XS-VIDは,画素面積の小さい3種類のオブジェクトを広範囲に収集する。
本稿では,局所的特徴関連性を高め,時間的運動特徴を統合し,SVODの精度と安定性を大幅に向上させるYOLOFTを提案する。
- 参考スコア(独自算出の注目度): 33.62124448175971
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Small Video Object Detection (SVOD) is a crucial subfield in modern computer vision, essential for early object discovery and detection. However, existing SVOD datasets are scarce and suffer from issues such as insufficiently small objects, limited object categories, and lack of scene diversity, leading to unitary application scenarios for corresponding methods. To address this gap, we develop the XS-VID dataset, which comprises aerial data from various periods and scenes, and annotates eight major object categories. To further evaluate existing methods for detecting extremely small objects, XS-VID extensively collects three types of objects with smaller pixel areas: extremely small (\textit{es}, $0\sim12^2$), relatively small (\textit{rs}, $12^2\sim20^2$), and generally small (\textit{gs}, $20^2\sim32^2$). XS-VID offers unprecedented breadth and depth in covering and quantifying minuscule objects, significantly enriching the scene and object diversity in the dataset. Extensive validations on XS-VID and the publicly available VisDrone2019VID dataset show that existing methods struggle with small object detection and significantly underperform compared to general object detectors. Leveraging the strengths of previous methods and addressing their weaknesses, we propose YOLOFT, which enhances local feature associations and integrates temporal motion features, significantly improving the accuracy and stability of SVOD. Our datasets and benchmarks are available at \url{https://gjhhust.github.io/XS-VID/}.
- Abstract(参考訳): SVOD(Small Video Object Detection)は、現代のコンピュータビジョンにおいて重要なサブフィールドであり、早期発見と検出に必須である。
しかし、既存のSVODデータセットは乏しく、不十分な小さなオブジェクト、限られたオブジェクトカテゴリ、シーンの多様性の欠如といった問題に悩まされており、対応するメソッドに対する一元的なアプリケーションシナリオにつながっている。
このギャップに対処するために、様々な期間や場面の航空データを含むXS-VIDデータセットを開発し、8つの主要な対象カテゴリに注釈を付ける。
XS-VIDは、非常に小さなオブジェクトを検出する既存の方法を評価するために、非常に小さな(\textit{es}, $0\sim12^2$)、比較的小さな(\textit{rs}, $112^2\sim20^2$)、一般に小さい(\textit{gs}, 20^2\sim32^2$)の3種類のオブジェクトを広範囲に収集する。
XS-VIDは、極小天体のカバーと定量化において前例のない幅と深さを提供し、データセットのシーンとオブジェクトの多様性を著しく高めている。
XS-VIDと一般公開されているVisDrone2019VIDデータセットの大規模な検証は、既存の手法が小さな物体の検出に苦しむとともに、一般的な物体検出器と比較して著しく性能が劣っていることを示している。
従来の手法の強みを生かし,その弱さに対処し,局所的特徴関連性を高め,時間的運動特徴を統合し,SVODの精度と安定性を大幅に向上させるYOLOFTを提案する。
データセットとベンチマークは \url{https://gjhhust.github.io/XS-VID/} で公開しています。
関連論文リスト
- FADE: A Dataset for Detecting Falling Objects around Buildings in Video [75.48118923174712]
建物から落下する物体は、大きな衝撃力によって歩行者に重傷を負わせる可能性がある。
FADEには18のシーンから1,881本のビデオがあり、8つの落下物カテゴリー、4つの気象条件、4つのビデオ解像度がある。
動作情報を効果的に活用するFADE-Netと呼ばれる新しい物体検出手法を開発した。
論文 参考訳(メタデータ) (2024-08-11T11:43:56Z) - ESOD: Efficient Small Object Detection on High-Resolution Images [36.80623357577051]
小さなオブジェクトは通常、わずかに分散され、局所的にクラスタ化される。
画像の非対象背景領域において、大量の特徴抽出計算を無駄にする。
本稿では,検出器のバックボーンを再利用して,特徴レベルのオブジェクト探索とパッチスライシングを行う方法を提案する。
論文 参考訳(メタデータ) (2024-07-23T12:21:23Z) - Visible and Clear: Finding Tiny Objects in Difference Map [50.54061010335082]
本稿では,検出モデルに自己再構成機構を導入し,それと微小物体との強い相関関係を明らかにする。
具体的には、再構成画像と入力の差分マップを構築して、検出器の首の内側に再構成ヘッドを配置し、小さな物体に対して高い感度を示す。
さらに、小さな特徴表現をより明確にするために、差分マップガイド機能拡張(DGFE)モジュールを開発する。
論文 参考訳(メタデータ) (2024-05-18T12:22:26Z) - VirtualPainting: Addressing Sparsity with Virtual Points and
Distance-Aware Data Augmentation for 3D Object Detection [3.5259183508202976]
本稿では,カメラ画像を用いた仮想LiDAR点の生成を含む革新的なアプローチを提案する。
また、画像ベースセグメンテーションネットワークから得られる意味ラベルを用いて、これらの仮想点を強化する。
このアプローチは、様々な3Dフレームワークと2Dセマンティックセグメンテーションメソッドにシームレスに統合できる汎用的なソリューションを提供する。
論文 参考訳(メタデータ) (2023-12-26T18:03:05Z) - MOSE: A New Dataset for Video Object Segmentation in Complex Scenes [106.64327718262764]
ビデオオブジェクトセグメンテーション(VOS)は、ビデオクリップシーケンス全体を通して特定のオブジェクトをセグメンテーションすることを目的としている。
最先端のVOSメソッドは、既存のデータセット上で優れたパフォーマンス(例えば、90%以上のJ&F)を達成した。
我々は、複雑な環境でのトラッキングとセグメンテーションを研究するために、coMplex video Object SEgmentation (MOSE)と呼ばれる新しいVOSデータセットを収集する。
論文 参考訳(メタデータ) (2023-02-03T17:20:03Z) - Towards Large-Scale Small Object Detection: Survey and Benchmarks [48.961205652306695]
我々は2つの大規模小型物体検出装置(SODA)、SODA-DおよびSODA-Aを構築し、それぞれが運転シナリオと航空シナリオに焦点を当てている。
SODA-Aでは,高分解能空中画像2513点を抽出し,9クラスに872069点を注釈した。
提案されたデータセットは、徹底的な注釈付きインスタンスの膨大なコレクションを持つ大規模なベンチマークへの最初の試みである。
論文 参考訳(メタデータ) (2022-07-28T14:02:18Z) - ImpDet: Exploring Implicit Fields for 3D Object Detection [74.63774221984725]
我々は、境界ボックス回帰を暗黙の関数として見る新しい視点を導入する。
これは、Implicit DetectionまたはImpDetと呼ばれる提案されたフレームワークにつながります。
我々のImpDetは、異なる局所的な3次元空間の点に特定の値を割り当て、高品質な境界を生成することができる。
論文 参考訳(メタデータ) (2022-03-31T17:52:12Z) - Tiny Object Tracking: A Large-scale Dataset and A Baseline [40.93697515531104]
大規模なビデオデータセットを作成し、合計217Kフレームの434のシーケンスを含む。
データ作成において、幅広い視点とシーンの複雑さをカバーするため、12の課題属性を考慮に入れます。
統合されたフレームワークで3段階の知識蒸留を行うMKDNet(Multilevel Knowledge Distillation Network)を提案する。
論文 参考訳(メタデータ) (2022-02-11T15:00:32Z) - TJU-DHD: A Diverse High-Resolution Dataset for Object Detection [48.94731638729273]
大規模でリッチな多様性と高解像度のデータセットは、よりよいオブジェクト検出方法を開発する上で重要な役割を果たす。
私たちは多種多様な高解像度データセット(TJU-DHD)を構築します。
データセットには115,354枚の高解像度画像と709,330個のラベル付きオブジェクトが含まれており、スケールと外観に大きな違いがある。
論文 参考訳(メタデータ) (2020-11-18T09:32:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。