論文の概要: TJU-DHD: A Diverse High-Resolution Dataset for Object Detection
- arxiv url: http://arxiv.org/abs/2011.09170v1
- Date: Wed, 18 Nov 2020 09:32:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-24 04:31:28.952126
- Title: TJU-DHD: A Diverse High-Resolution Dataset for Object Detection
- Title(参考訳): TJU-DHD:オブジェクト検出のための多値高分解能データセット
- Authors: Yanwei Pang and Jiale Cao and Yazhao Li and Jin Xie and Hanqing Sun
and Jinfeng Gong
- Abstract要約: 大規模でリッチな多様性と高解像度のデータセットは、よりよいオブジェクト検出方法を開発する上で重要な役割を果たす。
私たちは多種多様な高解像度データセット(TJU-DHD)を構築します。
データセットには115,354枚の高解像度画像と709,330個のラベル付きオブジェクトが含まれており、スケールと外観に大きな違いがある。
- 参考スコア(独自算出の注目度): 48.94731638729273
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vehicles, pedestrians, and riders are the most important and interesting
objects for the perception modules of self-driving vehicles and video
surveillance. However, the state-of-the-art performance of detecting such
important objects (esp. small objects) is far from satisfying the demand of
practical systems. Large-scale, rich-diversity, and high-resolution datasets
play an important role in developing better object detection methods to satisfy
the demand. Existing public large-scale datasets such as MS COCO collected from
websites do not focus on the specific scenarios. Moreover, the popular datasets
(e.g., KITTI and Citypersons) collected from the specific scenarios are limited
in the number of images and instances, the resolution, and the diversity. To
attempt to solve the problem, we build a diverse high-resolution dataset
(called TJU-DHD). The dataset contains 115,354 high-resolution images (52%
images have a resolution of 1624$\times$1200 pixels and 48% images have a
resolution of at least 2,560$\times$1,440 pixels) and 709,330 labeled objects
in total with a large variance in scale and appearance. Meanwhile, the dataset
has a rich diversity in season variance, illumination variance, and weather
variance. In addition, a new diverse pedestrian dataset is further built. With
the four different detectors (i.e., the one-stage RetinaNet, anchor-free FCOS,
two-stage FPN, and Cascade R-CNN), experiments about object detection and
pedestrian detection are conducted. We hope that the newly built dataset can
help promote the research on object detection and pedestrian detection in these
two scenes. The dataset is available at https://github.com/tjubiit/TJU-DHD.
- Abstract(参考訳): 自動車、歩行者、そしてライダーは、自動運転車とビデオ監視の知覚モジュールにとって、最も重要で興味深いオブジェクトである。
しかし、そのような重要な物体(例えば小さな物体)を検出する技術の現状は、実用システムの需要を満足させるには程遠い。
大規模で多種多様な高解像度データセットは、要求を満たすためのより良いオブジェクト検出方法を開発する上で重要な役割を果たす。
ウェブサイトから収集されたMS COCOのような既存の大規模なデータセットは、特定のシナリオに焦点を当てていない。
さらに、特定のシナリオから収集された一般的なデータセット(KITTIやCitypersonsなど)は、画像やインスタンスの数、解像度、多様性に制限されている。
この問題を解決するために,多種多様な高解像度データセット(TJU-DHD)を構築した。
データセットには115,354枚の高解像度画像(52%は解像度1624$\times $1200ピクセル、48%は解像度2,560$\times $1,440ピクセル)と709,330個のラベル付きオブジェクトがあり、規模と外観に大きなばらつきがある。
一方、データセットは季節のばらつき、照明のばらつき、天候のばらつきの多様性に富んでいる。
さらに、新しい多様な歩行者データセットも構築されている。
4つの異なる検出器(一段RetinaNet、アンカーフリーFCOS、二段FPN、カスケードR-CNN)を用いて、物体検出と歩行者検出に関する実験を行った。
新たに構築されたデータセットは、この2つのシーンにおける物体検出と歩行者検出の研究を促進できることを願っている。
データセットはhttps://github.com/tjubiit/TJU-DHDで公開されている。
関連論文リスト
- XS-VID: An Extremely Small Video Object Detection Dataset [33.62124448175971]
XS-VIDデータセットは,様々な期間や場面の航空データからなり,8つの主要な対象カテゴリに注釈を付ける。
XS-VIDは,画素面積の小さい3種類のオブジェクトを広範囲に収集する。
本稿では,局所的特徴関連性を高め,時間的運動特徴を統合し,SVODの精度と安定性を大幅に向上させるYOLOFTを提案する。
論文 参考訳(メタデータ) (2024-07-25T15:42:46Z) - SARDet-100K: Towards Open-Source Benchmark and ToolKit for Large-Scale SAR Object Detection [79.23689506129733]
我々は,大規模SARオブジェクト検出のための新しいベンチマークデータセットとオープンソース手法を構築した。
私たちのデータセットであるSARDet-100Kは、10の既存のSAR検出データセットの厳格な調査、収集、標準化の結果です。
私たちの知る限りでは、SARDet-100KはCOCOレベルの大規模マルチクラスSARオブジェクト検出データセットとしては初めてのものです。
論文 参考訳(メタデータ) (2024-03-11T09:20:40Z) - Recurrent Multi-scale Transformer for High-Resolution Salient Object
Detection [68.65338791283298]
Salient Object Detection (SOD) は、画像やビデオの中で最も顕著なオブジェクトを識別し、セグメント化することを目的としている。
従来のSOD法は主に解像度の低い画像に限られており、高分解能SODの開発に適応することが困難である。
本研究ではまず,2K-8K解像度で10,500個の高品質なアノテート画像を含む新しいHRS10Kデータセットを提案する。
論文 参考訳(メタデータ) (2023-08-07T17:49:04Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Scene-Aware
Ambidextrous Bin Picking via Physics-based Metaverse Synthesis [72.85526892440251]
本稿では,物理に基づくメタバース合成により構築した大規模写真リアリスティックビンピックデータセットであるMetaGraspNetを紹介する。
提案データセットは,82種類の記事に対して217kのRGBD画像を含み,オブジェクト検出,アモーダル認識,キーポイント検出,操作順序,および並列ジャウと真空グリップパー用のアンビデクストグリップラベルの完全なアノテーションを備える。
また,2.3k以上の完全アノテートされた高品質なRGBD画像からなる実際のデータセットを5段階の難易度と,異なるオブジェクトおよびレイアウト特性を評価するための見えないオブジェクトセットに分割する。
論文 参考訳(メタデータ) (2022-08-08T08:15:34Z) - Remote Sensing Image Super-resolution and Object Detection: Benchmark
and State of the Art [7.74389937337756]
本稿では、リモートセンシング画像の現在のデータセットとオブジェクト検出方法(深層学習に基づく)についてレビューする。
本稿では,大規模かつ一般公開なリモートセンシング超解像オブジェクト検出データセットを提案する。
また、画像超解像に基づく物体検出のベンチマークを行うために、Residual Feature aggregate (MCGR) と補助YOLOv5検出器を備えた新しいマルチクラスサイクル超解像対向ネットワークを提案する。
論文 参考訳(メタデータ) (2021-11-05T04:56:34Z) - You Better Look Twice: a new perspective for designing accurate
detectors with reduced computations [56.34005280792013]
BLT-netは、新しい低計算の2段階オブジェクト検出アーキテクチャである。
非常にエレガントな第1ステージを使用して、オブジェクトをバックグラウンドから分離することで、計算を削減します。
結果のイメージ提案は、高度に正確なモデルによって第2段階で処理される。
論文 参考訳(メタデータ) (2021-07-21T12:39:51Z) - FAIR1M: A Benchmark Dataset for Fine-grained Object Recognition in
High-Resolution Remote Sensing Imagery [21.9319970004788]
我々は,高分解能リモートセンシング画像において,100万以上のインスタンスと15,000以上の画像を含む新しいベンチマークデータセットを提案する。
FAIR1Mデータセットのすべてのオブジェクトは、指向境界ボックスによって5つのカテゴリと37のサブカテゴリに関してアノテートされます。
論文 参考訳(メタデータ) (2021-03-09T17:20:15Z) - EAGLE: Large-scale Vehicle Detection Dataset in Real-World Scenarios
using Aerial Imagery [3.8902657229395894]
航空画像における物体方向情報を用いた多種多様な車両検出のための大規模データセットを提案する。
様々なカメラセンサー、解像度、飛行高度、天候、照明、ヘイズ、シャドウ、時間、都市、国、オクルージョン、カメラアングルを備えた、さまざまな現実世界の状況からなる高解像度の空中画像が特徴である。
215,986のインスタンスに4つのポイントと向きで定義された向き付きバウンディングボックスがアノテートされており、このタスクでこれまでで最大のデータセットとなっている。
また、ヘイズやシャドウ除去の研究や、超高解像度やインペイントの応用も支援している。
論文 参考訳(メタデータ) (2020-07-12T23:00:30Z) - Counting dense objects in remote sensing images [52.182698295053264]
特定の画像から関心のあるオブジェクトの数を推定するのは、難しいが重要な作業である。
本稿では,リモートセンシング画像から高密度物体を数えることに興味がある。
これらの課題に対処するために,我々はまず,リモートセンシング画像に基づく大規模オブジェクトカウントデータセットを構築した。
次に、入力画像の密度マップを生成する新しいニューラルネットワークを設計することで、データセットをベンチマークする。
論文 参考訳(メタデータ) (2020-02-14T09:13:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。