論文の概要: FishEye8K: A Benchmark and Dataset for Fisheye Camera Object Detection
- arxiv url: http://arxiv.org/abs/2305.17449v1
- Date: Sat, 27 May 2023 11:26:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 19:17:22.431442
- Title: FishEye8K: A Benchmark and Dataset for Fisheye Camera Object Detection
- Title(参考訳): fisheye8k:fisheye cameraオブジェクト検出のためのベンチマークとデータセット
- Authors: Munkhjargal Gochoo, Munkh-Erdene Otgonbold, Erkhembayar Ganbold,
Jun-Wei Hsieh, Ming-Ching Chang, Ping-Yang Chen, Byambaa Dorj, Hamad Al
Jassmi, Ganzorig Batnasan, Fady Alnajjar, Mohammed Abduljabbar, Fang-Pang Lin
- Abstract要約: 魚眼カメラの交通監視のために準備された、既存のオープンデータセットはありません。
本稿では,道路物体検出タスクのためのFishEye8Kベンチマークデータセットを提案する。
このデータセットは、台湾の日中市で18台の魚眼カメラを使って、22の動画で8000枚の画像で構成されている。
- 参考スコア(独自算出の注目度): 12.054274610528458
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the advance of AI, road object detection has been a prominent topic in
computer vision, mostly using perspective cameras. Fisheye lens provides
omnidirectional wide coverage for using fewer cameras to monitor road
intersections, however with view distortions. To our knowledge, there is no
existing open dataset prepared for traffic surveillance on fisheye cameras.
This paper introduces an open FishEye8K benchmark dataset for road object
detection tasks, which comprises 157K bounding boxes across five classes
(Pedestrian, Bike, Car, Bus, and Truck). In addition, we present benchmark
results of State-of-The-Art (SoTA) models, including variations of YOLOv5,
YOLOR, YOLO7, and YOLOv8. The dataset comprises 8,000 images recorded in 22
videos using 18 fisheye cameras for traffic monitoring in Hsinchu, Taiwan, at
resolutions of 1080$\times$1080 and 1280$\times$1280. The data annotation and
validation process were arduous and time-consuming, due to the ultra-wide
panoramic and hemispherical fisheye camera images with large distortion and
numerous road participants, particularly people riding scooters. To avoid bias,
frames from a particular camera were assigned to either the training or test
sets, maintaining a ratio of about 70:30 for both the number of images and
bounding boxes in each class. Experimental results show that YOLOv8 and YOLOR
outperform on input sizes 640$\times$640 and 1280$\times$1280, respectively.
The dataset will be available on GitHub with PASCAL VOC, MS COCO, and YOLO
annotation formats. The FishEye8K benchmark will provide significant
contributions to the fisheye video analytics and smart city applications.
- Abstract(参考訳): AIの進歩により、道路物体検出はコンピュータビジョンにおいて顕著なトピックとなり、主に視点カメラを用いている。
魚眼レンズは、道路の交差点を監視するためにカメラを少なくするための全方位広角カバーを提供するが、視野の歪みがある。
我々の知る限り、魚眼カメラの交通監視のための既存のオープンデータセットは存在しない。
本稿では,5つのクラス (歩行者, 自転車, 自動車, バス, トラック) にまたがる157Kのバウンディングボックスを含む,道路物体検出タスクのためのオープンなFishEye8Kベンチマークデータセットを提案する。
さらに, YOLOv5, YOLOR, YOLO7, YOLOv8 のバリエーションを含む State-of-The-Art (SoTA) モデルのベンチマーク結果を示す。
このデータセットは、台湾のhsinchuにある18台のfisheyeカメラを使って22台のビデオに記録された8000枚の画像から成り、解像度は1080$\times$1080と1280$\times$1280である。
データアノテーションと検証プロセスは、非常に広いパノラマと半球の魚眼カメラの画像と、大きな歪みと多くのロード参加者、特にスクーターに乗っている人によって、大変で時間がかかりました。
偏りを避けるために、特定のカメラからのフレームをトレーニングセットまたはテストセットに割り当て、各クラス内の画像数とバウンディングボックスの両方に対して約70:30の比率を維持した。
実験の結果, YOLOv8 と YOLOR は入力サイズ 640$\times$640 と 1280$\times$1280 でそれぞれ優れていた。
データセットはGitHubでPASCAL VOC、MS COCO、YOLOアノテーション形式で提供される。
FishEye8Kベンチマークは、魚眼ビデオ分析とスマートシティアプリケーションに重要な貢献をする。
関連論文リスト
- FisheyeDetNet: 360° Surround view Fisheye Camera based Object Detection System for Autonomous Driving [4.972459365804512]
物体検出は自律走行における成熟した問題であり、歩行者検出は最初に展開されたアルゴリズムの1つである。
標準的なバウンディングボックスの表現は、特に周辺部において大きな放射歪みのため、魚眼カメラでは失敗する。
我々は、回転する有界箱、楕円、ポリゴンを極弧/角表現として設計し、これらの表現を分析するためにインスタンスセグメンテーションmIOUメートル法を定義する。
提案したモデルであるPhiteeyeDetNetは他より優れており、自動走行用Valeo fisheye around-viewデータセットのmAPスコアは49.5 %である。
論文 参考訳(メタデータ) (2024-04-20T18:50:57Z) - The 8th AI City Challenge [57.25825945041515]
2024年版では5トラックが収録され、47か国と地域の726チームから前例のない関心を集めた。
このチャレンジでは、2つのリーダーボードを使ってメソッドを展示し、参加者は新しいベンチマークを設定した。
論文 参考訳(メタデータ) (2024-04-15T03:12:17Z) - FisheyePP4AV: A privacy-preserving method for autonomous vehicles on
fisheye camera images [1.534667887016089]
世界中の多くの地域では、公道で収集された大量のデータを自動運転に利用している。
実際の道路走行シナリオにおいて、歩行者の顔や付近の自動車ナンバープレートを検出し、匿名化するためには、効果的な解決策が緊急に必要である。
この研究では、私たちはプライバシー保護に特に注意を払っていますが、無人走行車によって撮影された魚眼カメラ写真のいくつかの法律に固執しています。
論文 参考訳(メタデータ) (2023-09-07T15:51:31Z) - SurroundDepth: Entangling Surrounding Views for Self-Supervised
Multi-Camera Depth Estimation [101.55622133406446]
本研究では,複数の周囲からの情報を組み込んだSurroundDepth法を提案し,カメラ間の深度マップの予測を行う。
具体的には、周囲のすべてのビューを処理し、複数のビューから情報を効果的に融合するクロスビュー変換器を提案する。
実験において,本手法は,挑戦的なマルチカメラ深度推定データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-04-07T17:58:47Z) - Rope3D: TheRoadside Perception Dataset for Autonomous Driving and
Monocular 3D Object Detection Task [48.555440807415664]
道路沿いの知覚3Dデータセットに挑戦する最初のハイダイバーシティを提示する。
データセットは50Kイメージと、さまざまなシーンで1.5M以上の3Dオブジェクトで構成されている。
本稿では,様々なセンサや視点によって引き起こされるあいまいさを解決するために,幾何学的制約を活用することを提案する。
論文 参考訳(メタデータ) (2022-03-25T12:13:23Z) - TUM-VIE: The TUM Stereo Visual-Inertial Event Dataset [50.8779574716494]
イベントカメラはバイオインスパイアされた視覚センサーで、ピクセルごとの明るさの変化を測定する。
これらは、低レイテンシ、高ダイナミックレンジ、高時間分解能、低消費電力など、従来のフレームベースのカメラよりも多くの利点を提供する。
イベントカメラを用いた3次元認識・ナビゲーションアルゴリズムの開発を促進するため,TUM-VIEデータセットを提案する。
論文 参考訳(メタデータ) (2021-08-16T19:53:56Z) - Fast and Accurate Camera Scene Detection on Smartphones [51.424407411660376]
本稿では,11K以上の手動クロール画像を含むカメラシーン検出データセット(CamSDD)を提案する。
本研究では,このデータセット上で上位3の99.5%の精度を示す,効率的かつNPU対応のCNNモデルを提案する。
論文 参考訳(メタデータ) (2021-05-17T14:06:21Z) - SVDistNet: Self-Supervised Near-Field Distance Estimation on Surround
View Fisheye Cameras [30.480562747903186]
シーンジオメトリの360deg認識は、特に駐車場や都市部の運転シナリオで、自動運転に不可欠です。
カメラパラメータを条件入力として用いる,新しいカメラジオメトリー適応型マルチスケール畳み込み法を提案する。
魚眼ウッドキャップサラウンドビューデータセットに対する我々のアプローチを評価し,従来のアプローチよりも大幅に改善した。
論文 参考訳(メタデータ) (2021-04-09T15:20:20Z) - OmniDet: Surround View Cameras based Multi-task Visual Perception
Network for Autonomous Driving [10.3540046389057]
本研究は,未修正魚眼画像のマルチタスク視覚知覚ネットワークを提案する。
自動運転システムに必要な6つの主要なタスクで構成されている。
共同で訓練されたモデルは、それぞれのタスクバージョンよりも優れた性能を示す。
論文 参考訳(メタデータ) (2021-02-15T10:46:24Z) - TJU-DHD: A Diverse High-Resolution Dataset for Object Detection [48.94731638729273]
大規模でリッチな多様性と高解像度のデータセットは、よりよいオブジェクト検出方法を開発する上で重要な役割を果たす。
私たちは多種多様な高解像度データセット(TJU-DHD)を構築します。
データセットには115,354枚の高解像度画像と709,330個のラベル付きオブジェクトが含まれており、スケールと外観に大きな違いがある。
論文 参考訳(メタデータ) (2020-11-18T09:32:24Z) - Universal Semantic Segmentation for Fisheye Urban Driving Images [6.56742346304883]
魚眼画像に変換するために,7自由度拡張法を提案する。
トレーニングプロセスでは、リチリニア画像を7つのDoFで魚眼画像に変換し、異なる位置、向き、焦点距離のカメラで撮影した魚眼画像をシミュレートする。
その結果, 異なる変形魚眼データに対するモデル精度とロバスト性を向上させることができることがわかった。
論文 参考訳(メタデータ) (2020-01-31T11:19:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。