論文の概要: Beyond the Mud: Datasets and Benchmarks for Computer Vision in Off-Road
Racing
- arxiv url: http://arxiv.org/abs/2402.08025v1
- Date: Mon, 12 Feb 2024 19:42:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 17:42:25.375047
- Title: Beyond the Mud: Datasets and Benchmarks for Computer Vision in Off-Road
Racing
- Title(参考訳): オフロードレースにおけるコンピュータビジョンのためのデータセットとベンチマーク
- Authors: Jacob Tyo, Motolani Olarinre, Youngseog Chung, Zachary C. Lipton
- Abstract要約: オフロードバイクレーサーナンバーデータセットとMuddy Racerの再iDentificationデータセットは、オフロード競技中に6300枚以上の画像が撮影された。
オフザシェルフモデルはトランスファーが悪く、テキストスポッティングでは15%のエンドツーエンド(E2E)F1スコア、ReIDでは33%のランク1精度に達した。
微調整が大幅に改善され、E2EテキストスポッティングのF1スコアが53%、ReIDのランク1精度が79%に向上した。
- 参考スコア(独自算出の注目度): 38.719032057630024
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite significant progress in optical character recognition (OCR) and
computer vision systems, robustly recognizing text and identifying people in
images taken in unconstrained \emph{in-the-wild} environments remain an ongoing
challenge. However, such obstacles must be overcome in practical applications
of vision systems, such as identifying racers in photos taken during off-road
racing events. To this end, we introduce two new challenging real-world
datasets - the off-road motorcycle Racer Number Dataset (RND) and the Muddy
Racer re-iDentification Dataset (MUDD) - to highlight the shortcomings of
current methods and drive advances in OCR and person re-identification (ReID)
under extreme conditions. These two datasets feature over 6,300 images taken
during off-road competitions which exhibit a variety of factors that undermine
even modern vision systems, namely mud, complex poses, and motion blur. We
establish benchmark performance on both datasets using state-of-the-art models.
Off-the-shelf models transfer poorly, reaching only 15% end-to-end (E2E) F1
score on text spotting, and 33% rank-1 accuracy on ReID. Fine-tuning yields
major improvements, bringing model performance to 53% F1 score for E2E text
spotting and 79% rank-1 accuracy on ReID, but still falls short of good
performance. Our analysis exposes open problems in real-world OCR and ReID that
necessitate domain-targeted techniques. With these datasets and analysis of
model limitations, we aim to foster innovations in handling real-world
conditions like mud and complex poses to drive progress in robust computer
vision. All data was sourced from PerformancePhoto.co, a website used by
professional motorsports photographers, racers, and fans. The top-performing
text spotting and ReID models are deployed on this platform to power real-time
race photo search.
- Abstract(参考訳): 光文字認識(ocr)とコンピュータビジョンシステム(英語版)の著しい進歩にもかかわらず、テキストを堅牢に認識し、制約のない \emph{in-the-wild} 環境で撮影された画像中の人物を識別することは現在も課題である。
しかし、このような障害は、オフロードレースイベント中に撮影された写真のレーサーを特定するなど、視覚システムの実践的な応用において克服されなければならない。
この目的のために、オフロードバイクレーサーナンバーデータセット(RND)とMuddy Racer re-iDentification Dataset(MUDD)という2つの挑戦的な現実のデータセットを導入し、現在の手法の欠点を強調し、OCRの進歩と極端な条件下での人物の再識別(ReID)を促進する。
この2つのデータセットには、オフロード競技中に撮影された6300以上の画像が含まれており、泥、複雑なポーズ、動きのぼやけなど、現代のビジョンシステムでさえも弱めている。
両データセットのベンチマーク性能を最先端モデルを用いて評価する。
オフザシェルフモデルはトランスファーが悪く、テキストスポッティングでは15%のエンドツーエンド(E2E)F1スコア、ReIDでは33%のランク1精度に達した。
微調整は大幅に改善され、E2Eテキストスポッティングでは53%のF1スコア、ReIDでは79%のランク1の精度でモデル性能が向上するが、それでも性能は良くない。
ドメインターゲット技術を必要とする実世界のOCRとReIDのオープンな問題を明らかにする。
これらのデータセットとモデル制限の分析により、泥や複雑なポーズといった現実世界の状況を扱うイノベーションを促進し、堅牢なコンピュータビジョンの進歩を促進することを目指している。
全てのデータは、プロのモータースポーツ写真家、レーサー、ファンが使用するウェブサイトであるPerformancePhoto.coから得られた。
最高のパフォーマンスのテキストスポッティングとReIDモデルは、リアルタイムのレース写真検索に使用される。
関連論文リスト
- HSI-Drive v2.0: More Data for New Challenges in Scene Understanding for Autonomous Driving [1.2582887633807602]
ハイパースペクトルイメージング(HSI)を用いた自動走行システム(ADS)の開発を目的としたHSI-Driveデータセットの更新版を提案する。
v2.0バージョンには、冬と秋に実際の運転シナリオで録画されたビデオの新しい注釈付き画像が含まれている。
新しいv2.0データセットでトレーニングされたモデルの強化性能を示すとともに,v1.1データセットで得られた結果に対して達成された改善点を示す。
論文 参考訳(メタデータ) (2024-11-26T15:45:59Z) - LoLI-Street: Benchmarking Low-Light Image Enhancement and Beyond [37.47964043913622]
先進都市における街路シーンの低照度画像と高露光画像が33k対のLoLI-Street(Low-Light Images of Streets)を新たに導入した。
LoLI-Streetデータセットはまた、実環境下でLLIEモデルをテストするための1,000の実際の低照度テストイメージも備えている。
論文 参考訳(メタデータ) (2024-10-13T13:11:56Z) - Reading Between the Mud: A Challenging Motorcycle Racer Number Dataset [38.719032057630024]
本稿では,オフロードオートバイレーサー数データセット(RnD)を紹介する。
RnDには、オフロード競技でオートバイレーサーを描いたプロのモータースポーツ写真家の2,411枚の画像が含まれている。
データセットには5,578個の手書きの注釈付きバウンディングボックスがあり、数字と文字が転写されている。
論文 参考訳(メタデータ) (2023-11-14T21:31:47Z) - MUDD: A New Re-Identification Dataset with Efficient Annotation for
Off-Road Racers in Extreme Conditions [38.719032057630024]
制約のない環境での個人の再識別は、コンピュータビジョンにおけるオープンな課題である。
オフロード競技におけるオートバイレーサーの身元をマッチングするための,最初の大規模ベンチマークである Muddy Racer re-IDentification dataset (MUDD) を紹介する。
論文 参考訳(メタデータ) (2023-11-14T19:31:19Z) - RSRD: A Road Surface Reconstruction Dataset and Benchmark for Safe and
Comfortable Autonomous Driving [67.09546127265034]
道路表面の再構築は、車両の走行計画と制御システムの解析と予測を促進するのに役立つ。
我々は,様々な運転条件下で,特定のプラットフォームで収集した実世界,高解像度,高精度のデータセットであるRoad Surface Reconstructionデータセットを紹介した。
約16,000対のステレオ画像、原点雲、地中深度・不均等地図を含む一般的な道路形態を網羅している。
論文 参考訳(メタデータ) (2023-10-03T17:59:32Z) - CarPatch: A Synthetic Benchmark for Radiance Field Evaluation on Vehicle
Components [77.33782775860028]
車両の新たな総合ベンチマークであるCarPatchを紹介する。
内在カメラパラメータと外在カメラパラメータを付加した画像のセットに加えて、各ビューに対して対応する深度マップとセマンティックセグメンテーションマスクが生成されている。
グローバルとパートベースのメトリクスは、いくつかの最先端技術を評価し、比較し、より良い特徴付けるために定義され、使われてきた。
論文 参考訳(メタデータ) (2023-07-24T11:59:07Z) - Deep Learning for Event-based Vision: A Comprehensive Survey and Benchmarks [55.81577205593956]
イベントカメラはバイオインスパイアされたセンサーで、ピクセルごとの強度の変化を非同期に捉える。
深層学習(DL)はこの新興分野に導入され、その可能性のマイニングに活発な研究努力にインスピレーションを与えている。
論文 参考訳(メタデータ) (2023-02-17T14:19:28Z) - Benchmarking the Robustness of LiDAR-Camera Fusion for 3D Object
Detection [58.81316192862618]
自律運転における3D知覚のための2つの重要なセンサーは、カメラとLiDARである。
これら2つのモダリティを融合させることで、3次元知覚モデルの性能を大幅に向上させることができる。
我々は、最先端の核融合法を初めてベンチマークした。
論文 参考訳(メタデータ) (2022-05-30T09:35:37Z) - Accurate, Low-Latency Visual Perception for Autonomous
Racing:Challenges, Mechanisms, and Practical Solutions [3.093385446319071]
本稿では、DUT18 Driverlessの低レイテンシ・高精度認識システムを構築するための課題と解決策について述べる。
DUT18Dの重要なコンポーネントは、YOLOv3ベースのオブジェクト検出、ポーズ推定、デュアルステレオビジョン/モノビジョンカメラのセットアップにおける時間同期である。
本研究では,実際のレースシナリオにおいて,その精度と低レイテンシを実証し,システムの徹底的な実験的評価を行う。
論文 参考訳(メタデータ) (2020-07-28T03:33:41Z) - VehicleNet: Learning Robust Visual Representation for Vehicle
Re-identification [116.1587709521173]
我々は,4つのパブリックな車両データセットを活用することで,大規模車両データセット(VabyNet)を構築することを提案する。
VehicleNetからより堅牢な視覚表現を学習するための、シンプルで効果的な2段階プログレッシブアプローチを設計する。
AICity Challengeのプライベートテストセットにおいて,最先端の精度86.07%mAPを実現した。
論文 参考訳(メタデータ) (2020-04-14T05:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。