論文の概要: Reading Between the Mud: A Challenging Motorcycle Racer Number Dataset
- arxiv url: http://arxiv.org/abs/2311.09256v1
- Date: Tue, 14 Nov 2023 21:31:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 18:19:03.135998
- Title: Reading Between the Mud: A Challenging Motorcycle Racer Number Dataset
- Title(参考訳): reading between the mud: a challenge motorcycle racer number dataset (英語)
- Authors: Jacob Tyo, Youngseog Chung, Motolani Olarinre, Zachary C. Lipton
- Abstract要約: 本稿では,オフロードオートバイレーサー数データセット(RnD)を紹介する。
RnDには、オフロード競技でオートバイレーサーを描いたプロのモータースポーツ写真家の2,411枚の画像が含まれている。
データセットには5,578個の手書きの注釈付きバウンディングボックスがあり、数字と文字が転写されている。
- 参考スコア(独自算出の注目度): 38.719032057630024
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces the off-road motorcycle Racer number Dataset (RnD), a
new challenging dataset for optical character recognition (OCR) research. RnD
contains 2,411 images from professional motorsports photographers that depict
motorcycle racers in off-road competitions. The images exhibit a wide variety
of factors that make OCR difficult, including mud occlusions, motion blur,
non-standard fonts, glare, complex backgrounds, etc. The dataset has 5,578
manually annotated bounding boxes around visible motorcycle numbers, along with
transcribed digits and letters. Our experiments benchmark leading OCR
algorithms and reveal an end-to-end F1 score of only 0.527 on RnD, even after
fine-tuning. Analysis of performance on different occlusion types shows mud as
the primary challenge, degrading accuracy substantially compared to normal
conditions. But the models struggle with other factors including glare, blur,
shadows, and dust. Analysis exposes substantial room for improvement and
highlights failure cases of existing models. RnD represents a valuable new
benchmark to drive innovation in real-world OCR capabilities. The authors hope
the community will build upon this dataset and baseline experiments to make
progress on the open problem of robustly recognizing text in unconstrained
natural environments. The dataset is available at
https://github.com/JacobTyo/SwinTextSpotter.
- Abstract(参考訳): 本稿では、光学式文字認識(OCR)研究のための新しい挑戦的データセットである、オフロードバイクレーサーナンバーデータセット(RnD)を紹介する。
RnDには、オフロード競技でオートバイレーサーを描いたプロのモータースポーツ写真家の2,411枚の画像が含まれている。
画像には、泥の閉塞、動きのぼけ、標準でないフォント、グラア、複雑な背景など、OCRを難しくするさまざまな要因が示されています。
データセットには5,578個の手書きの注釈付きバウンディングボックスがあり、数字と文字が転写されている。
実験では、OCRアルゴリズムをベンチマークし、微調整後であっても、RnDのF1スコアは0.527に留まった。
異なる閉塞型の性能解析では,泥が主な課題であり,通常の条件に比べて精度が著しく低下している。
しかし、モデルは、光沢、ぼやけ、影、ほこりなど他の要因と競合する。
分析は改善の余地を明らかにし、既存のモデルの障害ケースを強調します。
RnDは、現実世界のOCR機能に革新をもたらす貴重な新しいベンチマークである。
著者らは、このデータセットとベースライン実験に基づいて、制約のない自然環境において、テキストを堅牢に認識するオープンな問題を進めることを期待している。
データセットはhttps://github.com/JacobTyo/SwinTextSpotter.comから入手できる。
関連論文リスト
- AIM 2024 Sparse Neural Rendering Challenge: Methods and Results [64.19942455360068]
本稿では,ECCV 2024と共同で開催されるAIM(Advanceds in Image Manipulation)ワークショップの一部であるスパースニューラルレンダリングの課題についてレビューする。
この課題は、スパース画像から多様なシーンを合成する新しいカメラビューを作ることである。
参加者は、Pak Signal-to-Noise Ratio (PSNR) 測定によって測定された地中真実像に対する客観的忠実度を最適化するよう依頼される。
論文 参考訳(メタデータ) (2024-09-23T14:17:40Z) - Toward Enhancing Vehicle Color Recognition in Adverse Conditions: A Dataset and Benchmark [2.326743352134195]
車両色認識(VCR)は、視覚的に区別可能な車両の属性であるため、重要な研究の関心を集めている。
このタスクの既存の手法の成功にもかかわらず、文献で使用されるデータセットの比較的低い複雑さは、ほとんど見過ごされてきている。
この研究は、より困難なVCRシナリオを表す新しいデータセットをコンパイルすることで、このギャップに対処する。
論文 参考訳(メタデータ) (2024-08-21T12:54:41Z) - XLD: A Cross-Lane Dataset for Benchmarking Novel Driving View Synthesis [84.23233209017192]
本稿では,自律走行シミュレーションに特化して設計された新しい駆動ビュー合成データセットとベンチマークを提案する。
データセットには、トレーニング軌跡から1-4mずれて取得した画像のテストが含まれているため、ユニークなものだ。
我々は、フロントオンリーおよびマルチカメラ設定下で、既存のNVSアプローチを評価するための最初の現実的なベンチマークを確立する。
論文 参考訳(メタデータ) (2024-06-26T14:00:21Z) - DLoRA-TrOCR: Mixed Text Mode Optical Character Recognition Based On Transformer [12.966765239586994]
マルチフォント、混合シーン、複雑なレイアウトは、従来のOCRモデルの認識精度に深刻な影響を及ぼす。
本稿では,事前学習したOCR変換器,すなわちDLoRA-TrOCRに基づくパラメータ効率の良い混合テキスト認識手法を提案する。
論文 参考訳(メタデータ) (2024-04-19T09:28:16Z) - Beyond the Mud: Datasets and Benchmarks for Computer Vision in Off-Road
Racing [38.719032057630024]
オフロードバイクレーサーナンバーデータセットとMuddy Racerの再iDentificationデータセットは、オフロード競技中に6300枚以上の画像が撮影された。
オフザシェルフモデルはトランスファーが悪く、テキストスポッティングでは15%のエンドツーエンド(E2E)F1スコア、ReIDでは33%のランク1精度に達した。
微調整が大幅に改善され、E2EテキストスポッティングのF1スコアが53%、ReIDのランク1精度が79%に向上した。
論文 参考訳(メタデータ) (2024-02-12T19:42:05Z) - MUDD: A New Re-Identification Dataset with Efficient Annotation for
Off-Road Racers in Extreme Conditions [38.719032057630024]
制約のない環境での個人の再識別は、コンピュータビジョンにおけるオープンな課題である。
オフロード競技におけるオートバイレーサーの身元をマッチングするための,最初の大規模ベンチマークである Muddy Racer re-IDentification dataset (MUDD) を紹介する。
論文 参考訳(メタデータ) (2023-11-14T19:31:19Z) - MIPI 2022 Challenge on RGBW Sensor Re-mosaic: Dataset and Report [90.34148262169595]
本稿では,新しい画像センサと撮像アルゴリズムに着目した5つのトラックを含むMIPIの最初の課題を紹介する。
参加者は、高品質なRGBWとBayerペアの70(トレーニング)と15(検証)シーンを含む、新しいデータセットを与えられた。
すべてのデータは、屋外と屋内の両方でRGBWセンサーで撮影されました。
論文 参考訳(メタデータ) (2022-09-15T06:06:56Z) - MIPI 2022 Challenge on RGBW Sensor Fusion: Dataset and Report [90.34148262169595]
本稿では,新しい画像センサと撮像アルゴリズムに着目した5つのトラックを含む,最初のMIPI課題を紹介する。
参加者は、高品質なRGBWとBayerペアの70(トレーニング)と15(検証)シーンを含む、新しいデータセットを与えられた。
すべてのデータは、屋外と屋内の両方でRGBWセンサーで撮影されました。
論文 参考訳(メタデータ) (2022-09-15T05:56:53Z) - MIPI 2022 Challenge on RGB+ToF Depth Completion: Dataset and Report [92.61915017739895]
本稿では,新しい画像センサと撮像アルゴリズムに着目した5つのトラックを含むMIPIの最初の課題を紹介する。
参加者にはTetrasRGBDという,高品質な合成RGB+Depthトレーニングデータ18万組と,混合ソースからの2.3万組のテストデータを含む,新たなデータセットが提供される。
最終結果は客観的指標と平均オピニオンスコア(MOS)を主観的に評価する。
論文 参考訳(メタデータ) (2022-09-15T05:31:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。