論文の概要: Reading Between the Mud: A Challenging Motorcycle Racer Number Dataset
- arxiv url: http://arxiv.org/abs/2311.09256v1
- Date: Tue, 14 Nov 2023 21:31:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 18:19:03.135998
- Title: Reading Between the Mud: A Challenging Motorcycle Racer Number Dataset
- Title(参考訳): reading between the mud: a challenge motorcycle racer number dataset (英語)
- Authors: Jacob Tyo, Youngseog Chung, Motolani Olarinre, Zachary C. Lipton
- Abstract要約: 本稿では,オフロードオートバイレーサー数データセット(RnD)を紹介する。
RnDには、オフロード競技でオートバイレーサーを描いたプロのモータースポーツ写真家の2,411枚の画像が含まれている。
データセットには5,578個の手書きの注釈付きバウンディングボックスがあり、数字と文字が転写されている。
- 参考スコア(独自算出の注目度): 38.719032057630024
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces the off-road motorcycle Racer number Dataset (RnD), a
new challenging dataset for optical character recognition (OCR) research. RnD
contains 2,411 images from professional motorsports photographers that depict
motorcycle racers in off-road competitions. The images exhibit a wide variety
of factors that make OCR difficult, including mud occlusions, motion blur,
non-standard fonts, glare, complex backgrounds, etc. The dataset has 5,578
manually annotated bounding boxes around visible motorcycle numbers, along with
transcribed digits and letters. Our experiments benchmark leading OCR
algorithms and reveal an end-to-end F1 score of only 0.527 on RnD, even after
fine-tuning. Analysis of performance on different occlusion types shows mud as
the primary challenge, degrading accuracy substantially compared to normal
conditions. But the models struggle with other factors including glare, blur,
shadows, and dust. Analysis exposes substantial room for improvement and
highlights failure cases of existing models. RnD represents a valuable new
benchmark to drive innovation in real-world OCR capabilities. The authors hope
the community will build upon this dataset and baseline experiments to make
progress on the open problem of robustly recognizing text in unconstrained
natural environments. The dataset is available at
https://github.com/JacobTyo/SwinTextSpotter.
- Abstract(参考訳): 本稿では、光学式文字認識(OCR)研究のための新しい挑戦的データセットである、オフロードバイクレーサーナンバーデータセット(RnD)を紹介する。
RnDには、オフロード競技でオートバイレーサーを描いたプロのモータースポーツ写真家の2,411枚の画像が含まれている。
画像には、泥の閉塞、動きのぼけ、標準でないフォント、グラア、複雑な背景など、OCRを難しくするさまざまな要因が示されています。
データセットには5,578個の手書きの注釈付きバウンディングボックスがあり、数字と文字が転写されている。
実験では、OCRアルゴリズムをベンチマークし、微調整後であっても、RnDのF1スコアは0.527に留まった。
異なる閉塞型の性能解析では,泥が主な課題であり,通常の条件に比べて精度が著しく低下している。
しかし、モデルは、光沢、ぼやけ、影、ほこりなど他の要因と競合する。
分析は改善の余地を明らかにし、既存のモデルの障害ケースを強調します。
RnDは、現実世界のOCR機能に革新をもたらす貴重な新しいベンチマークである。
著者らは、このデータセットとベースライン実験に基づいて、制約のない自然環境において、テキストを堅牢に認識するオープンな問題を進めることを期待している。
データセットはhttps://github.com/JacobTyo/SwinTextSpotter.comから入手できる。
関連論文リスト
- DLoRA-TrOCR: Mixed Text Mode Optical Character Recognition Based On Transformer [12.966765239586994]
マルチフォント、混合シーン、複雑なレイアウトは、従来のOCRモデルの認識精度に深刻な影響を及ぼす。
本稿では,事前学習したOCR変換器,すなわちDLoRA-TrOCRに基づくパラメータ効率の良い混合テキスト認識手法を提案する。
論文 参考訳(メタデータ) (2024-04-19T09:28:16Z) - Beyond the Mud: Datasets and Benchmarks for Computer Vision in Off-Road
Racing [38.719032057630024]
オフロードバイクレーサーナンバーデータセットとMuddy Racerの再iDentificationデータセットは、オフロード競技中に6300枚以上の画像が撮影された。
オフザシェルフモデルはトランスファーが悪く、テキストスポッティングでは15%のエンドツーエンド(E2E)F1スコア、ReIDでは33%のランク1精度に達した。
微調整が大幅に改善され、E2EテキストスポッティングのF1スコアが53%、ReIDのランク1精度が79%に向上した。
論文 参考訳(メタデータ) (2024-02-12T19:42:05Z) - MUDD: A New Re-Identification Dataset with Efficient Annotation for
Off-Road Racers in Extreme Conditions [38.719032057630024]
制約のない環境での個人の再識別は、コンピュータビジョンにおけるオープンな課題である。
オフロード競技におけるオートバイレーサーの身元をマッチングするための,最初の大規模ベンチマークである Muddy Racer re-IDentification dataset (MUDD) を紹介する。
論文 参考訳(メタデータ) (2023-11-14T19:31:19Z) - CarPatch: A Synthetic Benchmark for Radiance Field Evaluation on Vehicle
Components [77.33782775860028]
車両の新たな総合ベンチマークであるCarPatchを紹介する。
内在カメラパラメータと外在カメラパラメータを付加した画像のセットに加えて、各ビューに対して対応する深度マップとセマンティックセグメンテーションマスクが生成されている。
グローバルとパートベースのメトリクスは、いくつかの最先端技術を評価し、比較し、より良い特徴付けるために定義され、使われてきた。
論文 参考訳(メタデータ) (2023-07-24T11:59:07Z) - MIPI 2022 Challenge on RGBW Sensor Re-mosaic: Dataset and Report [90.34148262169595]
本稿では,新しい画像センサと撮像アルゴリズムに着目した5つのトラックを含むMIPIの最初の課題を紹介する。
参加者は、高品質なRGBWとBayerペアの70(トレーニング)と15(検証)シーンを含む、新しいデータセットを与えられた。
すべてのデータは、屋外と屋内の両方でRGBWセンサーで撮影されました。
論文 参考訳(メタデータ) (2022-09-15T06:06:56Z) - MIPI 2022 Challenge on RGBW Sensor Fusion: Dataset and Report [90.34148262169595]
本稿では,新しい画像センサと撮像アルゴリズムに着目した5つのトラックを含む,最初のMIPI課題を紹介する。
参加者は、高品質なRGBWとBayerペアの70(トレーニング)と15(検証)シーンを含む、新しいデータセットを与えられた。
すべてのデータは、屋外と屋内の両方でRGBWセンサーで撮影されました。
論文 参考訳(メタデータ) (2022-09-15T05:56:53Z) - MIPI 2022 Challenge on RGB+ToF Depth Completion: Dataset and Report [92.61915017739895]
本稿では,新しい画像センサと撮像アルゴリズムに着目した5つのトラックを含むMIPIの最初の課題を紹介する。
参加者にはTetrasRGBDという,高品質な合成RGB+Depthトレーニングデータ18万組と,混合ソースからの2.3万組のテストデータを含む,新たなデータセットが提供される。
最終結果は客観的指標と平均オピニオンスコア(MOS)を主観的に評価する。
論文 参考訳(メタデータ) (2022-09-15T05:31:53Z) - NTIRE 2022 Challenge on High Dynamic Range Imaging: Methods and Results [173.32437855731752]
この課題はCVPR 2022と共同でNTIRE(New Trends in Image Restoration and Enhancement)ワークショップの一環として行われた。
この課題は、複数の低ダイナミックレンジ(LDR)観測からHDR画像を推定することを目的としている。
論文 参考訳(メタデータ) (2022-05-25T10:20:06Z) - On-Device Text Image Super Resolution [0.0]
我々は、よりシャープな文字エッジを再構築し、OCRの信頼性を高める新しいディープニューラルネットワークを提案する。
提案アーキテクチャは, バイコビックアップサンプリングによるPSNRの大幅な改善を実現するだけでなく, 平均推定時間1枚当たり11.7msで動作する。
ICDAR 2015 TextSRデータセットでは、OCRの精度が75.89%に達しています。
論文 参考訳(メタデータ) (2020-11-20T07:49:48Z) - RoadText-1K: Text Detection & Recognition Dataset for Driving Videos [26.614671477004375]
本稿では,動画のテキスト処理のための新しい"RoadText-1K"データセットを提案する。
データセットは、既存のビデオ中のテキスト用の最大データセットの20倍の大きさだ。
論文 参考訳(メタデータ) (2020-05-19T14:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。