Fugu-MT 論文翻訳(概要): Reading Between the Mud: A Challenging Motorcycle Racer Number Dataset

論文の概要: Reading Between the Mud: A Challenging Motorcycle Racer Number Dataset

arxiv url: http://arxiv.org/abs/2311.09256v1
Date: Tue, 14 Nov 2023 21:31:47 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-17 18:19:03.135998
Title: Reading Between the Mud: A Challenging Motorcycle Racer Number Dataset
Title（参考訳）: reading between the mud: a challenge motorcycle racer number dataset (英語)
Authors: Jacob Tyo, Youngseog Chung, Motolani Olarinre, Zachary C. Lipton
Abstract要約: 本稿では,オフロードオートバイレーサー数データセット(RnD)を紹介する。 RnDには、オフロード競技でオートバイレーサーを描いたプロのモータースポーツ写真家の2,411枚の画像が含まれている。データセットには5,578個の手書きの注釈付きバウンディングボックスがあり、数字と文字が転写されている。
参考スコア（独自算出の注目度）: 38.719032057630024
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper introduces the off-road motorcycle Racer number Dataset (RnD), a new challenging dataset for optical character recognition (OCR) research. RnD contains 2,411 images from professional motorsports photographers that depict motorcycle racers in off-road competitions. The images exhibit a wide variety of factors that make OCR difficult, including mud occlusions, motion blur, non-standard fonts, glare, complex backgrounds, etc. The dataset has 5,578 manually annotated bounding boxes around visible motorcycle numbers, along with transcribed digits and letters. Our experiments benchmark leading OCR algorithms and reveal an end-to-end F1 score of only 0.527 on RnD, even after fine-tuning. Analysis of performance on different occlusion types shows mud as the primary challenge, degrading accuracy substantially compared to normal conditions. But the models struggle with other factors including glare, blur, shadows, and dust. Analysis exposes substantial room for improvement and highlights failure cases of existing models. RnD represents a valuable new benchmark to drive innovation in real-world OCR capabilities. The authors hope the community will build upon this dataset and baseline experiments to make progress on the open problem of robustly recognizing text in unconstrained natural environments. The dataset is available at https://github.com/JacobTyo/SwinTextSpotter.
Abstract（参考訳）: 本稿では、光学式文字認識(OCR)研究のための新しい挑戦的データセットである、オフロードバイクレーサーナンバーデータセット(RnD)を紹介する。 RnDには、オフロード競技でオートバイレーサーを描いたプロのモータースポーツ写真家の2,411枚の画像が含まれている。画像には、泥の閉塞、動きのぼけ、標準でないフォント、グラア、複雑な背景など、OCRを難しくするさまざまな要因が示されています。データセットには5,578個の手書きの注釈付きバウンディングボックスがあり、数字と文字が転写されている。実験では、OCRアルゴリズムをベンチマークし、微調整後であっても、RnDのF1スコアは0.527に留まった。異なる閉塞型の性能解析では,泥が主な課題であり,通常の条件に比べて精度が著しく低下している。しかし、モデルは、光沢、ぼやけ、影、ほこりなど他の要因と競合する。分析は改善の余地を明らかにし、既存のモデルの障害ケースを強調します。 RnDは、現実世界のOCR機能に革新をもたらす貴重な新しいベンチマークである。著者らは、このデータセットとベースライン実験に基づいて、制約のない自然環境において、テキストを堅牢に認識するオープンな問題を進めることを期待している。データセットはhttps://github.com/JacobTyo/SwinTextSpotter.comから入手できる。

関連論文リスト

A Racing Dataset and Baseline Model for Track Detection in Autonomous Racing [8.652993697080147]
RoRaTrackは、トラック検出のためのレースシナリオからの注釈付きマルチカメライメージデータを含む、新しいデータセットである。我々はこれらの課題に効果的に対処するGAN(Generative Adversarial Network)に基づくベースラインモデルであるRaceGANを提案する。提案モデルは,トラック検出における現在の最先端機械学習モデルと比較して,優れた性能を示す。
論文参考訳（メタデータ） (2025-02-19T19:43:31Z)
Benchmarking Vision-Language Models on Optical Character Recognition in Dynamic Video Environments [3.5936169218390703]
本稿では、動的ビデオ環境における光学的文字認識(OCR)タスクの視覚言語モデル(VLM)を評価するためのオープンソースのベンチマークを提案する。コードエディタ,ニュースブロードキャスト,YouTubeビデオ,広告など,さまざまな領域にまたがる1,477の注釈付きフレームを含むキュレートデータセットを提案する。
論文参考訳（メタデータ） (2025-02-10T13:20:19Z)
RDD4D: 4D Attention-Guided Road Damage Detection And Classification [15.300130944077704]
本稿では,個々の画像から多様な道路被害タイプを抽出する新しい道路被害検出データセットを提案する。また、Attention4Dブロックを利用したRDD4Dというモデルも提供しています。
論文参考訳（メタデータ） (2025-01-06T07:48:04Z)
AIM 2024 Sparse Neural Rendering Challenge: Methods and Results [64.19942455360068]
本稿では,ECCV 2024と共同で開催されるAIM(Advanceds in Image Manipulation)ワークショップの一部であるスパースニューラルレンダリングの課題についてレビューする。この課題は、スパース画像から多様なシーンを合成する新しいカメラビューを作ることである。参加者は、Pak Signal-to-Noise Ratio (PSNR) 測定によって測定された地中真実像に対する客観的忠実度を最適化するよう依頼される。
論文参考訳（メタデータ） (2024-09-23T14:17:40Z)
Toward Enhancing Vehicle Color Recognition in Adverse Conditions: A Dataset and Benchmark [2.326743352134195]
車両色認識(VCR)は、視覚的に区別可能な車両の属性であるため、重要な研究の関心を集めている。このタスクの既存の手法の成功にもかかわらず、文献で使用されるデータセットの比較的低い複雑さは、ほとんど見過ごされてきている。この研究は、より困難なVCRシナリオを表す新しいデータセットをコンパイルすることで、このギャップに対処する。
論文参考訳（メタデータ） (2024-08-21T12:54:41Z)
XLD: A Cross-Lane Dataset for Benchmarking Novel Driving View Synthesis [84.23233209017192]
本稿では,自律走行シミュレーションに特化して設計された新しい駆動ビュー合成データセットとベンチマークを提案する。データセットには、トレーニング軌跡から1-4mずれて取得した画像のテストが含まれているため、ユニークなものだ。我々は、フロントオンリーおよびマルチカメラ設定下で、既存のNVSアプローチを評価するための最初の現実的なベンチマークを確立する。
論文参考訳（メタデータ） (2024-06-26T14:00:21Z)
DLoRA-TrOCR: Mixed Text Mode Optical Character Recognition Based On Transformer [12.966765239586994]
マルチフォント、混合シーン、複雑なレイアウトは、従来のOCRモデルの認識精度に深刻な影響を及ぼす。本稿では,事前学習したOCR変換器,すなわちDLoRA-TrOCRに基づくパラメータ効率の良い混合テキスト認識手法を提案する。
論文参考訳（メタデータ） (2024-04-19T09:28:16Z)
Beyond the Mud: Datasets and Benchmarks for Computer Vision in Off-Road Racing [38.719032057630024]
オフロードバイクレーサーナンバーデータセットとMuddy Racerの再iDentificationデータセットは、オフロード競技中に6300枚以上の画像が撮影された。オフザシェルフモデルはトランスファーが悪く、テキストスポッティングでは15%のエンドツーエンド(E2E)F1スコア、ReIDでは33%のランク1精度に達した。微調整が大幅に改善され、E2EテキストスポッティングのF1スコアが53%、ReIDのランク1精度が79%に向上した。
論文参考訳（メタデータ） (2024-02-12T19:42:05Z)
MUDD: A New Re-Identification Dataset with Efficient Annotation for Off-Road Racers in Extreme Conditions [38.719032057630024]
制約のない環境での個人の再識別は、コンピュータビジョンにおけるオープンな課題である。オフロード競技におけるオートバイレーサーの身元をマッチングするための,最初の大規模ベンチマークである Muddy Racer re-IDentification dataset (MUDD) を紹介する。
論文参考訳（メタデータ） (2023-11-14T19:31:19Z)
CarPatch: A Synthetic Benchmark for Radiance Field Evaluation on Vehicle Components [77.33782775860028]
車両の新たな総合ベンチマークであるCarPatchを紹介する。内在カメラパラメータと外在カメラパラメータを付加した画像のセットに加えて、各ビューに対して対応する深度マップとセマンティックセグメンテーションマスクが生成されている。グローバルとパートベースのメトリクスは、いくつかの最先端技術を評価し、比較し、より良い特徴付けるために定義され、使われてきた。
論文参考訳（メタデータ） (2023-07-24T11:59:07Z)
MIPI 2022 Challenge on RGBW Sensor Re-mosaic: Dataset and Report [90.34148262169595]
本稿では,新しい画像センサと撮像アルゴリズムに着目した5つのトラックを含むMIPIの最初の課題を紹介する。参加者は、高品質なRGBWとBayerペアの70(トレーニング)と15(検証)シーンを含む、新しいデータセットを与えられた。すべてのデータは、屋外と屋内の両方でRGBWセンサーで撮影されました。
論文参考訳（メタデータ） (2022-09-15T06:06:56Z)
MIPI 2022 Challenge on RGBW Sensor Fusion: Dataset and Report [90.34148262169595]
本稿では,新しい画像センサと撮像アルゴリズムに着目した5つのトラックを含む,最初のMIPI課題を紹介する。参加者は、高品質なRGBWとBayerペアの70(トレーニング)と15(検証)シーンを含む、新しいデータセットを与えられた。すべてのデータは、屋外と屋内の両方でRGBWセンサーで撮影されました。
論文参考訳（メタデータ） (2022-09-15T05:56:53Z)
MIPI 2022 Challenge on RGB+ToF Depth Completion: Dataset and Report [92.61915017739895]
本稿では,新しい画像センサと撮像アルゴリズムに着目した5つのトラックを含むMIPIの最初の課題を紹介する。参加者にはTetrasRGBDという,高品質な合成RGB+Depthトレーニングデータ18万組と,混合ソースからの2.3万組のテストデータを含む,新たなデータセットが提供される。最終結果は客観的指標と平均オピニオンスコア(MOS)を主観的に評価する。
論文参考訳（メタデータ） (2022-09-15T05:31:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。