論文の概要: RoadText-1K: Text Detection & Recognition Dataset for Driving Videos
- arxiv url: http://arxiv.org/abs/2005.09496v1
- Date: Tue, 19 May 2020 14:51:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 14:16:57.630229
- Title: RoadText-1K: Text Detection & Recognition Dataset for Driving Videos
- Title(参考訳): RoadText-1K: 運転ビデオ用テキスト検出・認識データセット
- Authors: Sangeeth Reddy, Minesh Mathew, Lluis Gomez, Marcal Rusinol,
Dimosthenis Karatzas. and C.V. Jawahar
- Abstract要約: 本稿では,動画のテキスト処理のための新しい"RoadText-1K"データセットを提案する。
データセットは、既存のビデオ中のテキスト用の最大データセットの20倍の大きさだ。
- 参考スコア(独自算出の注目度): 26.614671477004375
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Perceiving text is crucial to understand semantics of outdoor scenes and
hence is a critical requirement to build intelligent systems for driver
assistance and self-driving. Most of the existing datasets for text detection
and recognition comprise still images and are mostly compiled keeping text in
mind. This paper introduces a new "RoadText-1K" dataset for text in driving
videos. The dataset is 20 times larger than the existing largest dataset for
text in videos. Our dataset comprises 1000 video clips of driving without any
bias towards text and with annotations for text bounding boxes and
transcriptions in every frame. State of the art methods for text detection,
recognition and tracking are evaluated on the new dataset and the results
signify the challenges in unconstrained driving videos compared to existing
datasets. This suggests that RoadText-1K is suited for research and development
of reading systems, robust enough to be incorporated into more complex
downstream tasks like driver assistance and self-driving. The dataset can be
found at http://cvit.iiit.ac.in/research/projects/cvit-projects/roadtext-1k
- Abstract(参考訳): テキストの認識は、屋外のシーンの意味を理解するために不可欠であり、運転支援と自動運転のためのインテリジェントなシステムを構築するための重要な要件である。
既存のテキスト検出と認識のためのデータセットのほとんどは静止画像で構成されており、テキストを念頭に置いてコンパイルされている。
本稿では,運転映像中のテキストに対する新しい"roadtext-1k"データセットを提案する。
データセットは、既存の最大テキストデータセットの20倍の大きさだ。
私たちのデータセットは、テキストに対するバイアスがなく、各フレームにテキスト境界ボックスと書き起こしのためのアノテーションが付いた1000の動画クリップで構成されています。
新たなデータセット上では,テキスト検出,認識,追跡のための技術手法が評価され,既存のデータセットと比較して,制約のない動画再生における課題が示される。
このことから、RoadText-1Kは読み取りシステムの研究開発に適しており、運転支援や自動運転といったより複雑な下流業務に組み込むのに十分な堅牢性を持っていることが示唆されている。
データセットはhttp://cvit.iiit.ac.in/research/projects/cvit-projects/roadtext-1kにある。
関連論文リスト
- Dataset and Benchmark for Urdu Natural Scenes Text Detection, Recognition and Visual Question Answering [50.52792174648067]
このイニシアチブは、テキストと視覚的理解のギャップを埋めようとしている。
そこで本研究では,1000以上の自然シーン画像からなるマルチタスクUrduシーンテキストデータセットを提案する。
テキストインスタンスの細かいアノテーションを提供し、以前のデータセットの制限に対処します。
論文 参考訳(メタデータ) (2024-05-21T06:48:26Z) - Composed Video Retrieval via Enriched Context and Discriminative Embeddings [118.66322242183249]
コンポジションビデオ検索(CoVR)はコンピュータビジョンにおいて難しい問題である。
本稿では,クエリ固有のコンテキスト情報を明示的にエンコードするために,詳細な言語記述を活用する新しいCoVRフレームワークを提案する。
我々の手法はリコール@K=1のスコアで7%の上昇を達成した。
論文 参考訳(メタデータ) (2024-03-25T17:59:03Z) - DSText V2: A Comprehensive Video Text Spotting Dataset for Dense and
Small Text [46.177941541282756]
我々は,DSText V2というビデオテキスト読解ベンチマークを構築し,DenseとSmallテキスト読解の課題に焦点を当てた。
提案したデータセットは、以前のデータセットと比較すると、主に3つの新しい課題を含んでいる。
ビデオのぼやけや歪みと相まって、高頻度の小さなテキストは、さらなる課題をもたらすだろう。
論文 参考訳(メタデータ) (2023-11-29T09:13:27Z) - Reading Between the Lanes: Text VideoQA on the Road [27.923465943344723]
RoadTextVQAは、ビデオ質問応答(VideoQA)タスクのための新しいデータセットである。
RoadTextVQAは、複数の国から集められた3222ドルのドライビングビデオで構成され、10,500ドルの質問が付録されている。
RoadTextVQAデータセット上で、最先端のビデオ質問応答モデルの性能を評価する。
論文 参考訳(メタデータ) (2023-07-08T10:11:29Z) - A Large Cross-Modal Video Retrieval Dataset with Reading Comprehension [49.74647080936875]
テキスト読解機能を備えた大規模・クロスモーダルなビデオ検索データセットであるTextVRを紹介した。
提案したTextVRでは,テキストを認識し,理解し,視覚的コンテキストに関連づけ,ビデオ検索作業に不可欠なテキスト意味情報を決定するために,一種類のクロスモーダルモデルが必要である。
論文 参考訳(メタデータ) (2023-05-05T08:00:14Z) - ICDAR 2023 Video Text Reading Competition for Dense and Small Text [61.138557702185274]
我々は,ビデオ中の高密度・小型のテキスト読解課題に焦点を当てた,ビデオテキスト読解ベンチマークDSTextを構築した。
提案したデータセットは、以前のデータセットと比較すると、主に3つの新しい課題を含んでいる。
提案したDSTextには、12のオープンシナリオから100のビデオクリップが含まれており、2つのタスク(例えば、ビデオテキストトラッキング(Task 1)と、エンドツーエンドのビデオテキストスポッティング(Task2)をサポートする。
論文 参考訳(メタデータ) (2023-04-10T04:20:34Z) - Video text tracking for dense and small text based on pp-yoloe-r and
sort algorithm [0.9137554315375919]
DSTextは1080 * 1920であり、ビデオフレームをいくつかの領域にスライスすると、テキストの空間的相関が破壊される。
テキスト検出には,小物体検出に有効なPP-YOLOE-Rを採用する。
テキスト検出には,高速な推論のためにソートアルゴリズムを用いる。
論文 参考訳(メタデータ) (2023-03-31T05:40:39Z) - Real-time End-to-End Video Text Spotter with Contrastive Representation
Learning [91.15406440999939]
Contrastive Representation Learning (CoText) を用いたリアルタイムエンドツーエンドビデオテキストスポッターを提案する。
CoTextは3つのタスク(テキストの検出、追跡、認識など)を、リアルタイムのエンドツーエンドのトレーニング可能なフレームワークで同時に処理する。
シンプルで軽量なアーキテクチャは、効率的かつ正確なパフォーマンスのために設計されている。
論文 参考訳(メタデータ) (2022-07-18T07:54:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。