論文の概要: DSText V2: A Comprehensive Video Text Spotting Dataset for Dense and
Small Text
- arxiv url: http://arxiv.org/abs/2312.01938v1
- Date: Wed, 29 Nov 2023 09:13:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-11 03:33:12.811295
- Title: DSText V2: A Comprehensive Video Text Spotting Dataset for Dense and
Small Text
- Title(参考訳): DSText V2:DenseとSmall Textのための総合的なビデオテキストスポッティングデータセット
- Authors: Weijia Wu, Yiming Zhang, Yefei He, Luoming Zhang, Zhenyu Lou, Hong
Zhou, and Xiang Bai
- Abstract要約: 我々は,DSText V2というビデオテキスト読解ベンチマークを構築し,DenseとSmallテキスト読解の課題に焦点を当てた。
提案したデータセットは、以前のデータセットと比較すると、主に3つの新しい課題を含んでいる。
ビデオのぼやけや歪みと相まって、高頻度の小さなテキストは、さらなる課題をもたらすだろう。
- 参考スコア(独自算出の注目度): 46.177941541282756
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, video text detection, tracking, and recognition in natural scenes
are becoming very popular in the computer vision community. However, most
existing algorithms and benchmarks focus on common text cases (e.g., normal
size, density) and single scenario, while ignoring extreme video text
challenges, i.e., dense and small text in various scenarios. In this paper, we
establish a video text reading benchmark, named DSText V2, which focuses on
Dense and Small text reading challenges in the video with various scenarios.
Compared with the previous datasets, the proposed dataset mainly include three
new challenges: 1) Dense video texts, a new challenge for video text spotters
to track and read. 2) High-proportioned small texts, coupled with the
blurriness and distortion in the video, will bring further challenges. 3)
Various new scenarios, e.g., Game, Sports, etc. The proposed DSText V2 includes
140 video clips from 7 open scenarios, supporting three tasks, i.e., video text
detection (Task 1), video text tracking (Task 2), and end-to-end video text
spotting (Task 3). In this article, we describe detailed statistical
information of the dataset, tasks, evaluation protocols, and the results
summaries. Most importantly, a thorough investigation and analysis targeting
three unique challenges derived from our dataset are provided, aiming to
provide new insights. Moreover, we hope the benchmark will promise video text
research in the community. DSText v2 is built upon DSText v1, which was
previously introduced to organize the ICDAR 2023 competition for dense and
small video text.
- Abstract(参考訳): 近年,自然界における映像テキストの検出,追跡,認識がコンピュータビジョンコミュニティで盛んに行われている。
しかし、既存のアルゴリズムやベンチマークのほとんどは、一般的なテキストケース(例:正規サイズ、密度)と単一のシナリオに焦点を合わせながら、極端なビデオテキストの問題を無視している。
本稿では,DSText V2というビデオテキスト読解ベンチマークを構築し,様々なシナリオによるDenseとSmallテキスト読解課題に焦点を当てた。
提案したデータセットは、以前のデータセットと比較すると、主に3つの新しい課題を含んでいる。
1) 密集したビデオテキストは,ビデオテキストスポッターが追跡し,読み取ることの新たな課題である。
2)ビデオのぼやけや歪みと相まって,高頻度の小型テキストは,さらなる課題をもたらす。
3) ゲーム,スポーツなど,さまざまな新たなシナリオ。
提案するdstext v2は、7つのオープンシナリオからの140のビデオクリップを含み、ビデオテキスト検出(タスク1)、ビデオテキスト追跡(タスク2)、エンドツーエンドビデオテキストスポッティング(タスク3)という3つのタスクをサポートしている。
本稿では,データセット,タスク,評価プロトコル,結果要約の詳細な統計情報について述べる。
最も重要なのは,データセットから派生した3つのユニークな課題を対象とした,新たな洞察の提供を目的とした詳細な調査と分析です。
さらに、このベンチマークがコミュニティでビデオテキスト研究を約束することを期待しています。
dstext v2は、以前icdar 2023コンペティションを主催するために導入されたdstext v1上に構築されている。
関連論文リスト
- Dataset and Benchmark for Urdu Natural Scenes Text Detection, Recognition and Visual Question Answering [50.52792174648067]
このイニシアチブは、テキストと視覚的理解のギャップを埋めようとしている。
そこで本研究では,1000以上の自然シーン画像からなるマルチタスクUrduシーンテキストデータセットを提案する。
テキストインスタンスの細かいアノテーションを提供し、以前のデータセットの制限に対処します。
論文 参考訳(メタデータ) (2024-05-21T06:48:26Z) - Composed Video Retrieval via Enriched Context and Discriminative Embeddings [118.66322242183249]
コンポジションビデオ検索(CoVR)はコンピュータビジョンにおいて難しい問題である。
本稿では,クエリ固有のコンテキスト情報を明示的にエンコードするために,詳細な言語記述を活用する新しいCoVRフレームワークを提案する。
我々の手法はリコール@K=1のスコアで7%の上昇を達成した。
論文 参考訳(メタデータ) (2024-03-25T17:59:03Z) - A Large Cross-Modal Video Retrieval Dataset with Reading Comprehension [49.74647080936875]
テキスト読解機能を備えた大規模・クロスモーダルなビデオ検索データセットであるTextVRを紹介した。
提案したTextVRでは,テキストを認識し,理解し,視覚的コンテキストに関連づけ,ビデオ検索作業に不可欠なテキスト意味情報を決定するために,一種類のクロスモーダルモデルが必要である。
論文 参考訳(メタデータ) (2023-05-05T08:00:14Z) - ICDAR 2023 Video Text Reading Competition for Dense and Small Text [61.138557702185274]
我々は,ビデオ中の高密度・小型のテキスト読解課題に焦点を当てた,ビデオテキスト読解ベンチマークDSTextを構築した。
提案したデータセットは、以前のデータセットと比較すると、主に3つの新しい課題を含んでいる。
提案したDSTextには、12のオープンシナリオから100のビデオクリップが含まれており、2つのタスク(例えば、ビデオテキストトラッキング(Task 1)と、エンドツーエンドのビデオテキストスポッティング(Task2)をサポートする。
論文 参考訳(メタデータ) (2023-04-10T04:20:34Z) - A Bilingual, OpenWorld Video Text Dataset and End-to-end Video Text
Spotter with Transformer [12.167938646139705]
大規模でバイリンガルなオープンワールドビデオテキストベンチマークデータセット(BOVText)を導入する。
まず、1,750,000フレーム以上の2,000以上のビデオを提供しています。
第2に、私たちのデータセットは30以上のオープンカテゴリをカバーしており、Life Vlog、Driving、Movieなど、さまざまなシナリオが選択できます。
論文 参考訳(メタデータ) (2021-12-09T13:21:26Z) - Bridging Vision and Language from the Video-to-Text Perspective: A
Comprehensive Review [1.0520692160489133]
本稿では,ビデオ・トゥ・テキスト問題に対する最先端技術の分類と解説を行う。
主なvideo-to-textメソッドとそのパフォーマンス評価方法をカバーする。
最先端の技術は、ビデオ記述の生成または取得における人間のようなパフォーマンスを達成するには、まだ長い道のりです。
論文 参考訳(メタデータ) (2021-03-27T02:12:28Z) - RoadText-1K: Text Detection & Recognition Dataset for Driving Videos [26.614671477004375]
本稿では,動画のテキスト処理のための新しい"RoadText-1K"データセットを提案する。
データセットは、既存のビデオ中のテキスト用の最大データセットの20倍の大きさだ。
論文 参考訳(メタデータ) (2020-05-19T14:51:25Z) - Text Synopsis Generation for Egocentric Videos [72.52130695707008]
我々は、長い自我中心の動画の中で最も重要な出来事を記述したいくつかの文からなるテキスト合成を生成することを提案する。
ユーザーは短いテキストを読んでビデオについての洞察を得ることができ、さらに重要なのは、大きなビデオデータベースのコンテンツを効率的に検索できることだ。
論文 参考訳(メタデータ) (2020-05-08T00:28:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。