論文の概要: ICDAR 2023 Video Text Reading Competition for Dense and Small Text
- arxiv url: http://arxiv.org/abs/2304.04376v1
- Date: Mon, 10 Apr 2023 04:20:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-11 15:54:46.545785
- Title: ICDAR 2023 Video Text Reading Competition for Dense and Small Text
- Title(参考訳): icdar 2023 高密度・小型テキストのためのビデオテキスト読取競争
- Authors: Weijia Wu, Yuzhong Zhao, Zhuang Li, Jiahong Li, Mike Zheng Shou,
Umapada Pal, Dimosthenis Karatzas, Xiang Bai
- Abstract要約: 我々は,ビデオ中の高密度・小型のテキスト読解課題に焦点を当てた,ビデオテキスト読解ベンチマークDSTextを構築した。
提案したデータセットは、以前のデータセットと比較すると、主に3つの新しい課題を含んでいる。
提案したDSTextには、12のオープンシナリオから100のビデオクリップが含まれており、2つのタスク(例えば、ビデオテキストトラッキング(Task 1)と、エンドツーエンドのビデオテキストスポッティング(Task2)をサポートする。
- 参考スコア(独自算出の注目度): 61.138557702185274
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, video text detection, tracking, and recognition in natural scenes
are becoming very popular in the computer vision community. However, most
existing algorithms and benchmarks focus on common text cases (e.g., normal
size, density) and single scenarios, while ignoring extreme video text
challenges, i.e., dense and small text in various scenarios. In this
competition report, we establish a video text reading benchmark, DSText, which
focuses on dense and small text reading challenges in the video with various
scenarios. Compared with the previous datasets, the proposed dataset mainly
include three new challenges: 1) Dense video texts, a new challenge for video
text spotter. 2) High-proportioned small texts. 3) Various new scenarios, e.g.,
Game, sports, etc. The proposed DSText includes 100 video clips from 12 open
scenarios, supporting two tasks (i.e., video text tracking (Task 1) and
end-to-end video text spotting (Task 2)). During the competition period (opened
on 15th February 2023 and closed on 20th March 2023), a total of 24 teams
participated in the three proposed tasks with around 30 valid submissions,
respectively. In this article, we describe detailed statistical information of
the dataset, tasks, evaluation protocols and the results summaries of the ICDAR
2023 on DSText competition. Moreover, we hope the benchmark will promise video
text research in the community.
- Abstract(参考訳): 近年,自然界における映像テキストの検出,追跡,認識がコンピュータビジョンコミュニティで盛んに行われている。
しかし、既存のアルゴリズムやベンチマークのほとんどは、一般的なテキストケース(例:正規サイズ、密度)と単一のシナリオに焦点を合わせながら、極端なビデオテキストの問題を無視している。
本コンペティションレポートでは,様々なシナリオでビデオ中の高密度・小型テキスト読解課題に焦点を当てた,ビデオテキスト読解ベンチマークDSTextを確立する。
提案したデータセットは、以前のデータセットと比較すると、主に3つの新しい課題を含んでいる。
1) 濃密なビデオテキスト,ビデオテキストスポッターの新たな挑戦
2)高頻度の小文。
3) ゲーム,スポーツなど,さまざまな新たなシナリオ。
提案されているdstextは12のオープンシナリオから100のビデオクリップを含み、2つのタスク(つまり、ビデオテキスト追跡(task))をサポートする。
1)とエンドツーエンドのビデオテキストスポッティング(Task2)。
コンペティション期間(2023年2月15日、閉会2023年3月20日)には、合計24チームが3つの提案課題に参加し、それぞれ30回の有効応募が行われた。
本稿では,dstext コンペティションにおける icdar 2023 のデータセット,タスク,評価プロトコル,結果の概要に関する詳細な統計情報について述べる。
さらに、このベンチマークがコミュニティでビデオテキスト研究を約束することを期待しています。
関連論文リスト
- Dataset and Benchmark for Urdu Natural Scenes Text Detection, Recognition and Visual Question Answering [50.52792174648067]
このイニシアチブは、テキストと視覚的理解のギャップを埋めようとしている。
そこで本研究では,1000以上の自然シーン画像からなるマルチタスクUrduシーンテキストデータセットを提案する。
テキストインスタンスの細かいアノテーションを提供し、以前のデータセットの制限に対処します。
論文 参考訳(メタデータ) (2024-05-21T06:48:26Z) - DSText V2: A Comprehensive Video Text Spotting Dataset for Dense and
Small Text [46.177941541282756]
我々は,DSText V2というビデオテキスト読解ベンチマークを構築し,DenseとSmallテキスト読解の課題に焦点を当てた。
提案したデータセットは、以前のデータセットと比較すると、主に3つの新しい課題を含んでいる。
ビデオのぼやけや歪みと相まって、高頻度の小さなテキストは、さらなる課題をもたらすだろう。
論文 参考訳(メタデータ) (2023-11-29T09:13:27Z) - A Large Cross-Modal Video Retrieval Dataset with Reading Comprehension [49.74647080936875]
テキスト読解機能を備えた大規模・クロスモーダルなビデオ検索データセットであるTextVRを紹介した。
提案したTextVRでは,テキストを認識し,理解し,視覚的コンテキストに関連づけ,ビデオ検索作業に不可欠なテキスト意味情報を決定するために,一種類のクロスモーダルモデルが必要である。
論文 参考訳(メタデータ) (2023-05-05T08:00:14Z) - Real-time End-to-End Video Text Spotter with Contrastive Representation
Learning [91.15406440999939]
Contrastive Representation Learning (CoText) を用いたリアルタイムエンドツーエンドビデオテキストスポッターを提案する。
CoTextは3つのタスク(テキストの検出、追跡、認識など)を、リアルタイムのエンドツーエンドのトレーニング可能なフレームワークで同時に処理する。
シンプルで軽量なアーキテクチャは、効率的かつ正確なパフォーマンスのために設計されている。
論文 参考訳(メタデータ) (2022-07-18T07:54:17Z) - A Bilingual, OpenWorld Video Text Dataset and End-to-end Video Text
Spotter with Transformer [12.167938646139705]
大規模でバイリンガルなオープンワールドビデオテキストベンチマークデータセット(BOVText)を導入する。
まず、1,750,000フレーム以上の2,000以上のビデオを提供しています。
第2に、私たちのデータセットは30以上のオープンカテゴリをカバーしており、Life Vlog、Driving、Movieなど、さまざまなシナリオが選択できます。
論文 参考訳(メタデータ) (2021-12-09T13:21:26Z) - ICDAR 2021 Competition on Scene Video Text Spotting [28.439390836950025]
シーンビデオテキストスポッティング(SVTS)は,多くの実環境応用のために非常に重要な研究課題である。
本稿では,SVTS コンペティションにおける ICDAR 2021 のデータセット記述,タスク定義,評価プロトコル,結果要約について述べる。
論文 参考訳(メタデータ) (2021-07-26T01:25:57Z) - RoadText-1K: Text Detection & Recognition Dataset for Driving Videos [26.614671477004375]
本稿では,動画のテキスト処理のための新しい"RoadText-1K"データセットを提案する。
データセットは、既存のビデオ中のテキスト用の最大データセットの20倍の大きさだ。
論文 参考訳(メタデータ) (2020-05-19T14:51:25Z) - Text Synopsis Generation for Egocentric Videos [72.52130695707008]
我々は、長い自我中心の動画の中で最も重要な出来事を記述したいくつかの文からなるテキスト合成を生成することを提案する。
ユーザーは短いテキストを読んでビデオについての洞察を得ることができ、さらに重要なのは、大きなビデオデータベースのコンテンツを効率的に検索できることだ。
論文 参考訳(メタデータ) (2020-05-08T00:28:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。