論文の概要: A Bilingual, OpenWorld Video Text Dataset and End-to-end Video Text
Spotter with Transformer
- arxiv url: http://arxiv.org/abs/2112.04888v1
- Date: Thu, 9 Dec 2021 13:21:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-10 19:28:38.575245
- Title: A Bilingual, OpenWorld Video Text Dataset and End-to-end Video Text
Spotter with Transformer
- Title(参考訳): トランスを用いたバイリンガルなOpenWorldビデオテキストデータセットとエンドツーエンドビデオテキストスポッター
- Authors: Weijia Wu, Yuanqiang Cai, Debing Zhang, Sibo Wang, Zhuang Li, Jiahong
Li, Yejun Tang, Hong Zhou
- Abstract要約: 大規模でバイリンガルなオープンワールドビデオテキストベンチマークデータセット(BOVText)を導入する。
まず、1,750,000フレーム以上の2,000以上のビデオを提供しています。
第2に、私たちのデータセットは30以上のオープンカテゴリをカバーしており、Life Vlog、Driving、Movieなど、さまざまなシナリオが選択できます。
- 参考スコア(独自算出の注目度): 12.167938646139705
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most existing video text spotting benchmarks focus on evaluating a single
language and scenario with limited data. In this work, we introduce a
large-scale, Bilingual, Open World Video text benchmark dataset(BOVText). There
are four features for BOVText. Firstly, we provide 2,000+ videos with more than
1,750,000+ frames, 25 times larger than the existing largest dataset with
incidental text in videos. Secondly, our dataset covers 30+ open categories
with a wide selection of various scenarios, e.g., Life Vlog, Driving, Movie,
etc. Thirdly, abundant text types annotation (i.e., title, caption or scene
text) are provided for the different representational meanings in video.
Fourthly, the BOVText provides bilingual text annotation to promote multiple
cultures live and communication. Besides, we propose an end-to-end video text
spotting framework with Transformer, termed TransVTSpotter, which solves the
multi-orient text spotting in video with a simple, but efficient
attention-based query-key mechanism. It applies object features from the
previous frame as a tracking query for the current frame and introduces a
rotation angle prediction to fit the multiorient text instance. On
ICDAR2015(video), TransVTSpotter achieves the state-of-the-art performance with
44.1% MOTA, 9 fps. The dataset and code of TransVTSpotter can be found at
github:com=weijiawu=BOVText and github:com=weijiawu=TransVTSpotter,
respectively.
- Abstract(参考訳): 既存のビデオテキストスポッティングベンチマークのほとんどは、限られたデータで単一の言語とシナリオを評価することに焦点を当てている。
本稿では,大規模でバイリンガルなOpen World Videoテキストベンチマークデータセット(BOVText)を紹介する。
BOVTextには4つの機能がある。
まず、2000以上のビデオに1,750,000以上のフレームがあり、ビデオ中のテキストが付随する、既存の最大のデータセットの25倍の大きさです。
第2に、私たちのデータセットは30以上のオープンカテゴリをカバーしており、Life Vlog、Driving、Movieなど、さまざまなシナリオが選択できます。
第3に、ビデオの異なる表現意味に対して豊富なテキストタイプアノテーション(タイトル、キャプション、シーンテキストなど)を提供する。
第4に、BOVTextはバイリンガルテキストアノテーションを提供し、複数の文化の生とコミュニケーションを促進する。
また,マルチオリエントなテキストスポッティングを簡易かつ効率的な注意に基づくクエリキー機構で解決するtransvtspotterという,transformerを用いたエンドツーエンドのビデオテキストスポッティングフレームワークを提案する。
前のフレームからのオブジェクト特徴を現在のフレームの追跡クエリとして適用し、マルチオリエントテキストインスタンスに適合する回転角予測を導入する。
ICDAR2015(ビデオ)では、TransVTSpotterは44.1%のMOTA、9fpsで最先端のパフォーマンスを達成した。
TransVTSpotterのデータセットとコードは、github:com=weijiawu=BOVTextとgithub:com=weijiawu=TransVTSpotterにある。
関連論文リスト
- Vript: A Video Is Worth Thousands of Words [54.815686588378156]
Vriptは12Kの高解像度ビデオの注釈付きコーパスで、420Kのクリップで詳細な、密度の高い、スクリプトのようなキャプションを提供する。
各クリップには145ワードのキャプションがあり、ほとんどのビデオテキストデータセットの10倍以上の長さである。
Vriptは、長いビデオのための高密度で詳細なキャプションをエンドツーエンドに生成できる強力なモデルである。
論文 参考訳(メタデータ) (2024-06-10T06:17:55Z) - A Recipe for Scaling up Text-to-Video Generation with Text-free Videos [72.59262815400928]
拡散ベースのテキスト・ツー・ビデオ世代は、過去1年で目覚ましい進歩をみせたが、それでもテキスト・ツー・画像世代には及ばない。
我々はTF-T2Vと呼ばれる新しいテキスト・ビデオ生成フレームワークを考案した。
論文 参考訳(メタデータ) (2023-12-25T16:37:39Z) - DSText V2: A Comprehensive Video Text Spotting Dataset for Dense and
Small Text [46.177941541282756]
我々は,DSText V2というビデオテキスト読解ベンチマークを構築し,DenseとSmallテキスト読解の課題に焦点を当てた。
提案したデータセットは、以前のデータセットと比較すると、主に3つの新しい課題を含んでいる。
ビデオのぼやけや歪みと相まって、高頻度の小さなテキストは、さらなる課題をもたらすだろう。
論文 参考訳(メタデータ) (2023-11-29T09:13:27Z) - A Large Cross-Modal Video Retrieval Dataset with Reading Comprehension [49.74647080936875]
テキスト読解機能を備えた大規模・クロスモーダルなビデオ検索データセットであるTextVRを紹介した。
提案したTextVRでは,テキストを認識し,理解し,視覚的コンテキストに関連づけ,ビデオ検索作業に不可欠なテキスト意味情報を決定するために,一種類のクロスモーダルモデルが必要である。
論文 参考訳(メタデータ) (2023-05-05T08:00:14Z) - ICDAR 2023 Video Text Reading Competition for Dense and Small Text [61.138557702185274]
我々は,ビデオ中の高密度・小型のテキスト読解課題に焦点を当てた,ビデオテキスト読解ベンチマークDSTextを構築した。
提案したデータセットは、以前のデータセットと比較すると、主に3つの新しい課題を含んでいる。
提案したDSTextには、12のオープンシナリオから100のビデオクリップが含まれており、2つのタスク(例えば、ビデオテキストトラッキング(Task 1)と、エンドツーエンドのビデオテキストスポッティング(Task2)をサポートする。
論文 参考訳(メタデータ) (2023-04-10T04:20:34Z) - Are All Combinations Equal? Combining Textual and Visual Features with
Multiple Space Learning for Text-Based Video Retrieval [9.537322316673617]
多様なテキスト・視覚的特徴を特徴対に最適に組み合わせる方法について検討する。
これらの表現を学習するために、提案するネットワークアーキテクチャは、複数の空間学習手順に従って訓練される。
論文 参考訳(メタデータ) (2022-11-21T11:08:13Z) - Bi-Calibration Networks for Weakly-Supervised Video Representation
Learning [153.54638582696128]
本稿では,弱い教師付きビデオ表現学習を促進するために,問合せとテキストの相互校正の新たな設計を提案する。
本稿では,バイキャリブレーションネットワーク(BCN)を新たに2つのキャリブレーションを結合して,テキストからクエリへの修正学習を行う。
BCNは3MのWebビデオで学習し、下流タスクの線形モデルプロトコルの下で優れた結果を得る。
論文 参考訳(メタデータ) (2022-06-21T16:02:12Z) - X-Pool: Cross-Modal Language-Video Attention for Text-Video Retrieval [26.581384985173116]
テキスト・ビデオ検索では,テキストとビデオの相互類似性を学習することが目的である。
本稿では,テキストとビデオのフレーム間の関係を理由として,X-Poolと呼ばれるモーダルなアテンションモデルを提案する。
論文 参考訳(メタデータ) (2022-03-28T20:47:37Z) - CLIP2TV: An Empirical Study on Transformer-based Methods for Video-Text
Retrieval [14.022356429411934]
本稿では,CLIP2TVについて紹介する。
特に、CLIP2TVは、MSR-VTTデータセット上で52.9@R1を達成し、以前のSOTA結果よりも4.1%向上した。
論文 参考訳(メタデータ) (2021-11-10T10:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。