論文の概要: Real-time End-to-End Video Text Spotter with Contrastive Representation
Learning
- arxiv url: http://arxiv.org/abs/2207.08417v1
- Date: Mon, 18 Jul 2022 07:54:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-19 22:30:54.887085
- Title: Real-time End-to-End Video Text Spotter with Contrastive Representation
Learning
- Title(参考訳): コントラスト表現学習を用いたリアルタイムエンド・ツー・エンドビデオテキストスポッター
- Authors: Wejia Wu, Zhuang Li, Jiahong Li, Chunhua Shen, Hong Zhou, Size Li,
Zhongyuan Wang, and Ping Luo
- Abstract要約: Contrastive Representation Learning (CoText) を用いたリアルタイムエンドツーエンドビデオテキストスポッターを提案する。
CoTextは3つのタスク(テキストの検出、追跡、認識など)を、リアルタイムのエンドツーエンドのトレーニング可能なフレームワークで同時に処理する。
シンプルで軽量なアーキテクチャは、効率的かつ正確なパフォーマンスのために設計されている。
- 参考スコア(独自算出の注目度): 91.15406440999939
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video text spotting(VTS) is the task that requires simultaneously detecting,
tracking and recognizing text in the video. Existing video text spotting
methods typically develop sophisticated pipelines and multiple models, which is
not friend for real-time applications. Here we propose a real-time end-to-end
video text spotter with Contrastive Representation learning (CoText). Our
contributions are three-fold: 1) CoText simultaneously address the three tasks
(e.g., text detection, tracking, recognition) in a real-time end-to-end
trainable framework. 2) With contrastive learning, CoText models long-range
dependencies and learning temporal information across multiple frames. 3) A
simple, lightweight architecture is designed for effective and accurate
performance, including GPU-parallel detection post-processing, CTC-based
recognition head with Masked RoI. Extensive experiments show the superiority of
our method. Especially, CoText achieves an video text spotting IDF1 of 72.0% at
41.0 FPS on ICDAR2015video, with 10.5% and 32.0 FPS improvement the previous
best method. The code can be found at github.com/weijiawu/CoText.
- Abstract(参考訳): ビデオテキストスポッティング(VTS)は、ビデオ中のテキストを検出し、追跡し、認識するタスクである。
既存のビデオテキストスポッティング手法は通常、洗練されたパイプラインと複数のモデルを開発する。
本稿では,Contrastive Representation Learning (CoText) を用いたリアルタイムビデオテキストスポッターを提案する。
私たちの貢献は3倍です。
1) CoTextは、リアルタイムエンドツーエンドのトレーニング可能なフレームワークで3つのタスク(テキスト検出、トラッキング、認識など)を同時に処理する。
2) コントラスト学習では,CoTextは長距離依存をモデル化し,時間的情報を複数のフレームにわたって学習する。
3) シンプルで軽量なアーキテクチャは,GPU並列検出後処理,CTCベースの認識ヘッド,Masked RoIなど,効率的かつ正確なパフォーマンスを実現するように設計されている。
大規模な実験により,本手法の優位性を示した。
特に、CoText は ICDAR2015 video で IDF1 を 72.0% の 41.0 FPS で検出し、10.5% と 32.0 FPS を改良した。
コードはgithub.com/weijiawu/CoTextで見ることができる。
関連論文リスト
- Composed Video Retrieval via Enriched Context and Discriminative Embeddings [118.66322242183249]
コンポジションビデオ検索(CoVR)はコンピュータビジョンにおいて難しい問題である。
本稿では,クエリ固有のコンテキスト情報を明示的にエンコードするために,詳細な言語記述を活用する新しいCoVRフレームワークを提案する。
我々の手法はリコール@K=1のスコアで7%の上昇を達成した。
論文 参考訳(メタデータ) (2024-03-25T17:59:03Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - FlowText: Synthesizing Realistic Scene Text Video with Optical Flow
Estimation [23.080145300304018]
本稿では,FlowTextと呼ばれる新しいビデオテキスト合成手法を提案する。
堅牢なビデオテキストスポッターを訓練するために、大量のテキストビデオデータを低コストで合成する。
論文 参考訳(メタデータ) (2023-05-05T07:15:49Z) - Are All Combinations Equal? Combining Textual and Visual Features with
Multiple Space Learning for Text-Based Video Retrieval [9.537322316673617]
多様なテキスト・視覚的特徴を特徴対に最適に組み合わせる方法について検討する。
これらの表現を学習するために、提案するネットワークアーキテクチャは、複数の空間学習手順に従って訓練される。
論文 参考訳(メタデータ) (2022-11-21T11:08:13Z) - End-to-End Video Text Spotting with Transformer [86.46724646835627]
我々は、シンプルだが効果的なビデオテキスト検出・追跡・認識フレームワーク(TransDETR)を提案する。
TransDETRは、最初のエンドツーエンドのトレーニング可能なビデオテキストスポッティングフレームワークであり、3つのサブタスク(テキスト検出、追跡、認識など)を同時に扱う。
論文 参考訳(メタデータ) (2022-03-20T12:14:58Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - Contrastive Learning of Semantic and Visual Representations for Text
Tracking [22.817884815010856]
本稿では,意味的および視覚的表現のコントラスト学習による映像テキストの追跡について検討する。
本稿では,Semantic and Visual Representations (SVRep) を用いたエンドツーエンドのビデオテキストトラッカーを提案する。
SVRepはResNet-18のバックボーンで$rm ID_F1$ of $textbf65.9%$を達成している。
論文 参考訳(メタデータ) (2021-12-30T09:22:13Z) - TACo: Token-aware Cascade Contrastive Learning for Video-Text Alignment [68.08689660963468]
Token-Aware Cascade contrastive Learning (TACo)と呼ばれる新しいアルゴリズムは、2つの新しい手法を用いてコントラスト学習を改善する。
そこで我々は,YouCook2,MSR-VTT,ActivityNetの3つの公開テキストビデオ検索ベンチマークに最先端を新たに設定した。
論文 参考訳(メタデータ) (2021-08-23T07:24:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。