論文の概要: Video Text Tracking With a Spatio-Temporal Complementary Model
- arxiv url: http://arxiv.org/abs/2111.04987v1
- Date: Tue, 9 Nov 2021 08:23:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-10 15:05:08.188576
- Title: Video Text Tracking With a Spatio-Temporal Complementary Model
- Title(参考訳): 時空間補足モデルを用いたビデオテキスト追跡
- Authors: Yuzhe Gao, Xing Li, Jiajian Zhang, Yu Zhou, Dian Jin, Jing Wang,
Shenggao Zhu, and Xiang Bai
- Abstract要約: テキストトラッキングは、ビデオ内の複数のテキストを追跡し、各テキストの軌跡を構築することである。
既存の手法は、トラッキング・バイ・ディテククション・フレームワークを利用する。
我々は、このパラダイムの追跡精度がより複雑なシナリオで著しく制限されていると論じる。
- 参考スコア(独自算出の注目度): 46.99051486905713
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Text tracking is to track multiple texts in a video,and construct a
trajectory for each text. Existing methodstackle this task by utilizing the
tracking-by-detection frame-work, i.e., detecting the text instances in each
frame andassociating the corresponding text instances in consecutiveframes. We
argue that the tracking accuracy of this paradigmis severely limited in more
complex scenarios, e.g., owing tomotion blur, etc., the missed detection of
text instances causesthe break of the text trajectory. In addition, different
textinstances with similar appearance are easily confused, leadingto the
incorrect association of the text instances. To this end,a novel
spatio-temporal complementary text tracking model isproposed in this paper. We
leverage a Siamese ComplementaryModule to fully exploit the continuity
characteristic of the textinstances in the temporal dimension, which
effectively alleviatesthe missed detection of the text instances, and hence
ensuresthe completeness of each text trajectory. We further integratethe
semantic cues and the visual cues of the text instance intoa unified
representation via a text similarity learning network,which supplies a high
discriminative power in the presence oftext instances with similar appearance,
and thus avoids the mis-association between them. Our method achieves
state-of-the-art performance on several public benchmarks. The source codeis
available at https://github.com/lsabrinax/VideoTextSCM.
- Abstract(参考訳): テキスト追跡は、ビデオ中の複数のテキストを追跡し、各テキストの軌跡を構築することである。
既存のメソッドスタックルでは、トラッキングバイ検出フレームワーク、すなわち各フレーム内のテキストインスタンスを検出し、対応するテキストインスタンスを連続フレームに関連付けることで、このタスクを実行できる。
このパラダイムの追跡精度は、例えば、トモーションのぼやけなどにより、より複雑なシナリオにおいて著しく制限されており、テキストインスタンスの欠落がテキストの軌跡の破滅を引き起こしている、と我々は主張する。
さらに、類似した外観の異なるテキストが容易に混同され、テキストインスタンスの不正な関連に繋がる。
そこで本稿では,新しい時空間的補完的テキスト追跡モデルを提案する。
我々は、シームズ補足モジュールを利用して、時間次元におけるテクストの連続性特性を完全に活用し、テキストインスタンスの欠落の検出を効果的に軽減し、各テキストトラジェクトリの完全性を保証する。
さらに、テキストの類似度学習ネットワークを介して、テキストインスタンスの意味的手がかりと視覚的な手がかりを統一表現に統合し、類似した外観のテキストインスタンスの存在下で高い識別力を提供し、両者の誤結合を回避する。
提案手法は,複数の公開ベンチマーク上での最先端性能を実現する。
ソースコードはhttps://github.com/lsabrinax/videotextscmで入手できる。
関連論文リスト
- Text Grouping Adapter: Adapting Pre-trained Text Detector for Layout Analysis [52.34110239735265]
本稿では,事前学習したテキスト検出装置のレイアウト解析を学習するためのモジュールであるText Grouping Adapter (TGA)を提案する。
我々の総合的な実験は、凍結した事前学習モデルであっても、TGAを様々な事前学習されたテキスト検出器やテキストスポッターに組み込むことで、より優れたレイアウト解析性能が得られることを示した。
論文 参考訳(メタデータ) (2024-05-13T05:48:35Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Towards Unified Scene Text Spotting based on Sequence Generation [4.437335677401287]
UNIfied scene Text Spotter(UNITS)を提案する。
我々のモデルは四角形や多角形を含む様々な検出形式を統一する。
任意の開始点からテキストを抽出するために、開始点プロンプトを適用する。
論文 参考訳(メタデータ) (2023-04-07T01:28:08Z) - Contextual Text Block Detection towards Scene Text Understanding [85.40898487745272]
本稿では,シーン中のテキストをよりよく理解するためのコンテキストテキストブロック(CTB)を新たに検出する,コンテキストテキスト検出手法を提案する。
本稿では、まずテキスト単位を検出し、次にCTBにグループ化する二重検出タスクにより、新しい設定を定式化する。
そこで本研究では,統合テキスト単位をトークンとして扱うシーンテキストクラスタリング手法を設計し,それらを(同じCTBに延長する)順序付きトークンシーケンスにグループ化する。
論文 参考訳(メタデータ) (2022-07-26T14:59:25Z) - CORE-Text: Improving Scene Text Detection with Contrastive Relational
Reasoning [65.57338873921168]
自然界におけるテキストインスタンスのローカライズは、コンピュータビジョンにおける根本的な課題であると考えられている。
本研究では,サブテキスト問題を定量的に解析し,シンプルで効果的な設計であるContrastive Relation(CORE)モジュールを提案する。
我々は、COREモジュールをMask R-CNNの2段階テキスト検出器に統合し、テキスト検出器CORE-Textを考案する。
論文 参考訳(メタデータ) (2021-12-14T16:22:25Z) - Scene Text Retrieval via Joint Text Detection and Similarity Learning [68.24531728554892]
シーンテキスト検索は、与えられたクエリテキストと同じまたは類似している画像ギャラリーからすべてのテキストインスタンスをローカライズし、検索することを目的としています。
自然画像からクエリテキストと各テキストインスタンスのクロスモーダルな類似性を直接学習することでこの問題に対処します。
このように、検出されたテキストインスタンスを学習された類似度でランク付けすることで、シーンテキスト検索を簡単に実行できます。
論文 参考訳(メタデータ) (2021-04-04T07:18:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。