論文の概要: Contextual Text Block Detection towards Scene Text Understanding
- arxiv url: http://arxiv.org/abs/2207.12955v1
- Date: Tue, 26 Jul 2022 14:59:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-27 13:02:13.459843
- Title: Contextual Text Block Detection towards Scene Text Understanding
- Title(参考訳): シーンテキスト理解のためのコンテキストテキストブロック検出
- Authors: Chuhui Xue, Jiaxing Huang, Shijian Lu, Changhu Wang, Song Bai
- Abstract要約: 本稿では,シーン中のテキストをよりよく理解するためのコンテキストテキストブロック(CTB)を新たに検出する,コンテキストテキスト検出手法を提案する。
本稿では、まずテキスト単位を検出し、次にCTBにグループ化する二重検出タスクにより、新しい設定を定式化する。
そこで本研究では,統合テキスト単位をトークンとして扱うシーンテキストクラスタリング手法を設計し,それらを(同じCTBに延長する)順序付きトークンシーケンスにグループ化する。
- 参考スコア(独自算出の注目度): 85.40898487745272
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most existing scene text detectors focus on detecting characters or words
that only capture partial text messages due to missing contextual information.
For a better understanding of text in scenes, it is more desired to detect
contextual text blocks (CTBs) which consist of one or multiple integral text
units (e.g., characters, words, or phrases) in natural reading order and
transmit certain complete text messages. This paper presents contextual text
detection, a new setup that detects CTBs for better understanding of texts in
scenes. We formulate the new setup by a dual detection task which first detects
integral text units and then groups them into a CTB. To this end, we design a
novel scene text clustering technique that treats integral text units as tokens
and groups them (belonging to the same CTB) into an ordered token sequence. In
addition, we create two datasets SCUT-CTW-Context and ReCTS-Context to
facilitate future research, where each CTB is well annotated by an ordered
sequence of integral text units. Further, we introduce three metrics that
measure contextual text detection in local accuracy, continuity, and global
accuracy. Extensive experiments show that our method accurately detects CTBs
which effectively facilitates downstream tasks such as text classification and
translation. The project is available at
https://sg-vilab.github.io/publication/xue2022contextual/.
- Abstract(参考訳): 既存のシーンテキスト検出装置のほとんどは、文脈情報の欠如による部分的なテキストメッセージのみをキャプチャする文字や単語の検出に重点を置いている。
シーンにおけるテキストの理解を深めるためには、1つまたは複数の統合テキスト単位(例えば、文字、単語、句)からなるコンテキストテキストブロック(ctbs)を自然に読み出し順に検出し、特定の完全なテキストメッセージを送信することがより望ましい。
本稿では,シーン中のテキストの理解を深めるために,CTBを新たに検出するコンテキストテキスト検出手法を提案する。
本稿では、まずテキスト単位を検出し、次にCTBにグループ化する二重検出タスクにより、新しい設定を定式化する。
そこで本研究では,統合テキスト単位をトークンとして扱うシーンテキストクラスタリング手法を設計し,それらを(同じCTBに延長する)順序付きトークンシーケンスにグループ化する。
さらに,scut-ctw-context と rects-context の2つのデータセットを作成し,各ctb は逐次的なテキスト単位の順序列でアノテートされる。
さらに,局所的精度,連続性,大域的精度で文脈的テキスト検出を測定する3つの指標を導入する。
本手法は,テキスト分類や翻訳などの下流処理を効果的に行うCTBを高精度に検出する。
プロジェクトはhttps://sg-vilab.github.io/publication/xue2022contextual/で入手できる。
関連論文リスト
- Text Grouping Adapter: Adapting Pre-trained Text Detector for Layout Analysis [52.34110239735265]
本稿では,事前学習したテキスト検出装置のレイアウト解析を学習するためのモジュールであるText Grouping Adapter (TGA)を提案する。
我々の総合的な実験は、凍結した事前学習モデルであっても、TGAを様々な事前学習されたテキスト検出器やテキストスポッターに組み込むことで、より優れたレイアウト解析性能が得られることを示した。
論文 参考訳(メタデータ) (2024-05-13T05:48:35Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Towards End-to-End Unified Scene Text Detection and Layout Analysis [60.68100769639923]
本稿では,シーンテキストの検出とレイアウト解析を統合化するタスクについて紹介する。
この新たな研究課題を実現するために、最初の階層的なシーンテキストデータセットが導入された。
また,シーンテキストを同時に検出し,テキストクラスタを統一的に形成する手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T23:35:45Z) - SwinTextSpotter: Scene Text Spotting via Better Synergy between Text
Detection and Text Recognition [73.61592015908353]
本稿では,SwinTextSpotter と呼ばれるシーンテキストスポッティングフレームワークを提案する。
動的頭部を検出器とするトランスを用いて、2つのタスクを新しい認識変換機構で統一する。
この設計は、追加の修正モジュールも文字レベルのアノテーションも必要としない簡潔なフレームワークをもたらす。
論文 参考訳(メタデータ) (2022-03-19T01:14:42Z) - CORE-Text: Improving Scene Text Detection with Contrastive Relational
Reasoning [65.57338873921168]
自然界におけるテキストインスタンスのローカライズは、コンピュータビジョンにおける根本的な課題であると考えられている。
本研究では,サブテキスト問題を定量的に解析し,シンプルで効果的な設計であるContrastive Relation(CORE)モジュールを提案する。
我々は、COREモジュールをMask R-CNNの2段階テキスト検出器に統合し、テキスト検出器CORE-Textを考案する。
論文 参考訳(メタデータ) (2021-12-14T16:22:25Z) - Video Text Tracking With a Spatio-Temporal Complementary Model [46.99051486905713]
テキストトラッキングは、ビデオ内の複数のテキストを追跡し、各テキストの軌跡を構築することである。
既存の手法は、トラッキング・バイ・ディテククション・フレームワークを利用する。
我々は、このパラダイムの追跡精度がより複雑なシナリオで著しく制限されていると論じる。
論文 参考訳(メタデータ) (2021-11-09T08:23:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。