論文の概要: Hierarchical Text Spotter for Joint Text Spotting and Layout Analysis
- arxiv url: http://arxiv.org/abs/2310.17674v1
- Date: Wed, 25 Oct 2023 22:23:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-30 16:11:15.967925
- Title: Hierarchical Text Spotter for Joint Text Spotting and Layout Analysis
- Title(参考訳): テキストスポッティングとレイアウト解析のための階層型テキストスポッター
- Authors: Shangbang Long, Siyang Qin, Yasuhisa Fujii, Alessandro Bissacco,
Michalis Raptis
- Abstract要約: HTSは画像中のテキストを認識し、文字、単語、行、段落の4段階の階層構造を識別することができる。
HTSは、複数の単語レベルのテキストスポッティングベンチマークデータセットと幾何学的レイアウト解析タスクの最先端結果を達成する。
- 参考スコア(独自算出の注目度): 52.01356859448068
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose Hierarchical Text Spotter (HTS), a novel method for the joint task
of word-level text spotting and geometric layout analysis. HTS can recognize
text in an image and identify its 4-level hierarchical structure: characters,
words, lines, and paragraphs. The proposed HTS is characterized by two novel
components: (1) a Unified-Detector-Polygon (UDP) that produces Bezier Curve
polygons of text lines and an affinity matrix for paragraph grouping between
detected lines; (2) a Line-to-Character-to-Word (L2C2W) recognizer that splits
lines into characters and further merges them back into words. HTS achieves
state-of-the-art results on multiple word-level text spotting benchmark
datasets as well as geometric layout analysis tasks.
- Abstract(参考訳): 単語レベルのテキストスポッティングと幾何学的レイアウト解析の結合作業のための新しい手法である階層テキストスポッター(HTS)を提案する。
HTSは画像中のテキストを認識し、文字、単語、行、段落の4段階の階層構造を識別することができる。
提案するHTSは,(1)テキスト行のベジエ曲線多角形を生成するUDP(Unified-Detector-Polygon)と,(2)文字を文字に分割し,さらに単語にマージするL2C2W(Line-to-Character-to-Word)認識器を特徴とする。
HTSは、複数の単語レベルのテキストスポッティングベンチマークデータセットと幾何学的レイアウト解析タスクの最先端結果を達成する。
関連論文リスト
- Out of Length Text Recognition with Sub-String Matching [54.63761108308825]
本稿では,このタスクをOOL(Out of Length)テキスト認識と呼ぶ。
サブ文字列マッチング(SMTR)を用いたOOLテキスト認識手法を提案する。
SMTRは2つのクロスアテンションベースのモジュールから構成される: 1つは複数の文字を含むサブストリングを次のクエリと前のクエリにエンコードし、もう1つは画像の特徴に対応するためにクエリを使用する。
論文 参考訳(メタデータ) (2024-07-17T05:02:17Z) - Contextual Text Block Detection towards Scene Text Understanding [85.40898487745272]
本稿では,シーン中のテキストをよりよく理解するためのコンテキストテキストブロック(CTB)を新たに検出する,コンテキストテキスト検出手法を提案する。
本稿では、まずテキスト単位を検出し、次にCTBにグループ化する二重検出タスクにより、新しい設定を定式化する。
そこで本研究では,統合テキスト単位をトークンとして扱うシーンテキストクラスタリング手法を設計し,それらを(同じCTBに延長する)順序付きトークンシーケンスにグループ化する。
論文 参考訳(メタデータ) (2022-07-26T14:59:25Z) - Towards End-to-End Unified Scene Text Detection and Layout Analysis [60.68100769639923]
本稿では,シーンテキストの検出とレイアウト解析を統合化するタスクについて紹介する。
この新たな研究課題を実現するために、最初の階層的なシーンテキストデータセットが導入された。
また,シーンテキストを同時に検出し,テキストクラスタを統一的に形成する手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T23:35:45Z) - SwinTextSpotter: Scene Text Spotting via Better Synergy between Text
Detection and Text Recognition [73.61592015908353]
本稿では,SwinTextSpotter と呼ばれるシーンテキストスポッティングフレームワークを提案する。
動的頭部を検出器とするトランスを用いて、2つのタスクを新しい認識変換機構で統一する。
この設計は、追加の修正モジュールも文字レベルのアノテーションも必要としない簡潔なフレームワークをもたらす。
論文 参考訳(メタデータ) (2022-03-19T01:14:42Z) - Unified Line and Paragraph Detection by Graph Convolutional Networks [5.298581058536571]
文書中の行や段落を検出するタスクを,統一された2段階クラスタリング問題に定式化する。
グラフ畳み込みネットワークを用いて、テキスト検出ボックス間の関係を予測し、これらの予測から両方のレベルのクラスタを構築する。
実験により,この統一手法は,公開ベンチマークや実世界の画像における段落検出の最先端性を保ちながら,高い効率で実現可能であることを示した。
論文 参考訳(メタデータ) (2022-03-17T22:27:12Z) - All You Need is a Second Look: Towards Arbitrary-Shaped Text Detection [39.17648241471479]
本稿では,NASK (Need A Second looK) と呼ばれる2段階セグメンテーションによる任意のテキスト検出手法を提案する。
論文 参考訳(メタデータ) (2021-06-24T01:44:10Z) - Detection and Rectification of Arbitrary Shaped Scene Texts by using
Text Keypoints and Links [38.71967078941593]
マスク誘導マルチタスクネットワークは任意の形状のシーンテキストを確実に検出・修正する。
センタラインを指定する3種類のキーポイントが検出され、テキストインスタンスの形状が正確に決定される。
シーンテキストは、関連するランドマークポイントをリンクすることで配置および修正できます。
論文 参考訳(メタデータ) (2021-03-01T06:13:51Z) - SCATTER: Selective Context Attentional Scene Text Recognizer [16.311256552979835]
Scene Text Recognition (STR) は複雑な画像背景に対してテキストを認識するタスクである。
現在のSOTA(State-of-the-art)メソッドは、任意の形で書かれたテキストを認識するのに依然として苦労している。
Selective Context Attentional Text Recognizer (SCATTER) というSTRの新しいアーキテクチャを導入する。
論文 参考訳(メタデータ) (2020-03-25T09:20:28Z) - Text Perceptron: Towards End-to-End Arbitrary-Shaped Text Spotting [49.768327669098674]
テキストパーセプトロン(Text Perceptron)という,エンドツーエンドのトレーニング可能なテキストスポッティング手法を提案する。
まず、テキスト読解順序と境界情報を学ぶ効率的なセグメンテーションベースのテキスト検出器を用いる。
次に、検出された特徴領域を正規形態に変換するために、新しい形状変換モジュール(STM)を設計する。
論文 参考訳(メタデータ) (2020-02-17T08:07:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。