論文の概要: ReLaText: Exploiting Visual Relationships for Arbitrary-Shaped Scene
Text Detection with Graph Convolutional Networks
- arxiv url: http://arxiv.org/abs/2003.06999v1
- Date: Mon, 16 Mar 2020 03:33:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-23 03:23:54.194909
- Title: ReLaText: Exploiting Visual Relationships for Arbitrary-Shaped Scene
Text Detection with Graph Convolutional Networks
- Title(参考訳): ReLaText:グラフ畳み込みネットワークを用いた任意形状のシーンテキスト検出のための視覚的関係の爆発
- Authors: Chixiang Ma, Lei Sun, Zhuoyao Zhong, Qiang Huo
- Abstract要約: 本稿では,ReLaTextという任意の字型テキスト検出手法を提案する。
この新定式化の有効性を示すために,まず「リンク」関係を用いてテキスト行グループ化の問題に対処する。
我々のGCNベースのテキストライングルーピングアプローチは、従来のテキストライングルーピング手法よりも優れたテキスト検出精度を実現することができる。
- 参考スコア(独自算出の注目度): 6.533254660400229
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a new arbitrary-shaped text detection approach named ReLaText by
formulating text detection as a visual relationship detection problem. To
demonstrate the effectiveness of this new formulation, we start from using a
"link" relationship to address the challenging text-line grouping problem
firstly. The key idea is to decompose text detection into two subproblems,
namely detection of text primitives and prediction of link relationships
between nearby text primitive pairs. Specifically, an anchor-free region
proposal network based text detector is first used to detect text primitives of
different scales from different feature maps of a feature pyramid network, from
which a text primitive graph is constructed by linking each pair of nearby text
primitives detected from a same feature map with an edge. Then, a Graph
Convolutional Network (GCN) based link relationship prediction module is used
to prune wrongly-linked edges in the text primitive graph to generate a number
of disjoint subgraphs, each representing a detected text instance. As GCN can
effectively leverage context information to improve link prediction accuracy,
our GCN based text-line grouping approach can achieve better text detection
accuracy than previous text-line grouping methods, especially when dealing with
text instances with large inter-character or very small inter-line spacings.
Consequently, the proposed ReLaText achieves state-of-the-art performance on
five public text detection benchmarks, namely RCTW-17, MSRA-TD500, Total-Text,
CTW1500 and DAST1500.
- Abstract(参考訳): 本稿では,テキスト検出を視覚的関係検出問題として定式化することで,ReLaTextという任意の形状のテキスト検出手法を提案する。
この新しい定式化の有効性を示すために,まず「リンク」関係を用いて,難解なテキスト・ライン・グルーピング問題に対処する。
鍵となる考え方は、テキスト検出を2つのサブプロブレム、すなわちテキストプリミティブの検出と、近隣のテキストプリミティブペア間のリンク関係の予測に分解することである。
具体的には、アンカーフリー領域提案ネットワークに基づくテキスト検出器を用いて、特徴ピラミッドネットワークの異なる特徴マップから異なるスケールのテキストプリミティブを検知し、同じ特徴マップから検出された近傍のテキストプリミティブのペアをエッジにリンクすることにより、テキストプリミティブグラフを構築する。
次に、グラフ畳み込みネットワーク(GCN)ベースのリンク関係予測モジュールを使用して、テキストプリミティブグラフ内の誤ってリンクされたエッジをプルークし、検出されたテキストインスタンスを表す多数の不整合部分グラフを生成する。
GCNはコンテキスト情報を有効活用してリンク予測精度を向上させるため、GCNベースのテキストライングルーピングアプローチは従来のテキストライングルーピング手法よりも優れたテキスト検出精度を実現することができる。
その結果,提案手法はrctw-17,msra-td500,total-text,ctw1500,dast1500の5つの公開テキスト検出ベンチマークにおいて最先端のパフォーマンスを実現する。
関連論文リスト
- Leveraging Structure Knowledge and Deep Models for the Detection of Abnormal Handwritten Text [19.05500901000957]
構造知識と手書きテキストの深層モデルを組み合わせた2段階検出アルゴリズムを提案する。
新たな半教師付きコントラストトレーニング戦略によって訓練された形状回帰ネットワークを導入し、文字間の位置関係を十分に活用する。
2つの手書きテキストデータセットを用いた実験により,提案手法は検出性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2024-10-15T14:57:10Z) - Text Grouping Adapter: Adapting Pre-trained Text Detector for Layout Analysis [52.34110239735265]
本稿では,事前学習したテキスト検出装置のレイアウト解析を学習するためのモジュールであるText Grouping Adapter (TGA)を提案する。
我々の総合的な実験は、凍結した事前学習モデルであっても、TGAを様々な事前学習されたテキスト検出器やテキストスポッターに組み込むことで、より優れたレイアウト解析性能が得られることを示した。
論文 参考訳(メタデータ) (2024-05-13T05:48:35Z) - SwinTextSpotter v2: Towards Better Synergy for Scene Text Spotting [126.01629300244001]
我々はSwinTextSpotter v2と呼ばれる新しいエンドツーエンドのシーンテキストスポッティングフレームワークを提案する。
我々は,新しい認識変換モジュールと認識アライメントモジュールを用いて,2つのタスク間の関係を強化する。
SwinTextSpotter v2は、様々な多言語(英語、中国語、ベトナム語)のベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-01-15T12:33:00Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - SwinTextSpotter: Scene Text Spotting via Better Synergy between Text
Detection and Text Recognition [73.61592015908353]
本稿では,SwinTextSpotter と呼ばれるシーンテキストスポッティングフレームワークを提案する。
動的頭部を検出器とするトランスを用いて、2つのタスクを新しい認識変換機構で統一する。
この設計は、追加の修正モジュールも文字レベルのアノテーションも必要としない簡潔なフレームワークをもたらす。
論文 参考訳(メタデータ) (2022-03-19T01:14:42Z) - CORE-Text: Improving Scene Text Detection with Contrastive Relational
Reasoning [65.57338873921168]
自然界におけるテキストインスタンスのローカライズは、コンピュータビジョンにおける根本的な課題であると考えられている。
本研究では,サブテキスト問題を定量的に解析し,シンプルで効果的な設計であるContrastive Relation(CORE)モジュールを提案する。
我々は、COREモジュールをMask R-CNNの2段階テキスト検出器に統合し、テキスト検出器CORE-Textを考案する。
論文 参考訳(メタデータ) (2021-12-14T16:22:25Z) - StrokeNet: Stroke Assisted and Hierarchical Graph Reasoning Networks [31.76016966100244]
StrokeNetは、きめ細かいストロークをキャプチャすることで、テキストを効果的に検出する。
テキスト領域を一連のポイントや長方形のボックスで表現する既存のアプローチとは異なり、各テキストインスタンスのストロークを直接ローカライズする。
論文 参考訳(メタデータ) (2021-11-23T08:26:42Z) - Bidirectional Regression for Arbitrary-Shaped Text Detection [16.30976392505236]
本稿では,前景情報と背景情報の両方をパイプラインに統合した新しいテキストインスタンス表現を提案する。
対応する後処理アルゴリズムは、4つの予測結果を逐次組み合わせてテキストインスタンスを正確に再構築するように設計されている。
本手法は,曲面および多目的テキストデータセットを含む,いくつかの挑戦的なシーンテキストベンチマークで評価する。
論文 参考訳(メタデータ) (2021-07-13T14:29:09Z) - Rethinking Text Segmentation: A Novel Dataset and A Text-Specific
Refinement Approach [34.63444886780274]
テキストセグメンテーションは、現実世界のテキスト関連タスクの前提条件である。
本稿では,テキスト分割手法であるText Refinement Network (TexRNet)を紹介する。
TexRNetは、他の最先端セグメンテーション手法と比較して、テキストセグメンテーションのパフォーマンスを2%近く改善している。
論文 参考訳(メタデータ) (2020-11-27T22:50:09Z) - Text Perceptron: Towards End-to-End Arbitrary-Shaped Text Spotting [49.768327669098674]
テキストパーセプトロン(Text Perceptron)という,エンドツーエンドのトレーニング可能なテキストスポッティング手法を提案する。
まず、テキスト読解順序と境界情報を学ぶ効率的なセグメンテーションベースのテキスト検出器を用いる。
次に、検出された特徴領域を正規形態に変換するために、新しい形状変換モジュール(STM)を設計する。
論文 参考訳(メタデータ) (2020-02-17T08:07:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。