論文の概要: Which and Where to Focus: A Simple yet Accurate Framework for
Arbitrary-Shaped Nearby Text Detection in Scene Images
- arxiv url: http://arxiv.org/abs/2109.03451v1
- Date: Wed, 8 Sep 2021 06:25:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-09 13:47:03.254654
- Title: Which and Where to Focus: A Simple yet Accurate Framework for
Arbitrary-Shaped Nearby Text Detection in Scene Images
- Title(参考訳): 焦点と場所:シーン画像における任意形状近傍テキスト検出のための簡易かつ正確なフレームワーク
- Authors: Youhui Guo, Yu Zhou, Xugong Qin, Weiping Wang
- Abstract要約: そこで本研究では,任意の形状の近接するシーンテキスト検出のための簡易かつ効果的な手法を提案する。
OMTS(One-to-Many Training Scheme)は、混乱を排除し、提案がより適切な基盤構造を学べるように設計されている。
また,提案提案に対してより効果的な機能を利用するために,提案機能注意モジュール(PFAM)を提案する。
- 参考スコア(独自算出の注目度): 8.180563824325086
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene text detection has drawn the close attention of researchers. Though
many methods have been proposed for horizontal and oriented texts, previous
methods may not perform well when dealing with arbitrary-shaped texts such as
curved texts. In particular, confusion problem arises in the case of nearby
text instances. In this paper, we propose a simple yet effective method for
accurate arbitrary-shaped nearby scene text detection. Firstly, a One-to-Many
Training Scheme (OMTS) is designed to eliminate confusion and enable the
proposals to learn more appropriate groundtruths in the case of nearby text
instances. Secondly, we propose a Proposal Feature Attention Module (PFAM) to
exploit more effective features for each proposal, which can better adapt to
arbitrary-shaped text instances. Finally, we propose a baseline that is based
on Faster R-CNN and outputs the curve representation directly. Equipped with
PFAM and OMTS, the detector can achieve state-of-the-art or competitive
performance on several challenging benchmarks.
- Abstract(参考訳): シーンテキスト検出は研究者の注意を引き付けている。
水平テキストや指向テキストに対して多くの手法が提案されているが、曲線テキストのような任意の形のテキストを扱う場合、従来の手法ではうまく機能しない。
特に、近くのテキストインスタンスの場合、混乱の問題が発生する。
本稿では,任意形状近傍のテキスト検出を簡易かつ効果的に行う手法を提案する。
第一に、OMTS(One-to-Many Training Scheme)は混乱を解消し、近隣のテキストインスタンスでより適切な基盤構造を学習できるように設計されている。
次に,各提案に対してより効果的な機能を利用するための提案機能注意モジュール(PFAM)を提案する。
最後に,Faster R-CNNに基づくベースラインを提案し,曲線表現を直接出力する。
PFAMとOMTSを装備した検出器は、いくつかの挑戦的なベンチマークで最先端または競争的な性能を達成することができる。
関連論文リスト
- Text Grouping Adapter: Adapting Pre-trained Text Detector for Layout Analysis [52.34110239735265]
本稿では,事前学習したテキスト検出装置のレイアウト解析を学習するためのモジュールであるText Grouping Adapter (TGA)を提案する。
我々の総合的な実験は、凍結した事前学習モデルであっても、TGAを様々な事前学習されたテキスト検出器やテキストスポッターに組み込むことで、より優れたレイアウト解析性能が得られることを示した。
論文 参考訳(メタデータ) (2024-05-13T05:48:35Z) - TextBlockV2: Towards Precise-Detection-Free Scene Text Spotting with Pre-trained Language Model [17.77384627944455]
既存のシーンテキストスポッターは、画像からテキストを見つけて書き起こすように設計されている。
提案するシーンテキストスポッターは、高度なPLMを活用して、きめ細かい検出を行うことなく性能を向上させる。
PLMベースの認識モジュールは、事前学習期間中に得られた包括的な言語知識から恩恵を受け、複雑なシナリオを効果的に処理する。
論文 参考訳(メタデータ) (2024-03-15T06:38:25Z) - LRANet: Towards Accurate and Efficient Scene Text Detection with
Low-Rank Approximation Network [63.554061288184165]
低ランク近似に基づく新しいパラメータ化テキスト形状法を提案する。
異なるテキストの輪郭間の形状相関を探索することにより, 形状表現における一貫性, コンパクト性, 単純性, 頑健性を実現する。
我々はLRANetという名前の正確で効率的な任意の形状のテキスト検出器を実装した。
論文 参考訳(メタデータ) (2023-06-27T02:03:46Z) - DEER: Detection-agnostic End-to-End Recognizer for Scene Text Spotting [11.705454066278898]
本稿では,新しい検出非依存のエンド・ツー・エンド認識フレームワークDEERを提案する。
提案手法は,検出モジュールと認識モジュール間の密接な依存関係を低減する。
通常のテキストスポッティングベンチマークと任意の形のテキストスポッティングベンチマークで競合する結果を得る。
論文 参考訳(メタデータ) (2022-03-10T02:41:05Z) - MOST: A Multi-Oriented Scene Text Detector with Localization Refinement [67.35280008722255]
シーンテキスト検出のための新しいアルゴリズムを提案し、テキストローカリゼーションの品質を大幅に向上させる一連の戦略を提案する。
具体的には,テキスト・フィーチャー・アライメント・モジュール (TFAM) を提案し,特徴の受容領域を動的に調整する。
信頼できないものを排除するために、位置認識非最大抑制(PA-NMS)モジュールを考案する。
論文 参考訳(メタデータ) (2021-04-02T14:34:41Z) - Scene Text Detection with Scribble Lines [59.698806258671105]
テキスト検出のための多角形の代わりにスクリブル線でテキストをアノテートすることを提案する。
さまざまな形状のテキストの一般的なラベリング方法であり、ラベリングコストが低くなります。
実験の結果,提案手法は弱ラベル法と元のポリゴン系ラベリング法との間の性能ギャップを橋渡しすることを示した。
論文 参考訳(メタデータ) (2020-12-09T13:14:53Z) - ContourNet: Taking a Further Step toward Accurate Arbitrary-shaped Scene
Text Detection [147.10751375922035]
本研究では,シーンテキストの偽陽性と大規模分散を効果的に処理するContourNetを提案する。
本手法は,両方向の応答値の高い予測を出力するだけで,これらの偽陽性を効果的に抑制する。
論文 参考訳(メタデータ) (2020-04-10T08:15:23Z) - Text Perceptron: Towards End-to-End Arbitrary-Shaped Text Spotting [49.768327669098674]
テキストパーセプトロン(Text Perceptron)という,エンドツーエンドのトレーニング可能なテキストスポッティング手法を提案する。
まず、テキスト読解順序と境界情報を学ぶ効率的なセグメンテーションベースのテキスト検出器を用いる。
次に、検出された特徴領域を正規形態に変換するために、新しい形状変換モジュール(STM)を設計する。
論文 参考訳(メタデータ) (2020-02-17T08:07:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。