論文の概要: Arbitrary-Shaped Text Detection withAdaptive Text Region Representation
- arxiv url: http://arxiv.org/abs/2104.00297v1
- Date: Thu, 1 Apr 2021 07:06:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-02 13:40:20.182107
- Title: Arbitrary-Shaped Text Detection withAdaptive Text Region Representation
- Title(参考訳): 適応テキスト領域表現を用いた任意形テキスト検出
- Authors: Xiufeng Jiang, Shugong Xu (Fellow, IEEE), Shunqing Zhang (Senior
Member, IEEE), and Shan Cao
- Abstract要約: 密な隣接テキストインスタンスを正確に検出できる堅牢なパイプラインを備えた,新しいテキスト領域表現手法を提案する。
新しいtextregion表現が有効であり、パイプラインが軌道形状の近接したテキストインスタンスを正確に検出できることを実証します。
- 参考スコア(独自算出の注目度): 1.4546816913520362
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text detection/localization, as an important task in computer vision, has
witnessed substantialadvancements in methodology and performance with
convolutional neural networks. However, the vastmajority of popular methods use
rectangles or quadrangles to describe text regions. These representationshave
inherent drawbacks, especially relating to dense adjacent text and loose
regional text boundaries,which usually cause difficulty detecting arbitrarily
shaped text. In this paper, we propose a novel text regionrepresentation
method, with a robust pipeline, which can precisely detect dense adjacent text
instances witharbitrary shapes. We consider a text instance to be composed of
an adaptive central text region mask anda corresponding expanding ratio between
the central text region and the full text region. More specifically,our
pipeline generates adaptive central text regions and corresponding expanding
ratios with a proposedtraining strategy, followed by a new proposed
post-processing algorithm which expands central text regionsto the complete
text instance with the corresponding expanding ratios. We demonstrated that our
new textregion representation is effective, and that the pipeline can precisely
detect closely adjacent text instances ofarbitrary shapes. Experimental results
on common datasets demonstrate superior performance o
- Abstract(参考訳): コンピュータビジョンにおける重要なタスクであるテキスト検出/局所化は、畳み込みニューラルネットワークによる方法論と性能の大幅な進歩を目撃している。
しかし、一般的な方法の大多数は長方形や四角形を使ってテキスト領域を記述している。
これらの表現は固有の欠点、特に密接な隣接テキストと緩やかな地域テキスト境界に関するものであり、通常は任意の形のテキストを検出するのが困難である。
本稿では, 隣接したテキストを任意形状で高精度に検出できる, 頑健なパイプラインを用いた新しいテキスト領域表現法を提案する。
テキストインスタンスは、適応型中央テキスト領域マスクと、中央テキスト領域と全テキスト領域との伸長比とからなると考えられる。
より具体的には、我々のパイプラインは適応的な中央テキスト領域と対応する拡張比をトレーニング戦略で生成し、続いて、対応する拡張比で中央テキスト領域を全テキストインスタンスに拡張する新しい後処理アルゴリズムを提案する。
我々は,新しいテキスト領域表現が有効であることを実証し,そのパイプラインが近接するテキストインスタンスの構内形状を正確に検出できることを示した。
共通データセットにおける実験結果はoに優れた性能を示す
関連論文リスト
- Region Prompt Tuning: Fine-grained Scene Text Detection Utilizing Region Text Prompt [10.17947324152468]
リージョンプロンプトチューニング手法は、領域テキストプロンプトを個々の文字に分解し、視覚特徴マップを領域視覚トークンに分割する。
これにより、文字はトークンの局所的な特徴と一致し、詳細な特徴やきめ細かいテキストが省略されるのを避けることができる。
提案手法は,画像テキストプロセスから得られた一般的なスコアマップと,文字とトークンのマッチングから得られた領域スコアマップを組み合わせる。
論文 参考訳(メタデータ) (2024-09-20T15:24:26Z) - RTGen: Generating Region-Text Pairs for Open-Vocabulary Object Detection [20.630629383286262]
オープン・ボキャブラリ・オブジェクト検出は、地域-セマンティック関係のソリッド・モデリングを必要とする。
拡張性のあるオープン語彙領域-テキストペアを生成するRTGenを提案する。
論文 参考訳(メタデータ) (2024-05-30T09:03:23Z) - Text Region Multiple Information Perception Network for Scene Text
Detection [19.574306663095243]
本稿では,セグメント化に基づくアルゴリズムの検出性能を高めるために,RMIPM (Regional Multiple Information Perception Module) と呼ばれるプラグアンドプレイモジュールを提案する。
具体的には,テキストフォアグラウンド分類マップ,距離マップ,方向マップなど,シーンテキスト領域に関する様々な情報を知覚できる改良されたモジュールを設計する。
論文 参考訳(メタデータ) (2024-01-18T14:36:51Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - CORE-Text: Improving Scene Text Detection with Contrastive Relational
Reasoning [65.57338873921168]
自然界におけるテキストインスタンスのローカライズは、コンピュータビジョンにおける根本的な課題であると考えられている。
本研究では,サブテキスト問題を定量的に解析し,シンプルで効果的な設計であるContrastive Relation(CORE)モジュールを提案する。
我々は、COREモジュールをMask R-CNNの2段階テキスト検出器に統合し、テキスト検出器CORE-Textを考案する。
論文 参考訳(メタデータ) (2021-12-14T16:22:25Z) - RayNet: Real-time Scene Arbitrary-shape Text Detection with Multiple
Rays [84.15123599963239]
RayNetと呼ばれる任意の形状のテキスト検出のための新しい検出フレームワークを提案する。
RayNet はテキストに適合するために Center Point Set (CPS) と Ray Distance (RD) を使用し、テキストの一般的な位置を決定するために CPS を使用し、RD を CPS と組み合わせてRay Points (RP) を計算し、テキストの正確な形状をローカライズする。
RayNetは、既存の曲面テキストデータセット(CTW1500)と四角テキストデータセット(ICDAR2015)で素晴らしいパフォーマンスを達成する
論文 参考訳(メタデータ) (2021-04-11T03:03:23Z) - ContourNet: Taking a Further Step toward Accurate Arbitrary-shaped Scene
Text Detection [147.10751375922035]
本研究では,シーンテキストの偽陽性と大規模分散を効果的に処理するContourNetを提案する。
本手法は,両方向の応答値の高い予測を出力するだけで,これらの偽陽性を効果的に抑制する。
論文 参考訳(メタデータ) (2020-04-10T08:15:23Z) - Text Perceptron: Towards End-to-End Arbitrary-Shaped Text Spotting [49.768327669098674]
テキストパーセプトロン(Text Perceptron)という,エンドツーエンドのトレーニング可能なテキストスポッティング手法を提案する。
まず、テキスト読解順序と境界情報を学ぶ効率的なセグメンテーションベースのテキスト検出器を用いる。
次に、検出された特徴領域を正規形態に変換するために、新しい形状変換モジュール(STM)を設計する。
論文 参考訳(メタデータ) (2020-02-17T08:07:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。