論文の概要: Conceptual Text Region Network: Cognition-Inspired Accurate Scene Text
Detection
- arxiv url: http://arxiv.org/abs/2103.09179v1
- Date: Tue, 16 Mar 2021 16:28:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-17 13:26:17.312171
- Title: Conceptual Text Region Network: Cognition-Inspired Accurate Scene Text
Detection
- Title(参考訳): 概念テキスト領域ネットワーク:認知にインスパイアされた正確なシーンテキスト検出
- Authors: Chenwei Cui, Liangfu Lu, Zhiyuan Tan, Amir Hussain
- Abstract要約: 概念テキスト領域ネットワーク (Conceptual Text Region Network, CTRNet) を提案する。
CTRNetは、優れた数学的特性を継承する認知ベースのツールのクラスであるCTR(Conceptual Text Regions)を利用して、洗練されたラベルデザインを可能にします。
CTRNetは、ベンチマークCTW1500、Total-Text、MSRA-TD500、ICDAR 2015データセットで最新のパフォーマンスを達成し、最大2.0%のパフォーマンス向上を実現します。
- 参考スコア(独自算出の注目度): 7.716899861923764
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Segmentation-based methods are widely used for scene text detection due to
their superiority in describing arbitrary-shaped text instances. However, two
major problems still exist: 1) current label generation techniques are mostly
empirical and lack theoretical support, discouraging elaborate label design; 2)
as a result, most methods rely heavily on text kernel segmentation which is
unstable and requires deliberate tuning. To address these challenges, we
propose a human cognition-inspired framework, termed, Conceptual Text Region
Network (CTRNet). The framework utilizes Conceptual Text Regions (CTRs), which
is a class of cognition-based tools inheriting good mathematical properties,
allowing for sophisticated label design. Another component of CTRNet is an
inference pipeline that, with the help of CTRs, completely omits the need for
text kernel segmentation. Compared with previous segmentation-based methods,
our approach is not only more interpretable but also more accurate.
Experimental results show that CTRNet achieves state-of-the-art performance on
benchmark CTW1500, Total-Text, MSRA-TD500, and ICDAR 2015 datasets, yielding
performance gains of up to 2.0%. Notably, to the best of our knowledge, CTRNet
is among the first detection models to achieve F-measures higher than 85.0% on
all four of the benchmarks, with remarkable consistency and stability.
- Abstract(参考訳): セグメンテーションに基づく手法は、任意の形のテキストインスタンスを記述する際の優位性から、シーンテキストの検出に広く用いられている。
しかしながら,1) 現在のラベル生成技術は経験的であり, 理論的なサポートが欠如しているため, 詳細なラベル設計が避けられ, その結果, ほとんどの手法は不安定で意図的なチューニングを必要とするテキストカーネルセグメンテーションに大きく依存している。
これらの課題に対処するために,我々は,概念的テキスト領域ネットワーク(ctrnet)という,人間の認知に触発されたフレームワークを提案する。
このフレームワークは、優れた数学的特性を継承する認知ベースのツールのクラスである概念テキスト領域(ctrs)を使用し、洗練されたラベル設計を可能にする。
CTRNetのもうひとつのコンポーネントは、CTRの助けを借りて、テキストカーネルセグメンテーションの必要性を完全に省略する推論パイプラインである。
従来のセグメンテーション法と比較して,本手法は解釈可能なだけでなく,精度も高い。
CTRNetはベンチマークCTW1500, Total-Text, MSRA-TD500, ICDAR 2015データセットで最先端のパフォーマンスを実現し, 最大2.0%の性能向上を実現している。
我々の知る限りでは、CTRNetは4つのベンチマークで85.0%以上のF測定を達成した最初の検出モデルの一つであり、顕著な一貫性と安定性を備えている。
関連論文リスト
- SVTRv2: CTC Beats Encoder-Decoder Models in Scene Text Recognition [77.28814034644287]
CTCモデルであるSVTRv2を提案する。
SVTRv2は、テキストの不規則性に対処し、言語コンテキストを利用するための新しいアップグレードを導入した。
我々は,SVTRv2を標準ベンチマークと最近のベンチマークの両方で評価した。
論文 参考訳(メタデータ) (2024-11-24T14:21:35Z) - Towards Robust Real-Time Scene Text Detection: From Semantic to Instance
Representation Learning [19.856492291263102]
リアルタイムなシーンテキスト検出のための表現学習を提案する。
意味表現学習のために,GDSC(Global-dense semantic contrast)とトップダウンモデリング(TDM)を提案する。
提案したGDSCとTDMにより、推論中にパラメータや計算を導入することなく、エンコーダネットワークはより強力な表現を学習する。
提案手法は,全テキスト上で48.2FPS,MSRA-TD500で89.6%FPS,MSRA-TD500で36.9FPS,87.2%FPSを達成する。
論文 参考訳(メタデータ) (2023-08-14T15:14:37Z) - CBNet: A Plug-and-Play Network for Segmentation-Based Scene Text Detection [13.679267531492062]
本稿では,これらの問題に対処するためのコンテキスト認識および境界誘導ネットワーク(CBN)を提案する。
CBNでは、最初のセグメンテーション結果を予測するために、まず基本的なテキスト検出器が使用される。
最後に,輪郭上の画素のみに適応的に拡張されたテキストカーネルを拡張するための境界誘導モジュールを提案する。
論文 参考訳(メタデータ) (2022-12-05T15:15:27Z) - Real-Time Scene Text Detection with Differentiable Binarization and
Adaptive Scale Fusion [62.269219152425556]
セグメンテーションに基づくシーンテキスト検出手法はシーンテキスト検出分野において大きな注目を集めている。
本稿では,二項化処理をセグメンテーションネットワークに統合する分散二項化(DB)モジュールを提案する。
アダプティブ・スケール・フュージョン (ASF) モジュールは, 異なるスケールの特徴を適応的に融合させることにより, スケールのロバスト性を向上させる。
論文 参考訳(メタデータ) (2022-02-21T15:30:14Z) - On Exploring and Improving Robustness of Scene Text Detection Models [20.15225372544634]
我々はシーンテキスト検出モデル ICDAR2015-C (IC15-C) と CTW1500-C (CTW-C) を評価した。
我々は、事前学習データ、バックボーン、機能融合モジュール、マルチスケール予測、テキストインスタンスの表現、損失関数の6つの重要なコンポーネントのロバストネス分析を行う。
本研究では,背景と前景を融合することでテキスト領域の滑らかさを破壊する,シンプルで効果的なデータベース手法を提案する。
論文 参考訳(メタデータ) (2021-10-12T02:36:48Z) - K-Net: Towards Unified Image Segmentation [78.32096542571257]
K-Netと名付けられたこのフレームワークは、学習可能なカーネルのグループによってインスタンスとセマンティックカテゴリの両方を一貫して分割する。
K-Netは双方向マッチングでエンドツーエンドでトレーニングすることができ、そのトレーニングと推論は自然にNMSフリーで、ボックスフリーである。
論文 参考訳(メタデータ) (2021-06-28T17:18:21Z) - PGNet: Real-time Arbitrarily-Shaped Text Spotting with Point Gathering
Network [54.03560668182197]
任意形状のテキストをリアルタイムで読み取るための,完全畳み込み点収集ネットワーク(PGNet)を提案する。
PG-CTCデコーダを用いて2次元空間から高レベル文字分類ベクトルを収集し,NMSやRoI操作を使わずにテキストシンボルに復号する。
実験により,提案手法は競争精度が向上し,走行速度が著しく向上することが確認された。
論文 参考訳(メタデータ) (2021-04-12T13:27:34Z) - Towards Accurate Scene Text Recognition with Semantic Reasoning Networks [52.86058031919856]
本稿では,シーンテキスト認識のための意味推論ネットワーク(SRN)という,エンドツーエンドのトレーニング可能な新しいフレームワークを提案する。
GSRMはマルチウェイ並列伝送によってグローバルセマンティックコンテキストをキャプチャするために導入された。
正規テキスト,不規則テキスト,非ラテン語長文を含む7つの公開ベンチマークの結果,提案手法の有効性とロバスト性を検証した。
論文 参考訳(メタデータ) (2020-03-27T09:19:25Z) - Text Perceptron: Towards End-to-End Arbitrary-Shaped Text Spotting [49.768327669098674]
テキストパーセプトロン(Text Perceptron)という,エンドツーエンドのトレーニング可能なテキストスポッティング手法を提案する。
まず、テキスト読解順序と境界情報を学ぶ効率的なセグメンテーションベースのテキスト検出器を用いる。
次に、検出された特徴領域を正規形態に変換するために、新しい形状変換モジュール(STM)を設計する。
論文 参考訳(メタデータ) (2020-02-17T08:07:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。