論文の概要: CentripetalText: An Efficient Text Instance Representation for Scene
Text Detection
- arxiv url: http://arxiv.org/abs/2107.05945v1
- Date: Tue, 13 Jul 2021 09:34:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-14 14:41:26.470165
- Title: CentripetalText: An Efficient Text Instance Representation for Scene
Text Detection
- Title(参考訳): CentripetalText: シーンテキスト検出のための効率的なテキストインスタンス表現
- Authors: Tao Sheng, Jie Chen, Zhouhui Lian
- Abstract要約: 我々はCentripetalText (CT) という名前の効率的なテキストインスタンス表現を提案する。
CTはテキストインスタンスをテキストカーネルと中心シフトの組み合わせに分解する。
シーンテキスト検出の課題に対して,本手法は既存の手法に比べて優れた,あるいは競合的な性能を発揮する。
- 参考スコア(独自算出の注目度): 19.69057252363207
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Scene text detection remains a grand challenge due to the variation in text
curvatures, orientations, and aspect ratios. One of the most intractable
problems is how to represent text instances of arbitrary shapes. Although many
state-of-the-art methods have been proposed to model irregular texts in a
flexible manner, most of them lose simplicity and robustness. Their complicated
post-processings and the regression under Dirac delta distribution undermine
the detection performance and the generalization ability. In this paper, we
propose an efficient text instance representation named CentripetalText (CT),
which decomposes text instances into the combination of text kernels and
centripetal shifts. Specifically, we utilize the centripetal shifts to
implement the pixel aggregation, which guide the external text pixels to the
internal text kernels. The relaxation operation is integrated into the dense
regression for centripetal shifts, allowing the correct prediction in a range,
not a specific value. The convenient reconstruction of the text contours and
the tolerance of the prediction errors in our method guarantee the high
detection accuracy and the fast inference speed respectively. Besides, we
shrink our text detector into a proposal generation module, namely
CentripetalText Proposal Network (CPN), replacing SPN in Mask TextSpotter v3
and producing more accurate proposals. To validate the effectiveness of our
designs, we conduct experiments on several commonly used scene text benchmarks,
including both curved and multi-oriented text datasets. For the task of scene
text detection, our approach achieves superior or competitive performance
compared to other existing methods, e.g., F-measure of 86.3% at 40.0 FPS on
Total-Text, F-measure of 86.1% at 34.8 FPS on MSRA-TD500, etc. For the task of
end-to-end scene text recognition, we outperform Mask TextSpotter v3 by 1.1% on
Total-Text.
- Abstract(参考訳): テキストの曲率、向き、アスペクト比の変動のため、シーンテキスト検出は依然として大きな課題である。
最も難解な問題の1つは、任意の形状のテキストインスタンスをどのように表現するかである。
多くの最先端の手法が不規則テキストを柔軟にモデル化するために提案されているが、そのほとんどは単純さと堅牢さを失う。
これらの複雑な後処理とディラックデルタ分布下での回帰は検出性能と一般化能力を損なう。
本稿では,テキストインスタンスをテキストカーネルと中心的なシフトの組み合わせに分解する,CentripetalText (CT) という効率的なテキストインスタンス表現を提案する。
具体的には、外部のテキストピクセルを内部テキストカーネルに誘導する画素アグリゲーションを実装するために、遠心シフトを利用する。
緩和操作は遠心シフトの密回帰に積分され、特定の値ではなく範囲で正確な予測が可能となる。
本手法では,テキスト輪郭の簡易な再構築と予測誤差の許容により,高い検出精度と高速推論速度が保証される。
さらに、テキスト検出器をCentripetalText Proposal Network (CPN) という提案生成モジュールに縮小し、Mask TextSpotter v3のSPNを置き換えるとともに、より正確な提案を生成する。
提案手法の有効性を検証するため,曲面および多目的テキストデータセットを含む複数のシーンテキストベンチマークを用いて実験を行った。
シーンテキスト検出では,f-measureが40.0 fps,f-measureが86.3%,f-measureが86.1%,msra-td500が34.8 fps,など,既存の手法と比較して優れているか,競争力がある。
エンド・ツー・エンドのシーンテキスト認識のタスクでは、全テキストでMask TextSpotter v3を1.1%上回ります。
関連論文リスト
- EAFormer: Scene Text Segmentation with Edge-Aware Transformers [56.15069996649572]
シーンテキストセグメンテーションは、通常、生成モデルがテキストの編集や削除を支援するために使用されるシーンイメージからテキストを抽出することを目的としている。
本稿では,特にテキストのエッジにおいて,テキストをより正確にセグメント化するためのエッジ対応変換器EAFormerを提案する。
論文 参考訳(メタデータ) (2024-07-24T06:00:33Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - DPText-DETR: Towards Better Scene Text Detection with Dynamic Points in
Transformer [94.35116535588332]
ポリゴン点やベジエ曲線制御点を予測してテキストをローカライズするトランスフォーマーベースの手法は、シーンテキストの検出で非常に人気がある。
しかし、使用点ラベル形式は、トランスフォーマーモデルの堅牢性に影響を与える人間の読み順を意味する。
本稿では,DPText-DETRを提案する。これはクエリとしてポイント座標を直接使用し,デコーダ層間で動的に更新する。
論文 参考訳(メタデータ) (2022-07-10T15:45:16Z) - TextDCT: Arbitrary-Shaped Text Detection via Discrete Cosine Transform
Mask [19.269070203448187]
任意形状のシーンテキスト検出は、フォント、サイズ、色、方向のさまざまな変更があるため、難しい作業である。
本研究では,テキストマスクをコンパクトなベクトルとして符号化する離散コサイン変換(DCT)を採用した,新しい軽量アンカーフリーテキスト検出フレームワークTextDCTを提案する。
TextDCTは、毎秒17.2フレームで85.1、CTW1500の15.1FPSで84.9、トータルテキストデータセットで84.9のF測定を実現している。
論文 参考訳(メタデータ) (2022-06-27T15:42:25Z) - Few Could Be Better Than All: Feature Sampling and Grouping for Scene
Text Detection [47.820683360286786]
本稿では,シーンテキスト検出のためのトランスフォーマーアーキテクチャを提案する。
まず、フォアグラウンドテキストに非常に関係のある、あらゆるスケールでいくつかの代表的特徴を選択します。
各特徴群がテキストインスタンスに対応するため、そのバウンディングボックスは後処理操作なしで容易に得ることができる。
論文 参考訳(メタデータ) (2022-03-29T04:02:31Z) - Arbitrary Shape Text Detection using Transformers [2.294014185517203]
変換器(DETR)を用いた任意の字形テキスト検出のためのエンドツーエンドのトレーニング可能なアーキテクチャを提案する。
提案手法は,任意の検出されたテキスト領域のスケールとアスペクト比の変化を正確に測定する境界ボックス損失関数を利用する。
曲面テキストのTotal-TextおよびCTW-1500データセットと、多目的テキストのMSRA-TD500およびICDAR15データセットを用いて、提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-02-22T22:36:29Z) - PAN++: Towards Efficient and Accurate End-to-End Spotting of
Arbitrarily-Shaped Text [85.7020597476857]
自然場面における任意の形状のテキストを効率的に検出し認識できる,エンドツーエンドのテキストスポッティングフレームワークpan++を提案する。
PAN++は、テキスト行を周辺ピクセルに囲まれたテキストカーネル(中央領域)として再構成するカーネル表現に基づいている。
ピクセルベースの表現として、カーネル表現は1つの完全な畳み込みネットワークによって予測できる。
論文 参考訳(メタデータ) (2021-05-02T07:04:30Z) - Mask TextSpotter v3: Segmentation Proposal Network for Robust Scene Text
Spotting [71.6244869235243]
ほとんどの任意形状のシーンテキストスポッターは、地域提案ネットワーク(RPN)を使用して提案を作成する。
Mask TextSpotter v3は、極端なアスペクト比や不規則な形状のテキストインスタンスを処理できます。
論文 参考訳(メタデータ) (2020-07-18T17:25:50Z) - Text Perceptron: Towards End-to-End Arbitrary-Shaped Text Spotting [49.768327669098674]
テキストパーセプトロン(Text Perceptron)という,エンドツーエンドのトレーニング可能なテキストスポッティング手法を提案する。
まず、テキスト読解順序と境界情報を学ぶ効率的なセグメンテーションベースのテキスト検出器を用いる。
次に、検出された特徴領域を正規形態に変換するために、新しい形状変換モジュール(STM)を設計する。
論文 参考訳(メタデータ) (2020-02-17T08:07:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。