論文の概要: TPSNet: Thin-Plate-Spline Representation for Arbitrary Shape Scene Text
Detection
- arxiv url: http://arxiv.org/abs/2110.12826v1
- Date: Mon, 25 Oct 2021 11:47:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-26 16:41:22.353041
- Title: TPSNet: Thin-Plate-Spline Representation for Arbitrary Shape Scene Text
Detection
- Title(参考訳): TPSNet:任意形状シーンテキスト検出のための薄膜スプライン表現
- Authors: Wei Wang
- Abstract要約: TPS(Thin-Plate-Spline)変換はシーンテキスト認識において大きな成功を収めている。
TPS表現はコンパクトで完全で、完全である。
境界集合損失と形状アライメント損失を含む2つの新しい損失を提案する。
- 参考スコア(独自算出の注目度): 4.8345307057837354
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The research focus of scene text detection has shifted to arbitrary shape
text in recent years, in which text representation is a fundamental problem. An
ideal representation should be compact, complete, integral, and reusable for
subsequent recognition in our opinion. However, previous representations suffer
from one or several aspects. Thin-Plate-Spline (TPS) transformation has
achieved great success in scene text recognition. Inspired from this, we
reversely think its usage and sophisticatedly take TPS as an exquisite
representation for arbitrary shape text detection. The TPS representation is
compact, complete and integral, and with the predicted TPS parameters, the
detected text region can be rectified to near-horizontal one which is
beneficial for subsequent recognition. To solve the supervision problem of TPS
training without key point annotations, two novel losses including the boundary
set loss and the shape alignment loss are proposed. Extensive evaluation and
ablation on several public benchmarks demonstrate the effectiveness and
superiority of the proposed method.
- Abstract(参考訳): 近年,シーンテキスト検出の研究の焦点は任意の形状のテキストへとシフトし,テキスト表現が根本的な問題となっている。
理想表現はコンパクトで完全で、積分的で、我々の意見ではその後の認識のために再利用可能なものであるべきである。
しかし、以前の表現は1つまたは複数の側面に苦しむ。
TPS変換はシーンテキスト認識において大きな成功を収めている。
これから着想を得て,TPSを任意の形状のテキスト検出のための精巧な表現として用いた。
TPS表現はコンパクトで完全かつ完全であり、予測されたTPSパラメータにより、検出されたテキスト領域を、後続の認識に有用な準水平領域に修正することができる。
キーポイントアノテーションを使わずにTPSトレーニングの監視問題を解決するために,境界セット損失と形状アライメント損失を含む2つの新たな損失を提案する。
いくつかの公開ベンチマークにおける広範囲な評価とアブレーションは,提案手法の有効性と優越性を示している。
関連論文リスト
- TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - TPS++: Attention-Enhanced Thin-Plate Spline for Scene Text Recognition [78.67283660198403]
テキストの不規則性は、シーンテキスト認識者に重大な課題をもたらす。
TPS++は、テキストの修正にアテンションメカニズムを組み込んだ、アテンション強化TPS変換である。
常に認識を改善し、最先端の精度を達成する。
論文 参考訳(メタデータ) (2023-05-09T10:16:43Z) - Few Could Be Better Than All: Feature Sampling and Grouping for Scene
Text Detection [47.820683360286786]
本稿では,シーンテキスト検出のためのトランスフォーマーアーキテクチャを提案する。
まず、フォアグラウンドテキストに非常に関係のある、あらゆるスケールでいくつかの代表的特徴を選択します。
各特徴群がテキストインスタンスに対応するため、そのバウンディングボックスは後処理操作なしで容易に得ることができる。
論文 参考訳(メタデータ) (2022-03-29T04:02:31Z) - Towards Weakly-Supervised Text Spotting using a Multi-Task Transformer [21.479222207347238]
テキストスポッティングのための変換器ベースのアプローチであるTextTranSpotter(TTS)を紹介する。
TTSは、完全に管理された設定と弱い設定の両方で訓練される。
TextTranSpotterは、完全に教師された方法でトレーニングされ、複数のベンチマークで最先端の結果を表示する。
論文 参考訳(メタデータ) (2022-02-11T08:50:09Z) - Which and Where to Focus: A Simple yet Accurate Framework for
Arbitrary-Shaped Nearby Text Detection in Scene Images [8.180563824325086]
そこで本研究では,任意の形状の近接するシーンテキスト検出のための簡易かつ効果的な手法を提案する。
OMTS(One-to-Many Training Scheme)は、混乱を排除し、提案がより適切な基盤構造を学べるように設計されている。
また,提案提案に対してより効果的な機能を利用するために,提案機能注意モジュール(PFAM)を提案する。
論文 参考訳(メタデータ) (2021-09-08T06:25:37Z) - PAN++: Towards Efficient and Accurate End-to-End Spotting of
Arbitrarily-Shaped Text [85.7020597476857]
自然場面における任意の形状のテキストを効率的に検出し認識できる,エンドツーエンドのテキストスポッティングフレームワークpan++を提案する。
PAN++は、テキスト行を周辺ピクセルに囲まれたテキストカーネル(中央領域)として再構成するカーネル表現に基づいている。
ピクセルベースの表現として、カーネル表現は1つの完全な畳み込みネットワークによって予測できる。
論文 参考訳(メタデータ) (2021-05-02T07:04:30Z) - ContourNet: Taking a Further Step toward Accurate Arbitrary-shaped Scene
Text Detection [147.10751375922035]
本研究では,シーンテキストの偽陽性と大規模分散を効果的に処理するContourNetを提案する。
本手法は,両方向の応答値の高い予測を出力するだけで,これらの偽陽性を効果的に抑制する。
論文 参考訳(メタデータ) (2020-04-10T08:15:23Z) - Text Perceptron: Towards End-to-End Arbitrary-Shaped Text Spotting [49.768327669098674]
テキストパーセプトロン(Text Perceptron)という,エンドツーエンドのトレーニング可能なテキストスポッティング手法を提案する。
まず、テキスト読解順序と境界情報を学ぶ効率的なセグメンテーションベースのテキスト検出器を用いる。
次に、検出された特徴領域を正規形態に変換するために、新しい形状変換モジュール(STM)を設計する。
論文 参考訳(メタデータ) (2020-02-17T08:07:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。