論文の概要: SPTS: Single-Point Text Spotting
- arxiv url: http://arxiv.org/abs/2112.07917v1
- Date: Wed, 15 Dec 2021 06:44:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-16 23:54:53.057080
- Title: SPTS: Single-Point Text Spotting
- Title(参考訳): SPTS:シングルポイントテキストスポッティング
- Authors: Dezhi Peng, Xinyu Wang, Yuliang Liu, Jiaxin Zhang, Mingxin Huang,
Songxuan Lai, Shenggao Zhu, Jing Li, Dahua Lin, Chunhua Shen, Lianwen Jin
- Abstract要約: トレーニングシーンのテキストスポッティングモデルは,インスタンスごとの単一点の極めて低コストなアノテーションによって実現可能であることを示す。
本稿では,シーンテキストスポッティングをシーケンス予測タスクとするエンドツーエンドのシーンテキストスポッティング手法を提案する。
- 参考スコア(独自算出の注目度): 128.52900104146028
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Almost all scene text spotting (detection and recognition) methods rely on
costly box annotation (e.g., text-line box, word-level box, and character-level
box). For the first time, we demonstrate that training scene text spotting
models can be achieved with an extremely low-cost annotation of a single-point
for each instance. We propose an end-to-end scene text spotting method that
tackles scene text spotting as a sequence prediction task, like language
modeling. Given an image as input, we formulate the desired detection and
recognition results as a sequence of discrete tokens and use an auto-regressive
transformer to predict the sequence. We achieve promising results on several
horizontal, multi-oriented, and arbitrarily shaped scene text benchmarks. Most
significantly, we show that the performance is not very sensitive to the
positions of the point annotation, meaning that it can be much easier to be
annotated and automatically generated than the bounding box that requires
precise positions. We believe that such a pioneer attempt indicates a
significant opportunity for scene text spotting applications of a much larger
scale than previously possible.
- Abstract(参考訳): ほとんどすべてのシーンテキストスポッティング(検出と認識)手法はコストの高いボックスアノテーション(テキスト行ボックス、ワードレベルボックス、文字レベルボックスなど)に依存している。
学習シーンのテキストスポッティングモデルを,各インスタンスの単一ポイントの極めて低コストなアノテーションで実現できることを,初めて実証した。
本稿では,シーンテキストスポッティングを言語モデルのようなシーケンス予測タスクとして扱う,エンドツーエンドのシーンテキストスポッティング手法を提案する。
入力として画像が与えられると、所望の検知および認識結果を離散トークンの列として定式化し、自動回帰変換器を用いてシーケンスを予測する。
複数の水平・多目的・任意形状のシーンテキストベンチマークで有望な結果が得られる。
最も顕著なことは、性能がポイントアノテーションの位置にあまり敏感でないことを示し、正確な位置を必要とするバウンディングボックスよりも注釈付けや自動生成がずっと容易であることを意味する。
このような先駆的な試みは、以前よりもはるかに大規模なシーンテキストスポッティングの応用の可能性を示していると我々は信じている。
関連論文リスト
- TextBlockV2: Towards Precise-Detection-Free Scene Text Spotting with Pre-trained Language Model [17.77384627944455]
既存のシーンテキストスポッターは、画像からテキストを見つけて書き起こすように設計されている。
提案するシーンテキストスポッターは、高度なPLMを活用して、きめ細かい検出を行うことなく性能を向上させる。
PLMベースの認識モジュールは、事前学習期間中に得られた包括的な言語知識から恩恵を受け、複雑なシナリオを効果的に処理する。
論文 参考訳(メタデータ) (2024-03-15T06:38:25Z) - DeepSolo++: Let Transformer Decoder with Explicit Points Solo for Multilingual Text Spotting [112.45423990924283]
DeepSolo++は単純なDETRライクなベースラインで、テキスト検出、認識、スクリプト識別を同時に行うために、明示的なポイントを持つ1つのデコーダを単独で使用することができる。
本手法は、英語のシーンだけでなく、複雑なフォント構造と中国語などの1000レベルの文字クラスで書き起こしを習得する。
論文 参考訳(メタデータ) (2023-05-31T15:44:00Z) - Towards Unified Scene Text Spotting based on Sequence Generation [4.437335677401287]
UNIfied scene Text Spotter(UNITS)を提案する。
我々のモデルは四角形や多角形を含む様々な検出形式を統一する。
任意の開始点からテキストを抽出するために、開始点プロンプトを適用する。
論文 参考訳(メタデータ) (2023-04-07T01:28:08Z) - SPTS v2: Single-Point Scene Text Spotting [146.98118405786445]
新たなフレームワークであるSPTS v2では,単一ポイントアノテーションを用いて高いパフォーマンスのテキストスポッティングモデルをトレーニングすることができる。
SPTS v2は、より少ないパラメータで従来の最先端のシングルポイントテキストスポッターより優れていることを示す。
実験により、シーンテキストスポッティングにおける単一点表現の潜在的好みが示唆される。
論文 参考訳(メタデータ) (2023-01-04T14:20:14Z) - DeepSolo: Let Transformer Decoder with Explicit Points Solo for Text
Spotting [129.73247700864385]
DeepSoloは単純な検出トランスフォーマーのベースラインで、テキスト検出と認識を同時に行うためのExplicit Points Soloを備えた1つのデコーダを提供する。
我々は、より正確な監視信号を提供するためにテキストマッチング基準を導入し、より効率的な訓練を可能にした。
論文 参考訳(メタデータ) (2022-11-19T19:06:22Z) - DPText-DETR: Towards Better Scene Text Detection with Dynamic Points in
Transformer [94.35116535588332]
ポリゴン点やベジエ曲線制御点を予測してテキストをローカライズするトランスフォーマーベースの手法は、シーンテキストの検出で非常に人気がある。
しかし、使用点ラベル形式は、トランスフォーマーモデルの堅牢性に影響を与える人間の読み順を意味する。
本稿では,DPText-DETRを提案する。これはクエリとしてポイント座標を直接使用し,デコーダ層間で動的に更新する。
論文 参考訳(メタデータ) (2022-07-10T15:45:16Z) - Few Could Be Better Than All: Feature Sampling and Grouping for Scene
Text Detection [47.820683360286786]
本稿では,シーンテキスト検出のためのトランスフォーマーアーキテクチャを提案する。
まず、フォアグラウンドテキストに非常に関係のある、あらゆるスケールでいくつかの代表的特徴を選択します。
各特徴群がテキストインスタンスに対応するため、そのバウンディングボックスは後処理操作なしで容易に得ることができる。
論文 参考訳(メタデータ) (2022-03-29T04:02:31Z) - Scene Text Detection with Scribble Lines [59.698806258671105]
テキスト検出のための多角形の代わりにスクリブル線でテキストをアノテートすることを提案する。
さまざまな形状のテキストの一般的なラベリング方法であり、ラベリングコストが低くなります。
実験の結果,提案手法は弱ラベル法と元のポリゴン系ラベリング法との間の性能ギャップを橋渡しすることを示した。
論文 参考訳(メタデータ) (2020-12-09T13:14:53Z) - MANGO: A Mask Attention Guided One-Stage Scene Text Spotter [41.66707532607276]
MANGOという,新しいMask AttentioN Guided One-stage text Spotting frameworkを提案する。
提案手法は,正規テキストスポッティングベンチマークと不規則テキストスポッティングベンチマークの両方において,競争力と新たな最先端性能を実現する。
論文 参考訳(メタデータ) (2020-12-08T10:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。