論文の概要: Text Spotting Transformers
- arxiv url: http://arxiv.org/abs/2204.01918v1
- Date: Tue, 5 Apr 2022 01:05:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-06 13:35:20.920538
- Title: Text Spotting Transformers
- Title(参考訳): テキストスポッティング変換器
- Authors: Xiang Zhang, Yongwen Su, Subarna Tripathi, Zhuowen Tu
- Abstract要約: TESTRは、テキストボックス制御点回帰と文字認識のための単一のエンコーダとデュアルデコーダの上に構築されている。
本稿では、Bezier曲線とアノテーションの両方において、テキストインスタンスに適した制御点の標準表現を示す。
さらに,バウンディングボックス誘導検出プロセス(ボックス・トゥ・ポリゴン)を設計する。
- 参考スコア(独自算出の注目度): 29.970268691631333
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present TExt Spotting TRansformers (TESTR), a generic
end-to-end text spotting framework using Transformers for text detection and
recognition in the wild. TESTR builds upon a single encoder and dual decoders
for the joint text-box control point regression and character recognition.
Other than most existing literature, our method is free from Region-of-Interest
operations and heuristics-driven post-processing procedures; TESTR is
particularly effective when dealing with curved text-boxes where special cares
are needed for the adaptation of the traditional bounding-box representations.
We show our canonical representation of control points suitable for text
instances in both Bezier curve and polygon annotations. In addition, we design
a bounding-box guided polygon detection (box-to-polygon) process. Experiments
on curved and arbitrarily shaped datasets demonstrate state-of-the-art
performances of the proposed TESTR algorithm.
- Abstract(参考訳): 本稿では,テキストスポッティングトランスフォーマー(testr)について述べる。このフレームワークは,トランスフォーマーを用いた汎用的なエンドツーエンドテキストスポッティングフレームワークである。
TESTRは、テキストボックス制御点回帰と文字認識のための単一のエンコーダとデュアルデコーダの上に構築されている。
従来のバウンディングボックス表現の適応のために特別な注意が必要となる湾曲したテキストボックスを扱う場合、testrは特に効果的である。
我々は, bezier 曲線と polygon アノテーションの両方において,テキストインスタンスに適した制御点の標準表現を示す。
さらに,バウンディングボックス誘導ポリゴン検出 (box-to-polygon) プロセスの設計を行う。
曲線および任意形状のデータセットの実験は、提案したTESTRアルゴリズムの最先端性能を示す。
関連論文リスト
- EAFormer: Scene Text Segmentation with Edge-Aware Transformers [56.15069996649572]
シーンテキストセグメンテーションは、通常、生成モデルがテキストの編集や削除を支援するために使用されるシーンイメージからテキストを抽出することを目的としている。
本稿では,特にテキストのエッジにおいて,テキストをより正確にセグメント化するためのエッジ対応変換器EAFormerを提案する。
論文 参考訳(メタデータ) (2024-07-24T06:00:33Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Optimal Boxes: Boosting End-to-End Scene Text Recognition by Adjusting
Annotated Bounding Boxes via Reinforcement Learning [41.56134008044702]
Boxは、テキスト認識モデルとの互換性を高めるために、各テキスト境界ボックスの形状を調整する強化学習ベースの方法である。
実験により、調整された境界ボックスをトレーニングの真理として使用する場合、エンド・ツー・エンドのテキスト認識システムの性能を向上させることができることを示した。
論文 参考訳(メタデータ) (2022-07-25T06:58:45Z) - DPText-DETR: Towards Better Scene Text Detection with Dynamic Points in
Transformer [94.35116535588332]
ポリゴン点やベジエ曲線制御点を予測してテキストをローカライズするトランスフォーマーベースの手法は、シーンテキストの検出で非常に人気がある。
しかし、使用点ラベル形式は、トランスフォーマーモデルの堅牢性に影響を与える人間の読み順を意味する。
本稿では,DPText-DETRを提案する。これはクエリとしてポイント座標を直接使用し,デコーダ層間で動的に更新する。
論文 参考訳(メタデータ) (2022-07-10T15:45:16Z) - SwinTextSpotter: Scene Text Spotting via Better Synergy between Text
Detection and Text Recognition [73.61592015908353]
本稿では,SwinTextSpotter と呼ばれるシーンテキストスポッティングフレームワークを提案する。
動的頭部を検出器とするトランスを用いて、2つのタスクを新しい認識変換機構で統一する。
この設計は、追加の修正モジュールも文字レベルのアノテーションも必要としない簡潔なフレームワークをもたらす。
論文 参考訳(メタデータ) (2022-03-19T01:14:42Z) - Arbitrary Shape Text Detection using Transformers [2.294014185517203]
変換器(DETR)を用いた任意の字形テキスト検出のためのエンドツーエンドのトレーニング可能なアーキテクチャを提案する。
提案手法は,任意の検出されたテキスト領域のスケールとアスペクト比の変化を正確に測定する境界ボックス損失関数を利用する。
曲面テキストのTotal-TextおよびCTW-1500データセットと、多目的テキストのMSRA-TD500およびICDAR15データセットを用いて、提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-02-22T22:36:29Z) - Fourier Contour Embedding for Arbitrary-Shaped Text Detection [47.737805731529455]
任意の形状のテキスト輪郭をコンパクトシグネチャとして表現する新しい手法を提案する。
FCEは,高度に湾曲した形状であっても,シーンテキストの輪郭に適合する正確かつ堅牢であることを示す。
我々のFCENetはCTW1500やTotal-Textの最先端(SOTA)手法よりも優れている。
論文 参考訳(メタデータ) (2021-04-21T10:21:57Z) - Detection and Rectification of Arbitrary Shaped Scene Texts by using
Text Keypoints and Links [38.71967078941593]
マスク誘導マルチタスクネットワークは任意の形状のシーンテキストを確実に検出・修正する。
センタラインを指定する3種類のキーポイントが検出され、テキストインスタンスの形状が正確に決定される。
シーンテキストは、関連するランドマークポイントをリンクすることで配置および修正できます。
論文 参考訳(メタデータ) (2021-03-01T06:13:51Z) - Text Perceptron: Towards End-to-End Arbitrary-Shaped Text Spotting [49.768327669098674]
テキストパーセプトロン(Text Perceptron)という,エンドツーエンドのトレーニング可能なテキストスポッティング手法を提案する。
まず、テキスト読解順序と境界情報を学ぶ効率的なセグメンテーションベースのテキスト検出器を用いる。
次に、検出された特徴領域を正規形態に変換するために、新しい形状変換モジュール(STM)を設計する。
論文 参考訳(メタデータ) (2020-02-17T08:07:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。