論文の概要: DPText-DETR: Towards Better Scene Text Detection with Dynamic Points in
Transformer
- arxiv url: http://arxiv.org/abs/2207.04491v1
- Date: Sun, 10 Jul 2022 15:45:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-13 05:23:25.705669
- Title: DPText-DETR: Towards Better Scene Text Detection with Dynamic Points in
Transformer
- Title(参考訳): DPText-DETR:変換器の動的点によるシーンテキストの検出の改善
- Authors: Maoyuan Ye, Jing Zhang, Shanshan Zhao, Juhua Liu, Bo Du, Dacheng Tao
- Abstract要約: ポリゴン点やベジエ曲線制御点を予測してテキストをローカライズするトランスフォーマーベースの手法は、シーンテキストの検出で非常に人気がある。
しかし、使用点ラベル形式は、トランスフォーマーモデルの堅牢性に影響を与える人間の読み順を意味する。
本稿では,DPText-DETRを提案する。これはクエリとしてポイント座標を直接使用し,デコーダ層間で動的に更新する。
- 参考スコア(独自算出の注目度): 94.35116535588332
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, Transformer-based methods, which predict polygon points or Bezier
curve control points to localize texts, are quite popular in scene text
detection. However, the used point label form implies the reading order of
humans, which affects the robustness of Transformer model. As for the model
architecture, the formulation of queries used in decoder has not been fully
explored by previous methods. In this paper, we propose a concise dynamic point
scene text detection Transformer network termed DPText-DETR, which directly
uses point coordinates as queries and dynamically updates them between decoder
layers. We point out a simple yet effective positional point label form to
tackle the side effect of the original one. Moreover, an Enhanced Factorized
Self-Attention module is designed to explicitly model the circular shape of
polygon point sequences beyond non-local attention. Extensive experiments prove
the training efficiency, robustness, and state-of-the-art performance on
various arbitrary shape scene text benchmarks. Beyond detector, we observe that
existing end-to-end spotters struggle to recognize inverse-like texts. To
evaluate their performance objectively and facilitate future research, we
propose an Inverse-Text test set containing 500 manually labeled images. The
code and Inverse-Text test set will be available at
https://github.com/ymy-k/DPText-DETR.
- Abstract(参考訳): 近年,テキストのローカライズのために多角点やベジエ曲線制御ポイントを予測できるトランスフォーマティブ・ベース手法が,シーンのテキスト検出において非常に人気がある。
しかし、使用点ラベル形式は、トランスフォーマーモデルの堅牢性に影響を与える人間の読み順を意味する。
モデルアーキテクチャに関して、デコーダで使用されるクエリの定式化は、以前の方法では十分に検討されていない。
本稿では,ポイント座標を直接クエリとして使用し,デコーダ層間で動的に更新する,簡潔な動的ポイントシーン検出トランスフォーマーネットワークdptext-detrを提案する。
そこで,本論文では,原点の副作用に対処するために,単純だが効果的な位置ラベル形式を指摘する。
さらに、非局所的な注意を超えた多角形点列の円形状を明示的にモデル化する拡張因子自己保持モジュールを設計する。
様々な任意の形状のシーンテキストベンチマークにおいて、訓練効率、堅牢性、最先端性能を実証する実験が盛んである。
検出器以外にも、既存のエンドツーエンドスポッターは逆テキストを認識するのに苦労している。
その性能を客観的に評価し,今後の研究を容易にするために,500個の手動ラベル付き画像を含む逆テキストテストセットを提案する。
コードとInverse-Textテストセットはhttps://github.com/ymy-k/DPText-DETRで入手できる。
関連論文リスト
- EAFormer: Scene Text Segmentation with Edge-Aware Transformers [56.15069996649572]
シーンテキストセグメンテーションは、通常、生成モデルがテキストの編集や削除を支援するために使用されるシーンイメージからテキストを抽出することを目的としている。
本稿では,特にテキストのエッジにおいて,テキストをより正確にセグメント化するためのエッジ対応変換器EAFormerを提案する。
論文 参考訳(メタデータ) (2024-07-24T06:00:33Z) - SPTS v2: Single-Point Scene Text Spotting [146.98118405786445]
新たなフレームワークであるSPTS v2では,単一ポイントアノテーションを用いて高いパフォーマンスのテキストスポッティングモデルをトレーニングすることができる。
SPTS v2は、より少ないパラメータで従来の最先端のシングルポイントテキストスポッターより優れていることを示す。
実験により、シーンテキストスポッティングにおける単一点表現の潜在的好みが示唆される。
論文 参考訳(メタデータ) (2023-01-04T14:20:14Z) - DeepSolo: Let Transformer Decoder with Explicit Points Solo for Text
Spotting [129.73247700864385]
DeepSoloは単純な検出トランスフォーマーのベースラインで、テキスト検出と認識を同時に行うためのExplicit Points Soloを備えた1つのデコーダを提供する。
我々は、より正確な監視信号を提供するためにテキストマッチング基準を導入し、より効率的な訓練を可能にした。
論文 参考訳(メタデータ) (2022-11-19T19:06:22Z) - Few Could Be Better Than All: Feature Sampling and Grouping for Scene
Text Detection [47.820683360286786]
本稿では,シーンテキスト検出のためのトランスフォーマーアーキテクチャを提案する。
まず、フォアグラウンドテキストに非常に関係のある、あらゆるスケールでいくつかの代表的特徴を選択します。
各特徴群がテキストインスタンスに対応するため、そのバウンディングボックスは後処理操作なしで容易に得ることができる。
論文 参考訳(メタデータ) (2022-03-29T04:02:31Z) - SwinTextSpotter: Scene Text Spotting via Better Synergy between Text
Detection and Text Recognition [73.61592015908353]
本稿では,SwinTextSpotter と呼ばれるシーンテキストスポッティングフレームワークを提案する。
動的頭部を検出器とするトランスを用いて、2つのタスクを新しい認識変換機構で統一する。
この設計は、追加の修正モジュールも文字レベルのアノテーションも必要としない簡潔なフレームワークをもたらす。
論文 参考訳(メタデータ) (2022-03-19T01:14:42Z) - Arbitrary Shape Text Detection using Transformers [2.294014185517203]
変換器(DETR)を用いた任意の字形テキスト検出のためのエンドツーエンドのトレーニング可能なアーキテクチャを提案する。
提案手法は,任意の検出されたテキスト領域のスケールとアスペクト比の変化を正確に測定する境界ボックス損失関数を利用する。
曲面テキストのTotal-TextおよびCTW-1500データセットと、多目的テキストのMSRA-TD500およびICDAR15データセットを用いて、提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-02-22T22:36:29Z) - CentripetalText: An Efficient Text Instance Representation for Scene
Text Detection [19.69057252363207]
我々はCentripetalText (CT) という名前の効率的なテキストインスタンス表現を提案する。
CTはテキストインスタンスをテキストカーネルと中心シフトの組み合わせに分解する。
シーンテキスト検出の課題に対して,本手法は既存の手法に比べて優れた,あるいは競合的な性能を発揮する。
論文 参考訳(メタデータ) (2021-07-13T09:34:18Z) - Detection and Rectification of Arbitrary Shaped Scene Texts by using
Text Keypoints and Links [38.71967078941593]
マスク誘導マルチタスクネットワークは任意の形状のシーンテキストを確実に検出・修正する。
センタラインを指定する3種類のキーポイントが検出され、テキストインスタンスの形状が正確に決定される。
シーンテキストは、関連するランドマークポイントをリンクすることで配置および修正できます。
論文 参考訳(メタデータ) (2021-03-01T06:13:51Z) - Scene Text Detection with Scribble Lines [59.698806258671105]
テキスト検出のための多角形の代わりにスクリブル線でテキストをアノテートすることを提案する。
さまざまな形状のテキストの一般的なラベリング方法であり、ラベリングコストが低くなります。
実験の結果,提案手法は弱ラベル法と元のポリゴン系ラベリング法との間の性能ギャップを橋渡しすることを示した。
論文 参考訳(メタデータ) (2020-12-09T13:14:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。