論文の概要: Arbitrary Shape Text Detection using Transformers
- arxiv url: http://arxiv.org/abs/2202.11221v1
- Date: Tue, 22 Feb 2022 22:36:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-25 04:38:51.430327
- Title: Arbitrary Shape Text Detection using Transformers
- Title(参考訳): 変圧器を用いた任意形状テキスト検出
- Authors: Zobeir Raisi, Georges Younes, and John Zelek
- Abstract要約: 変換器(DETR)を用いた任意の字形テキスト検出のためのエンドツーエンドのトレーニング可能なアーキテクチャを提案する。
提案手法は,任意の検出されたテキスト領域のスケールとアスペクト比の変化を正確に測定する境界ボックス損失関数を利用する。
曲面テキストのTotal-TextおよびCTW-1500データセットと、多目的テキストのMSRA-TD500およびICDAR15データセットを用いて、提案モデルの評価を行った。
- 参考スコア(独自算出の注目度): 2.294014185517203
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent text detection frameworks require several handcrafted components such
as anchor generation, non-maximum suppression (NMS), or multiple processing
stages (e.g. label generation) to detect arbitrarily shaped text images. In
contrast, we propose an end-to-end trainable architecture based on Detection
using Transformers (DETR), that outperforms previous state-of-the-art methods
in arbitrary-shaped text detection. At its core, our proposed method leverages
a bounding box loss function that accurately measures the arbitrary detected
text regions' changes in scale and aspect ratio. This is possible due to a
hybrid shape representation made from Bezier curves, that are further split
into piece-wise polygons. The proposed loss function is then a combination of a
generalized-split-intersection-over-union loss defined over the piece-wise
polygons and regularized by a Smooth-$\ln$ regression over the Bezier curve's
control points. We evaluate our proposed model using Total-Text and CTW-1500
datasets for curved text, and MSRA-TD500 and ICDAR15 datasets for
multi-oriented text, and show that the proposed method outperforms the previous
state-of-the-art methods in arbitrary-shape text detection tasks.
- Abstract(参考訳): 最近のテキスト検出フレームワークでは、任意の形状のテキスト画像を検出するためにアンカー生成、非最大抑圧(nms)、複数の処理段階(ラベル生成など)といった手作りのコンポーネントを必要とする。
対照的に,任意の形状のテキスト検出において,従来の最先端手法に勝るトランスフォーマー(detr)を用いたエンドツーエンドのトレーニング可能なアーキテクチャを提案する。
提案手法は,任意の検出されたテキスト領域のスケールとアスペクト比の変化を正確に測定する境界ボックス損失関数を利用する。
これは、ベジエ曲線から作られるハイブリッドな形状の表現により可能であり、さらにピースワイズ多角形に分割される。
提案された損失関数は、分割多角形上で定義される一般化された分割的連結損失の組み合わせであり、ベジアー曲線の制御点上の滑らかな$\ln$回帰によって正規化される。
曲面テキストのためのTotal-TextおよびCTW-1500データセットと、多目的テキストのためのMSRA-TD500およびICDAR15データセットを用いて提案手法の評価を行い、任意の形状テキスト検出タスクにおいて従来の最先端手法よりも優れていることを示す。
関連論文リスト
- CT-Net: Arbitrary-Shaped Text Detection via Contour Transformer [19.269070203448187]
輪郭変圧器を用いたプログレッシブな輪郭回帰による任意形状のシーンテキスト検出フレームワークCT-Netを提案する。
CT-Netは1秒あたり1.2フレームで86.1、CTW1500とTotal-Textデータセットで10.1FPSで87.8のF測定を実現している。
論文 参考訳(メタデータ) (2023-07-25T08:00:40Z) - LRANet: Towards Accurate and Efficient Scene Text Detection with
Low-Rank Approximation Network [63.554061288184165]
低ランク近似に基づく新しいパラメータ化テキスト形状法を提案する。
異なるテキストの輪郭間の形状相関を探索することにより, 形状表現における一貫性, コンパクト性, 単純性, 頑健性を実現する。
我々はLRANetという名前の正確で効率的な任意の形状のテキスト検出器を実装した。
論文 参考訳(メタデータ) (2023-06-27T02:03:46Z) - DPText-DETR: Towards Better Scene Text Detection with Dynamic Points in
Transformer [94.35116535588332]
ポリゴン点やベジエ曲線制御点を予測してテキストをローカライズするトランスフォーマーベースの手法は、シーンテキストの検出で非常に人気がある。
しかし、使用点ラベル形式は、トランスフォーマーモデルの堅牢性に影響を与える人間の読み順を意味する。
本稿では,DPText-DETRを提案する。これはクエリとしてポイント座標を直接使用し,デコーダ層間で動的に更新する。
論文 参考訳(メタデータ) (2022-07-10T15:45:16Z) - TextDCT: Arbitrary-Shaped Text Detection via Discrete Cosine Transform
Mask [19.269070203448187]
任意形状のシーンテキスト検出は、フォント、サイズ、色、方向のさまざまな変更があるため、難しい作業である。
本研究では,テキストマスクをコンパクトなベクトルとして符号化する離散コサイン変換(DCT)を採用した,新しい軽量アンカーフリーテキスト検出フレームワークTextDCTを提案する。
TextDCTは、毎秒17.2フレームで85.1、CTW1500の15.1FPSで84.9、トータルテキストデータセットで84.9のF測定を実現している。
論文 参考訳(メタデータ) (2022-06-27T15:42:25Z) - Few Could Be Better Than All: Feature Sampling and Grouping for Scene
Text Detection [47.820683360286786]
本稿では,シーンテキスト検出のためのトランスフォーマーアーキテクチャを提案する。
まず、フォアグラウンドテキストに非常に関係のある、あらゆるスケールでいくつかの代表的特徴を選択します。
各特徴群がテキストインスタンスに対応するため、そのバウンディングボックスは後処理操作なしで容易に得ることができる。
論文 参考訳(メタデータ) (2022-03-29T04:02:31Z) - Bidirectional Regression for Arbitrary-Shaped Text Detection [16.30976392505236]
本稿では,前景情報と背景情報の両方をパイプラインに統合した新しいテキストインスタンス表現を提案する。
対応する後処理アルゴリズムは、4つの予測結果を逐次組み合わせてテキストインスタンスを正確に再構築するように設計されている。
本手法は,曲面および多目的テキストデータセットを含む,いくつかの挑戦的なシーンテキストベンチマークで評価する。
論文 参考訳(メタデータ) (2021-07-13T14:29:09Z) - RayNet: Real-time Scene Arbitrary-shape Text Detection with Multiple
Rays [84.15123599963239]
RayNetと呼ばれる任意の形状のテキスト検出のための新しい検出フレームワークを提案する。
RayNet はテキストに適合するために Center Point Set (CPS) と Ray Distance (RD) を使用し、テキストの一般的な位置を決定するために CPS を使用し、RD を CPS と組み合わせてRay Points (RP) を計算し、テキストの正確な形状をローカライズする。
RayNetは、既存の曲面テキストデータセット(CTW1500)と四角テキストデータセット(ICDAR2015)で素晴らしいパフォーマンスを達成する
論文 参考訳(メタデータ) (2021-04-11T03:03:23Z) - BOTD: Bold Outline Text Detector [85.33700624095181]
我々はBold Outline Text Detector(BOTD)と呼ばれる新しい1段テキスト検出器を提案する。
BOTDは、モデルの複雑さを低くして任意の形のテキストを処理できる。
3つの実世界のベンチマークによる実験結果から,BOTDの最先端性能が示された。
論文 参考訳(メタデータ) (2020-11-30T11:54:14Z) - Text Perceptron: Towards End-to-End Arbitrary-Shaped Text Spotting [49.768327669098674]
テキストパーセプトロン(Text Perceptron)という,エンドツーエンドのトレーニング可能なテキストスポッティング手法を提案する。
まず、テキスト読解順序と境界情報を学ぶ効率的なセグメンテーションベースのテキスト検出器を用いる。
次に、検出された特徴領域を正規形態に変換するために、新しい形状変換モジュール(STM)を設計する。
論文 参考訳(メタデータ) (2020-02-17T08:07:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。