論文の概要: Scene Text Recognition via Transformer
- arxiv url: http://arxiv.org/abs/2003.08077v4
- Date: Wed, 29 Apr 2020 02:56:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 12:43:24.407403
- Title: Scene Text Recognition via Transformer
- Title(参考訳): トランスフォーマによるシーンテキスト認識
- Authors: Xinjie Feng, Hongxun Yao, Yuankai Qi, Jun Zhang, and Shengping Zhang
- Abstract要約: 任意の形状のシーンテキスト認識は、テキストの形、フォント、色、背景などに大きなバリエーションがあるため、非常に難しい。
ほとんどの最先端アルゴリズムは入力画像を正規化イメージに修正し、認識をシーケンス予測タスクとして扱う。
本稿では,変換器 [50] に基づく簡易かつ極めて効果的なシーンテキスト認識手法を提案する。
- 参考スコア(独自算出の注目度): 36.55457990615167
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene text recognition with arbitrary shape is very challenging due to large
variations in text shapes, fonts, colors, backgrounds, etc. Most
state-of-the-art algorithms rectify the input image into the normalized image,
then treat the recognition as a sequence prediction task. The bottleneck of
such methods is the rectification, which will cause errors due to distortion
perspective. In this paper, we find that the rectification is completely
unnecessary. What all we need is the spatial attention. We therefore propose a
simple but extremely effective scene text recognition method based on
transformer [50]. Different from previous transformer based models [56,34],
which just use the decoder of the transformer to decode the convolutional
attention, the proposed method use a convolutional feature maps as word
embedding input into transformer. In such a way, our method is able to make
full use of the powerful attention mechanism of the transformer. Extensive
experimental results show that the proposed method significantly outperforms
state-of-the-art methods by a very large margin on both regular and irregular
text datasets. On one of the most challenging CUTE dataset whose
state-of-the-art prediction accuracy is 89.6%, our method achieves 99.3%, which
is a pretty surprising result. We will release our source code and believe that
our method will be a new benchmark of scene text recognition with arbitrary
shapes.
- Abstract(参考訳): 任意の形状のシーンテキスト認識は、テキストの形、フォント、色、背景などに大きなバリエーションがあるため、非常に難しい。
ほとんどの最先端アルゴリズムは入力画像を正規化画像に補正し、認識をシーケンス予測タスクとして扱う。
このような手法のボトルネックは修正であり、歪みの観点による誤差を引き起こす。
本稿では,整流が全く不要であることを示す。
必要なのは空間的な注意です。
そこで我々は,変換器 [50] に基づく簡易かつ極めて効果的なシーンテキスト認識手法を提案する。
畳み込み注意の復号化にトランスフォーマのデコーダのみを使用する従来のトランスフォーマ [56,34] とは異なり,提案手法では畳み込み特徴マップをトランスフォーマへの単語埋め込み入力として用いる。
このようにして,本手法は変圧器の強力な注意機構をフル活用することができる。
実験結果から, 提案手法は, 正規および不規則なテキストデータセットにおいて, 最先端の手法を著しく上回ることがわかった。
最先端の予測精度が89.6%である最も難しいCUTEデータセットの1つで、我々の手法は99.3%を達成した。
我々は、ソースコードをリリースし、任意の形状のシーンテキスト認識の新しいベンチマークとなることを確信する。
関連論文リスト
- Transformer based Pluralistic Image Completion with Reduced Information Loss [72.92754600354199]
トランスフォーマーをベースとした手法は,近年,イメージインペイントにおいて大きな成功を収めている。
彼らは各ピクセルをトークンとみなし、情報損失の問題に悩まされる。
我々はPUTと呼ばれる新しいトランスフォーマーベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-31T01:20:16Z) - Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - LRANet: Towards Accurate and Efficient Scene Text Detection with
Low-Rank Approximation Network [63.554061288184165]
低ランク近似に基づく新しいパラメータ化テキスト形状法を提案する。
異なるテキストの輪郭間の形状相関を探索することにより, 形状表現における一貫性, コンパクト性, 単純性, 頑健性を実現する。
我々はLRANetという名前の正確で効率的な任意の形状のテキスト検出器を実装した。
論文 参考訳(メタデータ) (2023-06-27T02:03:46Z) - Portmanteauing Features for Scene Text Recognition [15.961450585164144]
State-of-the-artメソッドは、テキスト認識ネットワークに接続された修正ネットワークに依存している。
Portmanteau という単語にインスパイアされた Portmanteau 機能は、元のテキスト画像と修正画像の両方からの情報を含む機能である。
提案手法を6つのベンチマークで検証し,13の最先端手法と比較した。
論文 参考訳(メタデータ) (2022-11-09T17:14:14Z) - Pure Transformer with Integrated Experts for Scene Text Recognition [11.089203218000854]
シーンテキスト認識(STR:Scene text recognition)は、自然のシーンの収穫された画像のテキストを読む作業である。
近年、変換器アーキテクチャはSTRで広く採用されており、長期依存を捕捉する強力な能力を示している。
本研究は,ハイブリッドCNN変換器モデルより優れた単純なベースラインとして,トランスフォーマーのみのモデルを提案する。
論文 参考訳(メタデータ) (2022-11-09T15:26:59Z) - DPText-DETR: Towards Better Scene Text Detection with Dynamic Points in
Transformer [94.35116535588332]
ポリゴン点やベジエ曲線制御点を予測してテキストをローカライズするトランスフォーマーベースの手法は、シーンテキストの検出で非常に人気がある。
しかし、使用点ラベル形式は、トランスフォーマーモデルの堅牢性に影響を与える人間の読み順を意味する。
本稿では,DPText-DETRを提案する。これはクエリとしてポイント座標を直接使用し,デコーダ層間で動的に更新する。
論文 参考訳(メタデータ) (2022-07-10T15:45:16Z) - Few Could Be Better Than All: Feature Sampling and Grouping for Scene
Text Detection [47.820683360286786]
本稿では,シーンテキスト検出のためのトランスフォーマーアーキテクチャを提案する。
まず、フォアグラウンドテキストに非常に関係のある、あらゆるスケールでいくつかの代表的特徴を選択します。
各特徴群がテキストインスタンスに対応するため、そのバウンディングボックスは後処理操作なしで容易に得ることができる。
論文 参考訳(メタデータ) (2022-03-29T04:02:31Z) - Arbitrary Shape Text Detection using Transformers [2.294014185517203]
変換器(DETR)を用いた任意の字形テキスト検出のためのエンドツーエンドのトレーニング可能なアーキテクチャを提案する。
提案手法は,任意の検出されたテキスト領域のスケールとアスペクト比の変化を正確に測定する境界ボックス損失関数を利用する。
曲面テキストのTotal-TextおよびCTW-1500データセットと、多目的テキストのMSRA-TD500およびICDAR15データセットを用いて、提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-02-22T22:36:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。