論文の概要: TPS++: Attention-Enhanced Thin-Plate Spline for Scene Text Recognition
- arxiv url: http://arxiv.org/abs/2305.05322v1
- Date: Tue, 9 May 2023 10:16:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-10 13:07:11.677453
- Title: TPS++: Attention-Enhanced Thin-Plate Spline for Scene Text Recognition
- Title(参考訳): tps++: テキスト認識のための注目強調型薄板スプライン
- Authors: Tianlun Zheng, Zhineng Chen, Jinfeng Bai, Hongtao Xie, Yu-Gang Jiang
- Abstract要約: テキストの不規則性は、シーンテキスト認識者に重大な課題をもたらす。
TPS++は、テキストの修正にアテンションメカニズムを組み込んだ、アテンション強化TPS変換である。
常に認識を改善し、最先端の精度を達成する。
- 参考スコア(独自算出の注目度): 78.67283660198403
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text irregularities pose significant challenges to scene text recognizers.
Thin-Plate Spline (TPS)-based rectification is widely regarded as an effective
means to deal with them. Currently, the calculation of TPS transformation
parameters purely depends on the quality of regressed text borders. It ignores
the text content and often leads to unsatisfactory rectified results for
severely distorted text. In this work, we introduce TPS++, an
attention-enhanced TPS transformation that incorporates the attention mechanism
to text rectification for the first time. TPS++ formulates the parameter
calculation as a joint process of foreground control point regression and
content-based attention score estimation, which is computed by a dedicated
designed gated-attention block. TPS++ builds a more flexible content-aware
rectifier, generating a natural text correction that is easier to read by the
subsequent recognizer. Moreover, TPS++ shares the feature backbone with the
recognizer in part and implements the rectification at feature-level rather
than image-level, incurring only a small overhead in terms of parameters and
inference time. Experiments on public benchmarks show that TPS++ consistently
improves the recognition and achieves state-of-the-art accuracy. Meanwhile, it
generalizes well on different backbones and recognizers. Code is at
https://github.com/simplify23/TPS_PP.
- Abstract(参考訳): テキストの不規則性はシーンのテキスト認識に重大な課題をもたらす。
薄板スプライン(tps)ベースの整流は、それらに対処する効果的な手段として広く考えられている。
現在、TPS変換パラメータの計算は、回帰テキスト境界の品質に依存している。
テキストの内容を無視し、しばしばひどく歪んだテキストに対して不満足な修正結果をもたらす。
本稿では,テキストの修正に注意機構を組み込んだTPS++について紹介する。
TPS++は、パラメータ計算を前景制御点回帰とコンテンツに基づくアテンションスコア推定のジョイントプロセスとして定式化し、専用のゲートアテンションブロックで計算する。
TPS++は、よりフレキシブルなコンテンツ認識整形器を構築し、後続の認識器で読みやすい自然なテキスト修正を生成する。
さらに、TPS++は機能バックボーンを認識器と一部で共有し、画像レベルではなく機能レベルで修正を実装しており、パラメータや推論時間のオーバーヘッドが小さいだけである。
公開ベンチマークの実験では、TPS++は一貫して認識を改善し、最先端の精度を実現している。
一方、異なるバックボーンや認識器をうまく一般化する。
コードはhttps://github.com/simplify23/TPS_PPにある。
関連論文リスト
- TexIm FAST: Text-to-Image Representation for Semantic Similarity Evaluation using Transformers [2.7651063843287718]
TexIm FASTは、トランスフォーマー(TexIm FAST)を用いた意味評価のための自己教師付き変分自動エンコーダ(VAE)による固定長表現を生成する新しい手法である。
画像表現は、言語的な複雑さを維持しながら、暗黙の推論を可能にし、クロスモーダルな応用において強力である。
TexIm FASTの有効性は、MSRPC、CNN/Daily Mail、XSumデータセット上でのセマンティックテキスト類似性(STS)のタスクに対して広く分析されている。
論文 参考訳(メタデータ) (2024-06-06T18:28:50Z) - Semi-Supervised Coupled Thin-Plate Spline Model for Rotation Correction and Beyond [84.56978780892783]
制御点が限られている複数のTPSを、より柔軟で強力な変換に繰り返し結合するCoupledTPSを提案する。
注記コストを考慮に入れた半教師付き学習手法を開発し、ラベルのないデータを活用することにより、ワープ品質を向上させる。
実験は、回転補正のための既存の最先端解よりもCoupledTPSの優位性と普遍性を示す。
論文 参考訳(メタデータ) (2024-01-24T13:03:28Z) - Self-supervised Character-to-Character Distillation for Text Recognition [54.12490492265583]
そこで本研究では,テキスト表現学習を容易にする汎用的な拡張を可能にする,自己教師型文字-文字-文字間蒸留法CCDを提案する。
CCDは、テキスト認識の1.38%、テキストセグメンテーションの1.7%、PSNRの0.24dB、超解像の0.0321(SSIM)で、最先端の結果を達成する。
論文 参考訳(メタデータ) (2022-11-01T05:48:18Z) - DPText-DETR: Towards Better Scene Text Detection with Dynamic Points in
Transformer [94.35116535588332]
ポリゴン点やベジエ曲線制御点を予測してテキストをローカライズするトランスフォーマーベースの手法は、シーンテキストの検出で非常に人気がある。
しかし、使用点ラベル形式は、トランスフォーマーモデルの堅牢性に影響を与える人間の読み順を意味する。
本稿では,DPText-DETRを提案する。これはクエリとしてポイント座標を直接使用し,デコーダ層間で動的に更新する。
論文 参考訳(メタデータ) (2022-07-10T15:45:16Z) - TextDCT: Arbitrary-Shaped Text Detection via Discrete Cosine Transform
Mask [19.269070203448187]
任意形状のシーンテキスト検出は、フォント、サイズ、色、方向のさまざまな変更があるため、難しい作業である。
本研究では,テキストマスクをコンパクトなベクトルとして符号化する離散コサイン変換(DCT)を採用した,新しい軽量アンカーフリーテキスト検出フレームワークTextDCTを提案する。
TextDCTは、毎秒17.2フレームで85.1、CTW1500の15.1FPSで84.9、トータルテキストデータセットで84.9のF測定を実現している。
論文 参考訳(メタデータ) (2022-06-27T15:42:25Z) - A Text Attention Network for Spatial Deformation Robust Scene Text Image
Super-resolution [13.934846626570286]
シーンテキスト画像の超解像度は、低解像度画像におけるテキストの解像度と可読性を向上させることを目的としている。
空間的に変形したテキスト、特に回転して湾曲したテキストの高解像度画像の再構成は依然として困難である。
この問題に対処するために,CNN ベースの Text ATTention Network (TATT) を提案する。
論文 参考訳(メタデータ) (2022-03-17T15:28:29Z) - TPSNet: Thin-Plate-Spline Representation for Arbitrary Shape Scene Text
Detection [4.8345307057837354]
TPS(Thin-Plate-Spline)変換はシーンテキスト認識において大きな成功を収めている。
TPS表現はコンパクトで完全で、完全である。
境界集合損失と形状アライメント損失を含む2つの新しい損失を提案する。
論文 参考訳(メタデータ) (2021-10-25T11:47:17Z) - CentripetalText: An Efficient Text Instance Representation for Scene
Text Detection [19.69057252363207]
我々はCentripetalText (CT) という名前の効率的なテキストインスタンス表現を提案する。
CTはテキストインスタンスをテキストカーネルと中心シフトの組み合わせに分解する。
シーンテキスト検出の課題に対して,本手法は既存の手法に比べて優れた,あるいは競合的な性能を発揮する。
論文 参考訳(メタデータ) (2021-07-13T09:34:18Z) - PAN++: Towards Efficient and Accurate End-to-End Spotting of
Arbitrarily-Shaped Text [85.7020597476857]
自然場面における任意の形状のテキストを効率的に検出し認識できる,エンドツーエンドのテキストスポッティングフレームワークpan++を提案する。
PAN++は、テキスト行を周辺ピクセルに囲まれたテキストカーネル(中央領域)として再構成するカーネル表現に基づいている。
ピクセルベースの表現として、カーネル表現は1つの完全な畳み込みネットワークによって予測できる。
論文 参考訳(メタデータ) (2021-05-02T07:04:30Z) - PGNet: Real-time Arbitrarily-Shaped Text Spotting with Point Gathering
Network [54.03560668182197]
任意形状のテキストをリアルタイムで読み取るための,完全畳み込み点収集ネットワーク(PGNet)を提案する。
PG-CTCデコーダを用いて2次元空間から高レベル文字分類ベクトルを収集し,NMSやRoI操作を使わずにテキストシンボルに復号する。
実験により,提案手法は競争精度が向上し,走行速度が著しく向上することが確認された。
論文 参考訳(メタデータ) (2021-04-12T13:27:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。