論文の概要: Efficiently Leveraging Linguistic Priors for Scene Text Spotting
- arxiv url: http://arxiv.org/abs/2402.17134v1
- Date: Tue, 27 Feb 2024 01:57:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 17:59:35.134876
- Title: Efficiently Leveraging Linguistic Priors for Scene Text Spotting
- Title(参考訳): シーンテキストスポッティングにおける言語前処理の効率化
- Authors: Nguyen Nguyen, Yapeng Tian, Chenliang Xu
- Abstract要約: 本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
- 参考スコア(独自算出の注目度): 63.22351047545888
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Incorporating linguistic knowledge can improve scene text recognition, but it
is questionable whether the same holds for scene text spotting, which typically
involves text detection and recognition. This paper proposes a method that
leverages linguistic knowledge from a large text corpus to replace the
traditional one-hot encoding used in auto-regressive scene text spotting and
recognition models. This allows the model to capture the relationship between
characters in the same word. Additionally, we introduce a technique to generate
text distributions that align well with scene text datasets, removing the need
for in-domain fine-tuning. As a result, the newly created text distributions
are more informative than pure one-hot encoding, leading to improved spotting
and recognition performance. Our method is simple and efficient, and it can
easily be integrated into existing auto-regressive-based approaches.
Experimental results show that our method not only improves recognition
accuracy but also enables more accurate localization of words. It significantly
improves both state-of-the-art scene text spotting and recognition pipelines,
achieving state-of-the-art results on several benchmarks.
- Abstract(参考訳): 言語知識を組み込むことでシーンのテキスト認識が向上するが、テキスト検出と認識を伴うシーンのテキストスポッティングにも同じことが当てはまるかどうか疑問である。
本稿では,大規模テキストコーパスからの言語知識を活用し,自己回帰的なテキストスポッティングと認識モデルで使用される従来の1ホットエンコーディングを置き換える手法を提案する。
これにより、モデルが同じ単語の文字間の関係を捉えることができる。
さらに,シーンテキストデータセットに適合するテキスト分布を生成する手法を導入し,ドメイン内微調整の必要性をなくした。
その結果、新たに作成されたテキスト配信は、純粋なワンホット符号化よりも情報的であり、スポッティングと認識性能が向上する。
本手法は単純かつ効率的であり,既存の自己回帰型アプローチと容易に統合できる。
提案手法は,認識精度を向上させるだけでなく,より正確な単語のローカライズを可能にする。
最先端のシーンテキストスポッティングと認識パイプラインの両方を大幅に改善し、いくつかのベンチマークで最先端の結果を達成する。
関連論文リスト
- LOGO: Video Text Spotting with Language Collaboration and Glyph Perception Model [20.007650672107566]
ビデオテキストスポッティング(VTS)は、ビデオ内のテキストインスタンスを同時にローカライズ、認識、追跡することを目的としている。
最近の方法では、最先端の画像テキストスポッターのゼロショット結果を直接追跡する。
特定のデータセット上の微調整トランスフォーマーベースのテキストスポッターにより、パフォーマンスが向上する可能性がある。
論文 参考訳(メタデータ) (2024-05-29T15:35:09Z) - JSTR: Judgment Improves Scene Text Recognition [0.0]
本稿では,画像とテキストが一致しているかを判断することで,シーンテキスト認識タスクの精度を向上させる手法を提案する。
この方法は、モデルが誤認識しそうなデータに対して明示的なフィードバックを提供することで、テキスト認識の精度を高める。
論文 参考訳(メタデータ) (2024-04-09T02:55:12Z) - SwinTextSpotter v2: Towards Better Synergy for Scene Text Spotting [126.01629300244001]
我々はSwinTextSpotter v2と呼ばれる新しいエンドツーエンドのシーンテキストスポッティングフレームワークを提案する。
我々は,新しい認識変換モジュールと認識アライメントモジュールを用いて,2つのタスク間の関係を強化する。
SwinTextSpotter v2は、様々な多言語(英語、中国語、ベトナム語)のベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-01-15T12:33:00Z) - IPAD: Iterative, Parallel, and Diffusion-based Network for Scene Text Recognition [5.525052547053668]
多様な応用により、シーンテキスト認識がますます注目を集めている。
最先端のほとんどのメソッドは、アテンション機構を備えたエンコーダ・デコーダフレームワークを採用しており、左から右へ自動回帰的にテキストを生成する。
本稿では,並列かつ反復的なデコーダを用いて,簡単なデコード戦略を採用する方法を提案する。
論文 参考訳(メタデータ) (2023-12-19T08:03:19Z) - Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - Reading and Writing: Discriminative and Generative Modeling for
Self-Supervised Text Recognition [101.60244147302197]
テキスト画像の識別と生成を学習するために,コントラスト学習とマスク付き画像モデリングを導入する。
本手法は,不規則なシーンテキスト認識データセットにおいて,従来の自己教師付きテキスト認識手法を10.2%~20.2%向上させる。
提案したテキスト認識器は,11のベンチマークで平均5.3%の精度で従来のテキスト認識手法を上回り,モデルサイズが類似している。
論文 参考訳(メタデータ) (2022-07-01T03:50:26Z) - SwinTextSpotter: Scene Text Spotting via Better Synergy between Text
Detection and Text Recognition [73.61592015908353]
本稿では,SwinTextSpotter と呼ばれるシーンテキストスポッティングフレームワークを提案する。
動的頭部を検出器とするトランスを用いて、2つのタスクを新しい認識変換機構で統一する。
この設計は、追加の修正モジュールも文字レベルのアノテーションも必要としない簡潔なフレームワークをもたらす。
論文 参考訳(メタデータ) (2022-03-19T01:14:42Z) - TextAdaIN: Fine-Grained AdaIN for Robust Text Recognition [3.3946853660795884]
テキスト認識では、ネットワークが過度に依存しているローカルイメージ統計であることを明らかにします。
テキスト認識性能を向上させるために,局所統計の信頼度を規制する手法を提案する。
提案手法はTextAdaINと呼ばれ,特徴マップに局所歪みを生じさせ,ネットワークが局所統計に過度に適合しないようにする。
論文 参考訳(メタデータ) (2021-05-09T10:47:48Z) - Scene Text Retrieval via Joint Text Detection and Similarity Learning [68.24531728554892]
シーンテキスト検索は、与えられたクエリテキストと同じまたは類似している画像ギャラリーからすべてのテキストインスタンスをローカライズし、検索することを目的としています。
自然画像からクエリテキストと各テキストインスタンスのクロスモーダルな類似性を直接学習することでこの問題に対処します。
このように、検出されたテキストインスタンスを学習された類似度でランク付けすることで、シーンテキスト検索を簡単に実行できます。
論文 参考訳(メタデータ) (2021-04-04T07:18:38Z) - Text Recognition -- Real World Data and Where to Find Them [36.10220484561196]
本稿では,弱い注釈付き画像を利用してテキスト抽出パイプラインを改善する手法を提案する。
このアプローチでは、任意のエンドツーエンドのテキスト認識システムを使用して、テキスト領域の提案と、おそらく誤った書き起こしを取得する。
シーンテキストのほとんどエラーのないローカライズされたインスタンスを生成し、これが"擬似基底真理"(PGT)として扱う。
論文 参考訳(メタデータ) (2020-07-06T22:23:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。