論文の概要: Inverse-like Antagonistic Scene Text Spotting via Reading-Order
Estimation and Dynamic Sampling
- arxiv url: http://arxiv.org/abs/2401.03637v1
- Date: Mon, 8 Jan 2024 02:47:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 17:40:49.094360
- Title: Inverse-like Antagonistic Scene Text Spotting via Reading-Order
Estimation and Dynamic Sampling
- Title(参考訳): 読み順推定と動的サンプリングによる逆様アンタゴニシックシーンテキストスポッティング
- Authors: Shi-Xue Zhang, Chun Yang, Xiaobin Zhu, Hongyang Zhou, Hongfa Wang,
Xu-Cheng Yin
- Abstract要約: 我々は、IATSと呼ばれる、エンドツーエンドのトレーニング可能な逆対角テキストスポッティングフレームワークを提案する。
具体的には、初期テキスト境界から読み順情報を抽出する革新的な読み順推定モジュール(REM)を提案する。
本手法は不規則なテキストスポッティングと逆テキストスポッティングの両方において優れた性能を示す。
- 参考スコア(独自算出の注目度): 26.420235903805782
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scene text spotting is a challenging task, especially for inverse-like scene
text, which has complex layouts, e.g., mirrored, symmetrical, or retro-flexed.
In this paper, we propose a unified end-to-end trainable inverse-like
antagonistic text spotting framework dubbed IATS, which can effectively spot
inverse-like scene texts without sacrificing general ones. Specifically, we
propose an innovative reading-order estimation module (REM) that extracts
reading-order information from the initial text boundary generated by an
initial boundary module (IBM). To optimize and train REM, we propose a joint
reading-order estimation loss consisting of a classification loss, an
orthogonality loss, and a distribution loss. With the help of IBM, we can
divide the initial text boundary into two symmetric control points and
iteratively refine the new text boundary using a lightweight boundary
refinement module (BRM) for adapting to various shapes and scales. To alleviate
the incompatibility between text detection and recognition, we propose a
dynamic sampling module (DSM) with a thin-plate spline that can dynamically
sample appropriate features for recognition in the detected text region.
Without extra supervision, the DSM can proactively learn to sample appropriate
features for text recognition through the gradient returned by the recognition
module. Extensive experiments on both challenging scene text and inverse-like
scene text datasets demonstrate that our method achieves superior performance
both on irregular and inverse-like text spotting.
- Abstract(参考訳): シーンのテキストスポッティングは、特に、ミラー、対称、逆反射といった複雑なレイアウトを持つ逆様のシーンテキストにとって、難しいタスクである。
本稿では,汎用テキストを犠牲にすることなく,効果的に逆向きのシーンテキストを見つけることができるIATSという,エンドツーエンドでトレーニング可能な逆向きテキストスポッティングフレームワークを提案する。
具体的には、初期境界モジュール(IBM)によって生成された初期テキスト境界から読み出し順序情報を抽出する革新的な読み出し順序推定モジュール(REM)を提案する。
本稿では,REMの最適化と学習のために,分類損失,直交損失,分布損失からなる共同読解順序推定損失を提案する。
IBMの助けを借りて、初期テキスト境界を2つの対称制御点に分割し、様々な形状やスケールに適応するための軽量境界修正モジュール(BRM)を用いて、新しいテキスト境界を反復的に洗練することができる。
テキスト検出と認識の不適合性を軽減するため,検出されたテキスト領域における認識に適した特徴を動的にサンプリングできる薄板スプライン付き動的サンプリングモジュール(DSM)を提案する。
余分な監督がなければ、DSMは認識モジュールから返される勾配を通じて、テキスト認識の適切な特徴を積極的に学習することができる。
本手法が不規則テキストスポッティングと逆テキストスポッティングの両方において優れた性能を実現することを示す。
関連論文リスト
- Seeing Text in the Dark: Algorithm and Benchmark [28.865779563872977]
そこで本研究では,暗黒領域におけるテキストのローカライズのための,効率的かつ効果的な単一ステージアプローチを提案する。
テキスト検出器の訓練段階において,制約付き学習モジュールを補助機構として導入する。
様々な場面や言語を含む任意の字形テキストのための包括的低照度データセットを提案する。
論文 参考訳(メタデータ) (2024-04-13T11:07:10Z) - SwinTextSpotter v2: Towards Better Synergy for Scene Text Spotting [126.01629300244001]
我々はSwinTextSpotter v2と呼ばれる新しいエンドツーエンドのシーンテキストスポッティングフレームワークを提案する。
我々は,新しい認識変換モジュールと認識アライメントモジュールを用いて,2つのタスク間の関係を強化する。
SwinTextSpotter v2は、様々な多言語(英語、中国語、ベトナム語)のベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-01-15T12:33:00Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Self-supervised Character-to-Character Distillation for Text Recognition [54.12490492265583]
そこで本研究では,テキスト表現学習を容易にする汎用的な拡張を可能にする,自己教師型文字-文字-文字間蒸留法CCDを提案する。
CCDは、テキスト認識の1.38%、テキストセグメンテーションの1.7%、PSNRの0.24dB、超解像の0.0321(SSIM)で、最先端の結果を達成する。
論文 参考訳(メタデータ) (2022-11-01T05:48:18Z) - TextDCT: Arbitrary-Shaped Text Detection via Discrete Cosine Transform
Mask [19.269070203448187]
任意形状のシーンテキスト検出は、フォント、サイズ、色、方向のさまざまな変更があるため、難しい作業である。
本研究では,テキストマスクをコンパクトなベクトルとして符号化する離散コサイン変換(DCT)を採用した,新しい軽量アンカーフリーテキスト検出フレームワークTextDCTを提案する。
TextDCTは、毎秒17.2フレームで85.1、CTW1500の15.1FPSで84.9、トータルテキストデータセットで84.9のF測定を実現している。
論文 参考訳(メタデータ) (2022-06-27T15:42:25Z) - Few Could Be Better Than All: Feature Sampling and Grouping for Scene
Text Detection [47.820683360286786]
本稿では,シーンテキスト検出のためのトランスフォーマーアーキテクチャを提案する。
まず、フォアグラウンドテキストに非常に関係のある、あらゆるスケールでいくつかの代表的特徴を選択します。
各特徴群がテキストインスタンスに対応するため、そのバウンディングボックスは後処理操作なしで容易に得ることができる。
論文 参考訳(メタデータ) (2022-03-29T04:02:31Z) - Towards Weakly-Supervised Text Spotting using a Multi-Task Transformer [21.479222207347238]
テキストスポッティングのための変換器ベースのアプローチであるTextTranSpotter(TTS)を紹介する。
TTSは、完全に管理された設定と弱い設定の両方で訓練される。
TextTranSpotterは、完全に教師された方法でトレーニングされ、複数のベンチマークで最先端の結果を表示する。
論文 参考訳(メタデータ) (2022-02-11T08:50:09Z) - MOST: A Multi-Oriented Scene Text Detector with Localization Refinement [67.35280008722255]
シーンテキスト検出のための新しいアルゴリズムを提案し、テキストローカリゼーションの品質を大幅に向上させる一連の戦略を提案する。
具体的には,テキスト・フィーチャー・アライメント・モジュール (TFAM) を提案し,特徴の受容領域を動的に調整する。
信頼できないものを排除するために、位置認識非最大抑制(PA-NMS)モジュールを考案する。
論文 参考訳(メタデータ) (2021-04-02T14:34:41Z) - Text Perceptron: Towards End-to-End Arbitrary-Shaped Text Spotting [49.768327669098674]
テキストパーセプトロン(Text Perceptron)という,エンドツーエンドのトレーニング可能なテキストスポッティング手法を提案する。
まず、テキスト読解順序と境界情報を学ぶ効率的なセグメンテーションベースのテキスト検出器を用いる。
次に、検出された特徴領域を正規形態に変換するために、新しい形状変換モジュール(STM)を設計する。
論文 参考訳(メタデータ) (2020-02-17T08:07:19Z) - A New Perspective for Flexible Feature Gathering in Scene Text
Recognition Via Character Anchor Pooling [32.82620509088932]
本稿では,キャラクタアンコリングモジュール (CAM) とアンカープールモジュール (APM) と呼ばれる結合モジュールのペアを提案する。
CAMは、文字を個別にアンカーすることで、字型非感受性の方法でテキストをローカライズする。APMは、文字アンカーに沿って柔軟に機能を補間して収集し、シーケンス学習を可能にする。
論文 参考訳(メタデータ) (2020-02-10T03:01:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。