Fugu-MT 論文翻訳(概要): Arbitrary Reading Order Scene Text Spotter with Local Semantics Guidance

論文の概要: Arbitrary Reading Order Scene Text Spotter with Local Semantics Guidance

arxiv url: http://arxiv.org/abs/2412.10159v1
Date: Fri, 13 Dec 2024 14:20:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-16 15:37:48.990904
Title: Arbitrary Reading Order Scene Text Spotter with Local Semantics Guidance
Title（参考訳）: 局所的セマンティック誘導による任意読解順序シーンテキストスポッター
Authors: Jiahao Lyu, Wei Wang, Dongbao Yang, Jinwen Zhong, Yu Zhou,
Abstract要約: 局所的な意味知識は、テキストの内容だけでなく、正しい読み順の空間情報も含んでいる。本研究では,ローカルセマンティックスガイドのシーンテキストスポッター(LSGSpotter)を提案する。 LSGSpotterは、洗練された検出の制限なしに任意の読み順スポッティングタスクを達成する。
参考スコア（独自算出の注目度）: 6.93632116687419
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Scene text spotting has attracted the enthusiasm of relative researchers in recent years. Most existing scene text spotters follow the detection-then-recognition paradigm, where the vanilla detection module hardly determines the reading order and leads to failure recognition. After rethinking the auto-regressive scene text recognition method, we find that a well-trained recognizer can implicitly perceive the local semantics of all characters in a complete word or a sentence without a character-level detection module. Local semantic knowledge not only includes text content but also spatial information in the right reading order. Motivated by the above analysis, we propose the Local Semantics Guided scene text Spotter (LSGSpotter), which auto-regressively decodes the position and content of characters guided by the local semantics. Specifically, two effective modules are proposed in LSGSpotter. On the one hand, we design a Start Point Localization Module (SPLM) for locating text start points to determine the right reading order. On the other hand, a Multi-scale Adaptive Attention Module (MAAM) is proposed to adaptively aggregate text features in a local area. In conclusion, LSGSpotter achieves the arbitrary reading order spotting task without the limitation of sophisticated detection, while alleviating the cost of computational resources with the grid sampling strategy. Extensive experiment results show LSGSpotter achieves state-of-the-art performance on the InverseText benchmark. Moreover, our spotter demonstrates superior performance on English benchmarks for arbitrary-shaped text, achieving improvements of 0.7\% and 2.5\% on Total-Text and SCUT-CTW1500, respectively. These results validate our text spotter is effective for scene texts in arbitrary reading order and shape.
Abstract（参考訳）: 近年、テキストスポッティングは相対的な研究者の熱意を惹きつけている。既存のシーンテキストスポッターは、バニラ検出モジュールが読み出し順序をほとんど決定せず、エラー認識につながるような、検出-then-recognitionパラダイムに従っている。自己回帰的シーンテキスト認識法を再考した結果,文字レベル検出モジュールを使わずに,単語や文中のすべての文字の局所的意味を暗黙的に知覚できることが判明した。局所的な意味知識は、テキストの内容だけでなく、正しい読み順の空間情報も含んでいる。そこで本研究では,ローカルセマンティックスガイドのシーンテキストスポッター(LSGSpotter)を提案する。具体的には、LSGSpotterに2つの有効モジュールが提案されている。一方,テキスト開始点を位置決めし,適切な読み出し順序を決定するためのスタートポイント局所化モジュール (SPLM) を設計する。一方,マルチスケール適応アテンションモジュール (MAAM) は局所的なテキストの特徴を適応的に集約するために提案されている。 LSGSpotterは、グリッドサンプリング戦略により計算資源のコストを軽減しつつ、洗練された検出の制限なしに任意の読み出し順序スポッティングタスクを達成する。 LSGSpotterはInverseTextベンチマークで最先端のパフォーマンスを達成した。さらに,任意の字型テキストに対する英語のベンチマークでは,Ttal-Text と SCUT-CTW1500 では 0.7 %,2.5 % の改善が見られた。これらの結果は,任意の読み順と形状のシーンテキストに対して,テキストスポッターが有効であることを示す。

関連論文リスト

LOGO: Video Text Spotting with Language Collaboration and Glyph Perception Model [20.007650672107566]
ビデオテキストスポッティング(VTS)は、ビデオ内のテキストインスタンスを同時にローカライズ、認識、追跡することを目的としている。最近の方法では、最先端の画像テキストスポッターのゼロショット結果を直接追跡する。特定のデータセット上の微調整トランスフォーマーベースのテキストスポッターにより、パフォーマンスが向上する可能性がある。
論文参考訳（メタデータ） (2024-05-29T15:35:09Z)
TextBlockV2: Towards Precise-Detection-Free Scene Text Spotting with Pre-trained Language Model [17.77384627944455]
既存のシーンテキストスポッターは、画像からテキストを見つけて書き起こすように設計されている。提案するシーンテキストスポッターは、高度なPLMを活用して、きめ細かい検出を行うことなく性能を向上させる。 PLMベースの認識モジュールは、事前学習期間中に得られた包括的な言語知識から恩恵を受け、複雑なシナリオを効果的に処理する。
論文参考訳（メタデータ） (2024-03-15T06:38:25Z)
Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文参考訳（メタデータ） (2024-02-27T01:57:09Z)
SwinTextSpotter v2: Towards Better Synergy for Scene Text Spotting [126.01629300244001]
我々はSwinTextSpotter v2と呼ばれる新しいエンドツーエンドのシーンテキストスポッティングフレームワークを提案する。我々は,新しい認識変換モジュールと認識アライメントモジュールを用いて,2つのタスク間の関係を強化する。 SwinTextSpotter v2は、様々な多言語(英語、中国語、ベトナム語)のベンチマークで最先端のパフォーマンスを達成した。
論文参考訳（メタデータ） (2024-01-15T12:33:00Z)
Inverse-like Antagonistic Scene Text Spotting via Reading-Order Estimation and Dynamic Sampling [26.420235903805782]
我々は、IATSと呼ばれる、エンドツーエンドのトレーニング可能な逆対角テキストスポッティングフレームワークを提案する。具体的には、初期テキスト境界から読み順情報を抽出する革新的な読み順推定モジュール(REM)を提案する。本手法は不規則なテキストスポッティングと逆テキストスポッティングの両方において優れた性能を示す。
論文参考訳（メタデータ） (2024-01-08T02:47:47Z)
TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。 TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文参考訳（メタデータ） (2023-06-06T03:37:41Z)
Text Detection & Recognition in the Wild for Robot Localization [1.52292571922932]
テキスト文字列とバウンディングボックスを同時に出力するエンド・ツー・エンドシーンテキストスポッティングモデルを提案する。我々の中心的な貢献は、不規則かつ隠蔽されたテキスト領域を適切にキャプチャするために、エンドツーエンドのテキストスポッティングフレームワークを利用することである。
論文参考訳（メタデータ） (2022-05-17T18:16:34Z)
SwinTextSpotter: Scene Text Spotting via Better Synergy between Text Detection and Text Recognition [73.61592015908353]
本稿では,SwinTextSpotter と呼ばれるシーンテキストスポッティングフレームワークを提案する。動的頭部を検出器とするトランスを用いて、2つのタスクを新しい認識変換機構で統一する。この設計は、追加の修正モジュールも文字レベルのアノテーションも必要としない簡潔なフレームワークをもたらす。
論文参考訳（メタデータ） (2022-03-19T01:14:42Z)
MOST: A Multi-Oriented Scene Text Detector with Localization Refinement [67.35280008722255]
シーンテキスト検出のための新しいアルゴリズムを提案し、テキストローカリゼーションの品質を大幅に向上させる一連の戦略を提案する。具体的には,テキスト・フィーチャー・アライメント・モジュール (TFAM) を提案し,特徴の受容領域を動的に調整する。信頼できないものを排除するために、位置認識非最大抑制(PA-NMS)モジュールを考案する。
論文参考訳（メタデータ） (2021-04-02T14:34:41Z)
Text Perceptron: Towards End-to-End Arbitrary-Shaped Text Spotting [49.768327669098674]
テキストパーセプトロン(Text Perceptron)という,エンドツーエンドのトレーニング可能なテキストスポッティング手法を提案する。まず、テキスト読解順序と境界情報を学ぶ効率的なセグメンテーションベースのテキスト検出器を用いる。次に、検出された特徴領域を正規形態に変換するために、新しい形状変換モジュール(STM)を設計する。
論文参考訳（メタデータ） (2020-02-17T08:07:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。