論文の概要: A3S: Adversarial learning of semantic representations for Scene-Text
Spotting
- arxiv url: http://arxiv.org/abs/2302.10641v1
- Date: Tue, 21 Feb 2023 12:59:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-22 15:22:07.139690
- Title: A3S: Adversarial learning of semantic representations for Scene-Text
Spotting
- Title(参考訳): A3S:シーンテキストスポッティングのための意味表現の逆学習
- Authors: Masato Fujitake
- Abstract要約: シーンテキストスポッティング(Scene-text spotting)は、自然のシーン画像上のテキスト領域を予測し、そのテキスト文字を同時に認識するタスクである。
本稿では,シーンテキストスポッティング(A3S)における意味表現の対角学習を提案し,テキスト認識を含むエンドツーエンドの精度を向上させる。
A3Sは、既存の視覚的特徴に基づいてテキスト認識のみを実行するのではなく、検出されたテキスト領域における意味的特徴を同時に予測する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene-text spotting is a task that predicts a text area on natural scene
images and recognizes its text characters simultaneously. It has attracted much
attention in recent years due to its wide applications. Existing research has
mainly focused on improving text region detection, not text recognition. Thus,
while detection accuracy is improved, the end-to-end accuracy is insufficient.
Texts in natural scene images tend to not be a random string of characters but
a meaningful string of characters, a word. Therefore, we propose adversarial
learning of semantic representations for scene text spotting (A3S) to improve
end-to-end accuracy, including text recognition. A3S simultaneously predicts
semantic features in the detected text area instead of only performing text
recognition based on existing visual features. Experimental results on publicly
available datasets show that the proposed method achieves better accuracy than
other methods.
- Abstract(参考訳): シーンテキストスポッティング(Scene-text spotting)は、自然のシーン画像上のテキスト領域を予測し、そのテキスト文字を同時に認識するタスクである。
近年は広く応用されているため注目されている。
既存の研究は主にテキスト認識ではなく、テキスト領域検出の改善に重点を置いている。
これにより、検出精度が向上する一方、エンドツーエンド精度が不十分となる。
自然風景画像中のテキストは、ランダムな文字列ではなく、意味のある文字列である単語である傾向がある。
そこで本研究では,シーンテキストスポッティング(A3S)における意味表現の逆学習を提案し,テキスト認識を含むエンドツーエンドの精度を向上させる。
a3sは、既存の視覚特徴に基づいてテキスト認識を行う代わりに、検出されたテキスト領域における意味的特徴を同時に予測する。
公開データセットを用いた実験の結果,提案手法は他の手法よりも精度が高いことがわかった。
関連論文リスト
- TextBlockV2: Towards Precise-Detection-Free Scene Text Spotting with Pre-trained Language Model [17.77384627944455]
既存のシーンテキストスポッターは、画像からテキストを見つけて書き起こすように設計されている。
提案するシーンテキストスポッターは、高度なPLMを活用して、きめ細かい検出を行うことなく性能を向上させる。
PLMベースの認識モジュールは、事前学習期間中に得られた包括的な言語知識から恩恵を受け、複雑なシナリオを効果的に処理する。
論文 参考訳(メタデータ) (2024-03-15T06:38:25Z) - Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - SwinTextSpotter v2: Towards Better Synergy for Scene Text Spotting [126.01629300244001]
我々はSwinTextSpotter v2と呼ばれる新しいエンドツーエンドのシーンテキストスポッティングフレームワークを提案する。
我々は,新しい認識変換モジュールと認識アライメントモジュールを用いて,2つのタスク間の関係を強化する。
SwinTextSpotter v2は、様々な多言語(英語、中国語、ベトナム語)のベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-01-15T12:33:00Z) - Decoupling Recognition from Detection: Single Shot Self-Reliant Scene
Text Spotter [34.09162878714425]
単発自撮りScene Text Spotter(SRSTS)を提案する。
テキストの検出と認識を並列に行い、共有された正のアンカーポイントでそれらをブリッジする。
本手法では,正確なテキスト境界を検出できない場合でも,テキストインスタンスを正しく認識することができる。
論文 参考訳(メタデータ) (2022-07-15T01:59:14Z) - Text Detection & Recognition in the Wild for Robot Localization [1.52292571922932]
テキスト文字列とバウンディングボックスを同時に出力するエンド・ツー・エンドシーンテキストスポッティングモデルを提案する。
我々の中心的な貢献は、不規則かつ隠蔽されたテキスト領域を適切にキャプチャするために、エンドツーエンドのテキストスポッティングフレームワークを利用することである。
論文 参考訳(メタデータ) (2022-05-17T18:16:34Z) - SwinTextSpotter: Scene Text Spotting via Better Synergy between Text
Detection and Text Recognition [73.61592015908353]
本稿では,SwinTextSpotter と呼ばれるシーンテキストスポッティングフレームワークを提案する。
動的頭部を検出器とするトランスを用いて、2つのタスクを新しい認識変換機構で統一する。
この設計は、追加の修正モジュールも文字レベルのアノテーションも必要としない簡潔なフレームワークをもたらす。
論文 参考訳(メタデータ) (2022-03-19T01:14:42Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - Scene Text Retrieval via Joint Text Detection and Similarity Learning [68.24531728554892]
シーンテキスト検索は、与えられたクエリテキストと同じまたは類似している画像ギャラリーからすべてのテキストインスタンスをローカライズし、検索することを目的としています。
自然画像からクエリテキストと各テキストインスタンスのクロスモーダルな類似性を直接学習することでこの問題に対処します。
このように、検出されたテキストインスタンスを学習された類似度でランク付けすることで、シーンテキスト検索を簡単に実行できます。
論文 参考訳(メタデータ) (2021-04-04T07:18:38Z) - AE TextSpotter: Learning Visual and Linguistic Representation for
Ambiguous Text Spotting [98.08853679310603]
本研究はAmbiguity Elimination Text Spotter(AE TextSpotter)という新しいテキストスポッターを提案する。
AE TextSpotterは、視覚的特徴と言語的特徴の両方を学び、テキスト検出の曖昧さを著しく低減する。
我々の知る限り、言語モデルを用いてテキスト検出を改善するのはこれが初めてである。
論文 参考訳(メタデータ) (2020-08-03T08:40:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。