論文の概要: Towards Weakly-Supervised Text Spotting using a Multi-Task Transformer
- arxiv url: http://arxiv.org/abs/2202.05508v1
- Date: Fri, 11 Feb 2022 08:50:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-14 13:59:28.852474
- Title: Towards Weakly-Supervised Text Spotting using a Multi-Task Transformer
- Title(参考訳): マルチタスク変換器を用いた弱修正テキストスポッティング
- Authors: Yair Kittenplon, Inbal Lavi, Sharon Fogel, Yarin Bar, R. Manmatha,
Pietro Perona
- Abstract要約: TextTranSpotterは、テキストスポッティングのためのトランスフォーマーベースのアプローチである。
完全に管理された設定と弱い設定の両方でトレーニングされる。
完全に教師された方法でトレーニングを行うと、TextTranSpotterは複数のベンチマークで最先端の結果を表示する。
- 参考スコア(独自算出の注目度): 21.479222207347238
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text spotting end-to-end methods have recently gained attention in the
literature due to the benefits of jointly optimizing the text detection and
recognition components. Existing methods usually have a distinct separation
between the detection and recognition branches, requiring exact annotations for
the two tasks. We introduce TextTranSpotter (TTS), a transformer-based approach
for text spotting and the first text spotting framework which may be trained
with both fully- and weakly-supervised settings. By learning a single latent
representation per word detection, and using a novel loss function based on the
Hungarian loss, our method alleviates the need for expensive localization
annotations. Trained with only text transcription annotations on real data, our
weakly-supervised method achieves competitive performance with previous
state-of-the-art fully-supervised methods. When trained in a fully-supervised
manner, TextTranSpotter shows state-of-the-art results on multiple benchmarks
\footnote {Our code will be publicly available upon publication.
- Abstract(参考訳): 近年,テキスト検出と認識コンポーネントの共同最適化のメリットから,テキストスポッティングのエンドツーエンド手法が注目されている。
既存のメソッドは通常、検出と認識のブランチを分離し、2つのタスクに正確なアノテーションを必要とする。
テキストスポッティングのためのトランスフォーマーベースのアプローチであるTextTranSpotter(TTS)と、完全に教師付きされた設定と弱い設定の両方でトレーニング可能な最初のテキストスポッティングフレームワークを紹介する。
単語検出毎に1つの潜在表現を学習し,ハンガリー語の損失に基づく新たな損失関数を用いることで,高価なローカライゼーションアノテーションの必要性を軽減した。
実データにのみテキスト書き起こしアノテーションをトレーニングすることにより,従来の最先端の完全教師付き手法と競合する性能を実現する。
TextTranSpotterは、完全に教師された方法でトレーニングされた場合、複数のベンチマークで最先端の結果を表示する。
関連論文リスト
- Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - SwinTextSpotter v2: Towards Better Synergy for Scene Text Spotting [126.01629300244001]
我々はSwinTextSpotter v2と呼ばれる新しいエンドツーエンドのシーンテキストスポッティングフレームワークを提案する。
我々は,新しい認識変換モジュールと認識アライメントモジュールを用いて,2つのタスク間の関係を強化する。
SwinTextSpotter v2は、様々な多言語(英語、中国語、ベトナム語)のベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-01-15T12:33:00Z) - ESTextSpotter: Towards Better Scene Text Spotting with Explicit Synergy
in Transformer [88.61312640540902]
明示的な構文に基づくテキストスポッティング変換フレームワーク(ESTextSpotter)を紹介する。
本モデルは,1つのデコーダ内におけるテキスト検出と認識のための識別的,インタラクティブな特徴をモデル化することにより,明示的な相乗効果を実現する。
実験結果から,本モデルが従来の最先端手法よりも有意に優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-08-20T03:22:23Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Decoupling Recognition from Detection: Single Shot Self-Reliant Scene
Text Spotter [34.09162878714425]
単発自撮りScene Text Spotter(SRSTS)を提案する。
テキストの検出と認識を並列に行い、共有された正のアンカーポイントでそれらをブリッジする。
本手法では,正確なテキスト境界を検出できない場合でも,テキストインスタンスを正しく認識することができる。
論文 参考訳(メタデータ) (2022-07-15T01:59:14Z) - SwinTextSpotter: Scene Text Spotting via Better Synergy between Text
Detection and Text Recognition [73.61592015908353]
本稿では,SwinTextSpotter と呼ばれるシーンテキストスポッティングフレームワークを提案する。
動的頭部を検出器とするトランスを用いて、2つのタスクを新しい認識変換機構で統一する。
この設計は、追加の修正モジュールも文字レベルのアノテーションも必要としない簡潔なフレームワークをもたらす。
論文 参考訳(メタデータ) (2022-03-19T01:14:42Z) - Text Recognition -- Real World Data and Where to Find Them [36.10220484561196]
本稿では,弱い注釈付き画像を利用してテキスト抽出パイプラインを改善する手法を提案する。
このアプローチでは、任意のエンドツーエンドのテキスト認識システムを使用して、テキスト領域の提案と、おそらく誤った書き起こしを取得する。
シーンテキストのほとんどエラーのないローカライズされたインスタンスを生成し、これが"擬似基底真理"(PGT)として扱う。
論文 参考訳(メタデータ) (2020-07-06T22:23:27Z) - Text Perceptron: Towards End-to-End Arbitrary-Shaped Text Spotting [49.768327669098674]
テキストパーセプトロン(Text Perceptron)という,エンドツーエンドのトレーニング可能なテキストスポッティング手法を提案する。
まず、テキスト読解順序と境界情報を学ぶ効率的なセグメンテーションベースのテキスト検出器を用いる。
次に、検出された特徴領域を正規形態に変換するために、新しい形状変換モジュール(STM)を設計する。
論文 参考訳(メタデータ) (2020-02-17T08:07:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。