論文の概要: GLASS: Global to Local Attention for Scene-Text Spotting
- arxiv url: http://arxiv.org/abs/2208.03364v1
- Date: Fri, 5 Aug 2022 19:14:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-09 12:21:57.980787
- Title: GLASS: Global to Local Attention for Scene-Text Spotting
- Title(参考訳): GLASS: シーンテキストスポッティングのためのグローバルからローカルへの注意
- Authors: Roi Ronen and Shahar Tsiper and Oron Anschel and Inbal Lavi and Amir
Markovitz and R. Manmatha
- Abstract要約: 近年,テキストスポッティングの主要なパラダイムは,テキスト検出と認識のタスクを1つのエンドツーエンドフレームワークに組み合わせることである。
本稿では,グローバルな特徴とローカルな特徴を融合させる,GLASSと呼ばれるテキストスポッティングのための新しいグローバル・ローカル・アテンション機構を提案する。
提案手法は,新たにリリースされたTextOCRを含む複数のベンチマークにおいて,最先端の結果を達成している。
- 参考スコア(独自算出の注目度): 10.912265692325722
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, the dominant paradigm for text spotting is to combine the
tasks of text detection and recognition into a single end-to-end framework.
Under this paradigm, both tasks are accomplished by operating over a shared
global feature map extracted from the input image. Among the main challenges
that end-to-end approaches face is the performance degradation when recognizing
text across scale variations (smaller or larger text), and arbitrary word
rotation angles. In this work, we address these challenges by proposing a novel
global-to-local attention mechanism for text spotting, termed GLASS, that fuses
together global and local features. The global features are extracted from the
shared backbone, preserving contextual information from the entire image, while
the local features are computed individually on resized, high-resolution
rotated word crops. The information extracted from the local crops alleviates
much of the inherent difficulties with scale and word rotation. We show a
performance analysis across scales and angles, highlighting improvement over
scale and angle extremities. In addition, we introduce an orientation-aware
loss term supervising the detection task, and show its contribution to both
detection and recognition performance across all angles. Finally, we show that
GLASS is general by incorporating it into other leading text spotting
architectures, improving their text spotting performance. Our method achieves
state-of-the-art results on multiple benchmarks, including the newly released
TextOCR.
- Abstract(参考訳): 近年,テキストスポッティングの主要なパラダイムは,テキスト検出と認識のタスクを1つのエンドツーエンドフレームワークに組み合わせることである。
このパラダイムでは、両方のタスクは、入力画像から抽出された共有グローバルフィーチャマップ上で動作することによって達成される。
エンド・ツー・エンドのアプローチが直面する主な課題は、スケールのバリエーション(より小さいか大きいか)にまたがるテキスト認識時の性能劣化と、任意の単語回転角である。
本研究では,GLASSと呼ばれるテキストスポッティングのための新しいグローバル・ローカル・アテンション機構を提案することで,これらの課題に対処する。
グローバルな特徴は、共有バックボーンから抽出され、画像全体からコンテキスト情報を保存し、局所的特徴は、再サイズで高分解能な回転語作物で個別に計算される。
現地の作物から抽出された情報は、スケールや単語の回転に固有の困難の多くを軽減する。
スケールとアングルにまたがるパフォーマンス分析を行い、スケールとアングルの四肢に対する改善を強調する。
さらに,検出タスクを監督する方向認識損失項を導入し,全角度にわたって検出および認識性能に寄与することを示す。
最後に,他の主要なテキストスポッティングアーキテクチャにGLASSを組み込むことで,テキストスポッティング性能を向上することを示す。
提案手法は,新たにリリースされたTextOCRを含む複数のベンチマークにおいて,最先端の結果を得る。
関連論文リスト
- ESTextSpotter: Towards Better Scene Text Spotting with Explicit Synergy
in Transformer [88.61312640540902]
明示的な構文に基づくテキストスポッティング変換フレームワーク(ESTextSpotter)を紹介する。
本モデルは,1つのデコーダ内におけるテキスト検出と認識のための識別的,インタラクティブな特徴をモデル化することにより,明示的な相乗効果を実現する。
実験結果から,本モデルが従来の最先端手法よりも有意に優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-08-20T03:22:23Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [72.79006668848186]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - Word-Level Fine-Grained Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、動的シーンやキャラクターをまたいだグローバルな一貫性を備えた多文ストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は画像の品質と一貫性に苦慮しており、追加のセマンティック情報や補助的なキャプションネットワークに依存している。
まず,全ての物語文からの単語情報を取り入れた新しい文表現を導入し,不整合問題を緩和する。
そこで本稿では,画像の質とストーリーの整合性を改善するために,融合機能を備えた新たな識別器を提案する。
論文 参考訳(メタデータ) (2022-08-03T21:01:47Z) - Toward Understanding WordArt: Corner-Guided Transformer for Scene Text
Recognition [63.6608759501803]
我々は芸術的テキストを3つのレベルで認識することを提案する。
コーナーポイントは、文字内の局所的な特徴の抽出を誘導するために用いられる。
第二に、文字レベルの特徴をモデル化するために文字の対照的な損失を設計し、文字分類のための特徴表現を改善する。
第3に,Transformerを用いて画像レベルのグローバルな特徴を学習し,コーナーポイントのグローバルな関係をモデル化する。
論文 参考訳(メタデータ) (2022-07-31T14:11:05Z) - SwinTextSpotter: Scene Text Spotting via Better Synergy between Text
Detection and Text Recognition [73.61592015908353]
本稿では,SwinTextSpotter と呼ばれるシーンテキストスポッティングフレームワークを提案する。
動的頭部を検出器とするトランスを用いて、2つのタスクを新しい認識変換機構で統一する。
この設計は、追加の修正モジュールも文字レベルのアノテーションも必要としない簡潔なフレームワークをもたらす。
論文 参考訳(メタデータ) (2022-03-19T01:14:42Z) - Towards Weakly-Supervised Text Spotting using a Multi-Task Transformer [21.479222207347238]
テキストスポッティングのための変換器ベースのアプローチであるTextTranSpotter(TTS)を紹介する。
TTSは、完全に管理された設定と弱い設定の両方で訓練される。
TextTranSpotterは、完全に教師された方法でトレーニングされ、複数のベンチマークで最先端の結果を表示する。
論文 参考訳(メタデータ) (2022-02-11T08:50:09Z) - Attention-based Feature Decomposition-Reconstruction Network for Scene
Text Detection [20.85468268945721]
シーンテキスト検出のための注意に基づく特徴分解再構成ネットワークを提案する。
我々は文脈情報と低レベル特徴を用いてセグメンテーションに基づくテキスト検出の性能を向上させる。
2つの公開ベンチマークデータセットを用いて実験を行い,提案手法が最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2021-11-29T06:15:25Z) - Towards Robust Visual Information Extraction in Real World: New Dataset
and Novel Solution [30.438041837029875]
実世界のシナリオに向けた堅牢な視覚情報抽出システム(VIES)を提案する。
VIESは、同時テキスト検出、認識、情報抽出のための統一されたエンドツーエンドのトレーニング可能なフレームワークです。
テキストスポッティングと視覚情報抽出の両方の中国初のベンチマークであるephoieと呼ばれる完全注釈付きデータセットを構築した。
論文 参考訳(メタデータ) (2021-01-24T11:05:24Z) - MANGO: A Mask Attention Guided One-Stage Scene Text Spotter [41.66707532607276]
MANGOという,新しいMask AttentioN Guided One-stage text Spotting frameworkを提案する。
提案手法は,正規テキストスポッティングベンチマークと不規則テキストスポッティングベンチマークの両方において,競争力と新たな最先端性能を実現する。
論文 参考訳(メタデータ) (2020-12-08T10:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。