論文の概要: GLASS: Global to Local Attention for Scene-Text Spotting
- arxiv url: http://arxiv.org/abs/2208.03364v1
- Date: Fri, 5 Aug 2022 19:14:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-09 12:21:57.980787
- Title: GLASS: Global to Local Attention for Scene-Text Spotting
- Title(参考訳): GLASS: シーンテキストスポッティングのためのグローバルからローカルへの注意
- Authors: Roi Ronen and Shahar Tsiper and Oron Anschel and Inbal Lavi and Amir
Markovitz and R. Manmatha
- Abstract要約: 近年,テキストスポッティングの主要なパラダイムは,テキスト検出と認識のタスクを1つのエンドツーエンドフレームワークに組み合わせることである。
本稿では,グローバルな特徴とローカルな特徴を融合させる,GLASSと呼ばれるテキストスポッティングのための新しいグローバル・ローカル・アテンション機構を提案する。
提案手法は,新たにリリースされたTextOCRを含む複数のベンチマークにおいて,最先端の結果を達成している。
- 参考スコア(独自算出の注目度): 10.912265692325722
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, the dominant paradigm for text spotting is to combine the
tasks of text detection and recognition into a single end-to-end framework.
Under this paradigm, both tasks are accomplished by operating over a shared
global feature map extracted from the input image. Among the main challenges
that end-to-end approaches face is the performance degradation when recognizing
text across scale variations (smaller or larger text), and arbitrary word
rotation angles. In this work, we address these challenges by proposing a novel
global-to-local attention mechanism for text spotting, termed GLASS, that fuses
together global and local features. The global features are extracted from the
shared backbone, preserving contextual information from the entire image, while
the local features are computed individually on resized, high-resolution
rotated word crops. The information extracted from the local crops alleviates
much of the inherent difficulties with scale and word rotation. We show a
performance analysis across scales and angles, highlighting improvement over
scale and angle extremities. In addition, we introduce an orientation-aware
loss term supervising the detection task, and show its contribution to both
detection and recognition performance across all angles. Finally, we show that
GLASS is general by incorporating it into other leading text spotting
architectures, improving their text spotting performance. Our method achieves
state-of-the-art results on multiple benchmarks, including the newly released
TextOCR.
- Abstract(参考訳): 近年,テキストスポッティングの主要なパラダイムは,テキスト検出と認識のタスクを1つのエンドツーエンドフレームワークに組み合わせることである。
このパラダイムでは、両方のタスクは、入力画像から抽出された共有グローバルフィーチャマップ上で動作することによって達成される。
エンド・ツー・エンドのアプローチが直面する主な課題は、スケールのバリエーション(より小さいか大きいか)にまたがるテキスト認識時の性能劣化と、任意の単語回転角である。
本研究では,GLASSと呼ばれるテキストスポッティングのための新しいグローバル・ローカル・アテンション機構を提案することで,これらの課題に対処する。
グローバルな特徴は、共有バックボーンから抽出され、画像全体からコンテキスト情報を保存し、局所的特徴は、再サイズで高分解能な回転語作物で個別に計算される。
現地の作物から抽出された情報は、スケールや単語の回転に固有の困難の多くを軽減する。
スケールとアングルにまたがるパフォーマンス分析を行い、スケールとアングルの四肢に対する改善を強調する。
さらに,検出タスクを監督する方向認識損失項を導入し,全角度にわたって検出および認識性能に寄与することを示す。
最後に,他の主要なテキストスポッティングアーキテクチャにGLASSを組み込むことで,テキストスポッティング性能を向上することを示す。
提案手法は,新たにリリースされたTextOCRを含む複数のベンチマークにおいて,最先端の結果を得る。
関連論文リスト
- Bridging Local Details and Global Context in Text-Attributed Graphs [62.522550655068336]
GraphBridgeは、コンテキストテキスト情報を活用することで、ローカルおよびグローバルな視点をブリッジするフレームワークである。
提案手法は最先端性能を実現し,グラフ対応トークン削減モジュールは効率を大幅に向上し,スケーラビリティの問題を解消する。
論文 参考訳(メタデータ) (2024-06-18T13:35:25Z) - LOGO: Video Text Spotting with Language Collaboration and Glyph Perception Model [20.007650672107566]
ビデオテキストスポッティング(VTS)は、ビデオ内のテキストインスタンスを同時にローカライズ、認識、追跡することを目的としている。
最近の方法では、最先端の画像テキストスポッターのゼロショット結果を直接追跡する。
特定のデータセット上の微調整トランスフォーマーベースのテキストスポッターにより、パフォーマンスが向上する可能性がある。
論文 参考訳(メタデータ) (2024-05-29T15:35:09Z) - mTREE: Multi-Level Text-Guided Representation End-to-End Learning for Whole Slide Image Analysis [16.472295458683696]
マルチモーダル学習は視覚とテキストのデータを統合するが、その病理像やテキスト解析への応用は依然として困難である。
マルチレベルテキストガイド表現のエンド・ツー・エンド・ラーニング(mTREE)を導入する。
この新しいテキスト誘導アプローチは、テキスト病理情報からの情報を活用することで、WSI(Whole Slide Images)を効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-05-28T04:47:44Z) - TextCoT: Zoom In for Enhanced Multimodal Text-Rich Image Understanding [91.30065932213758]
大規模マルチモーダルモデル(LMM)は、その顕著な推論能力を活用することを目的とした研究の急増を引き起こした。
テキストリッチな画像理解のための新しいChain-of-ThoughtフレームワークであるTextCoTを提案する。
私たちのメソッドは追加のトレーニングが不要で、即時プラグアンドプレイ機能を提供します。
論文 参考訳(メタデータ) (2024-04-15T13:54:35Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - Toward Understanding WordArt: Corner-Guided Transformer for Scene Text
Recognition [63.6608759501803]
我々は芸術的テキストを3つのレベルで認識することを提案する。
コーナーポイントは、文字内の局所的な特徴の抽出を誘導するために用いられる。
第二に、文字レベルの特徴をモデル化するために文字の対照的な損失を設計し、文字分類のための特徴表現を改善する。
第3に,Transformerを用いて画像レベルのグローバルな特徴を学習し,コーナーポイントのグローバルな関係をモデル化する。
論文 参考訳(メタデータ) (2022-07-31T14:11:05Z) - SwinTextSpotter: Scene Text Spotting via Better Synergy between Text
Detection and Text Recognition [73.61592015908353]
本稿では,SwinTextSpotter と呼ばれるシーンテキストスポッティングフレームワークを提案する。
動的頭部を検出器とするトランスを用いて、2つのタスクを新しい認識変換機構で統一する。
この設計は、追加の修正モジュールも文字レベルのアノテーションも必要としない簡潔なフレームワークをもたらす。
論文 参考訳(メタデータ) (2022-03-19T01:14:42Z) - Attention-based Feature Decomposition-Reconstruction Network for Scene
Text Detection [20.85468268945721]
シーンテキスト検出のための注意に基づく特徴分解再構成ネットワークを提案する。
我々は文脈情報と低レベル特徴を用いてセグメンテーションに基づくテキスト検出の性能を向上させる。
2つの公開ベンチマークデータセットを用いて実験を行い,提案手法が最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2021-11-29T06:15:25Z) - MANGO: A Mask Attention Guided One-Stage Scene Text Spotter [41.66707532607276]
MANGOという,新しいMask AttentioN Guided One-stage text Spotting frameworkを提案する。
提案手法は,正規テキストスポッティングベンチマークと不規則テキストスポッティングベンチマークの両方において,競争力と新たな最先端性能を実現する。
論文 参考訳(メタデータ) (2020-12-08T10:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。