論文の概要: A New Perspective for Flexible Feature Gathering in Scene Text
Recognition Via Character Anchor Pooling
- arxiv url: http://arxiv.org/abs/2002.03509v1
- Date: Mon, 10 Feb 2020 03:01:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 08:59:27.452307
- Title: A New Perspective for Flexible Feature Gathering in Scene Text
Recognition Via Character Anchor Pooling
- Title(参考訳): 文字アンカーポーリングによるシーンテキスト認識におけるフレキシブルな特徴収集の新しい視点
- Authors: Shangbang Long, Yushuo Guan, Kaigui Bian, Cong Yao
- Abstract要約: 本稿では,キャラクタアンコリングモジュール (CAM) とアンカープールモジュール (APM) と呼ばれる結合モジュールのペアを提案する。
CAMは、文字を個別にアンカーすることで、字型非感受性の方法でテキストをローカライズする。APMは、文字アンカーに沿って柔軟に機能を補間して収集し、シーケンス学習を可能にする。
- 参考スコア(独自算出の注目度): 32.82620509088932
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Irregular scene text recognition has attracted much attention from the
research community, mainly due to the complexity of shapes of text in natural
scene.
However, recent methods either rely on shape-sensitive modules such as
bounding box regression, or discard sequence learning.
To tackle these issues, we propose a pair of coupling modules, termed as
Character Anchoring Module (CAM) and Anchor Pooling Module (APM), to extract
high-level semantics from two-dimensional space to form feature sequences.
The proposed CAM localizes the text in a shape-insensitive way by design by
anchoring characters individually.
APM then interpolates and gathers features flexibly along the character
anchors which enables sequence learning.
The complementary modules realize a harmonic unification of spatial
information and sequence learning.
With the proposed modules, our recognition system surpasses previous
state-of-the-art scores on irregular and perspective text datasets, including,
ICDAR 2015, CUTE, and Total-Text, while paralleling state-of-the-art
performance on regular text datasets.
- Abstract(参考訳): 不規則なシーンテキスト認識は、主に自然のシーンにおけるテキストの形状の複雑さのために、研究コミュニティから多くの注目を集めている。
しかし、最近の手法は、境界ボックス回帰のような形状に敏感なモジュールに依存するか、シーケンス学習を捨てる。
これらの問題に対処するため,キャラクタアンコリングモジュール (CAM) とアンカープールモジュール (APM) と呼ばれる結合モジュールのペアを提案し,2次元空間から高レベルなセマンティクスを抽出して特徴系列を生成する。
提案するcamは,文字を個々にアンカーすることで,形状に敏感な方法でテキストをローカライズする。
APMは、文字アンカーに沿って柔軟に機能を補間して収集し、シーケンス学習を可能にする。
相補モジュールは、空間情報とシーケンス学習の調和統一を実現する。
提案したモジュールでは,不規則なテキストデータセット,ICDAR 2015,CUTE,Total-Text,および通常のテキストデータセットの最先端性能の並列化など,従来よりも高い精度で認識システムを実現している。
関連論文リスト
- Leveraging Structure Knowledge and Deep Models for the Detection of Abnormal Handwritten Text [19.05500901000957]
構造知識と手書きテキストの深層モデルを組み合わせた2段階検出アルゴリズムを提案する。
新たな半教師付きコントラストトレーニング戦略によって訓練された形状回帰ネットワークを導入し、文字間の位置関係を十分に活用する。
2つの手書きテキストデータセットを用いた実験により,提案手法は検出性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2024-10-15T14:57:10Z) - Towards Unified Multi-granularity Text Detection with Interactive Attention [56.79437272168507]
Detect Any Text"は、シーンテキストの検出、レイアウト分析、ドキュメントページの検出を結合的なエンドツーエンドモデルに統合する高度なパラダイムである。
DATにおける重要なイノベーションは、テキストインスタンスの表現学習を大幅に強化する、粒度横断型アテンションモジュールである。
テストによると、DATは様々なテキスト関連ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-05-30T07:25:23Z) - CFPL-FAS: Class Free Prompt Learning for Generalizable Face Anti-spoofing [66.6712018832575]
ドメイン一般化 (DG) ベースの Face Anti-Spoofing (FAS) は、目に見えないドメインにおけるモデルの性能を改善することを目的としている。
私たちはCLIPのような大規模VLMを利用し、テキスト機能を利用して分類器の重みを動的に調整し、一般化可能な視覚的特徴を探索する。
論文 参考訳(メタデータ) (2024-03-21T11:58:50Z) - Class-Aware Mask-Guided Feature Refinement for Scene Text Recognition [56.968108142307976]
CAM(Class-Aware Mask-Guided Feature refinement)と呼ばれる新しい手法を提案する。
本手法では,背景およびテキストスタイルのノイズを抑制するために,標準クラス対応グリフマスクを導入している。
標準マスク特徴とテキスト特徴とのアライメントを強化することにより、モジュールはより効果的な融合を保証する。
論文 参考訳(メタデータ) (2024-02-21T09:22:45Z) - Inverse-like Antagonistic Scene Text Spotting via Reading-Order
Estimation and Dynamic Sampling [26.420235903805782]
我々は、IATSと呼ばれる、エンドツーエンドのトレーニング可能な逆対角テキストスポッティングフレームワークを提案する。
具体的には、初期テキスト境界から読み順情報を抽出する革新的な読み順推定モジュール(REM)を提案する。
本手法は不規則なテキストスポッティングと逆テキストスポッティングの両方において優れた性能を示す。
論文 参考訳(メタデータ) (2024-01-08T02:47:47Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - ISS: Image as Stetting Stone for Text-Guided 3D Shape Generation [91.37036638939622]
本稿では,2つのモダリティを接続するステップストーンとして2次元画像を導入することで,その課題に対して,イメージ・アズ・ステッピング・ストーン(ISS)と呼ばれる新しいフレームワークを提案する。
私たちの重要な貢献は、CLIP機能を形状にマッピングする2段階の機能空間アライメントアプローチです。
出力形状を新しいテクスチャで表現するために,テキストガイド型スタイル化モジュールを定式化する。
論文 参考訳(メタデータ) (2022-09-09T06:54:21Z) - I3CL:Intra- and Inter-Instance Collaborative Learning for
Arbitrary-shaped Scene Text Detection [93.62705504233931]
事例間協調学習(I3CL)という新しい手法を提案する。
具体的には、最初の問題に対処するため、複数の受容場を持つ効率的な畳み込みモジュールを設計する。
2つ目の問題に対処するため、異なるテキストインスタンス間の依存関係を利用するインスタンスベースのトランスフォーマーモジュールを考案しました。
論文 参考訳(メタデータ) (2021-08-03T07:48:12Z) - SCATTER: Selective Context Attentional Scene Text Recognizer [16.311256552979835]
Scene Text Recognition (STR) は複雑な画像背景に対してテキストを認識するタスクである。
現在のSOTA(State-of-the-art)メソッドは、任意の形で書かれたテキストを認識するのに依然として苦労している。
Selective Context Attentional Text Recognizer (SCATTER) というSTRの新しいアーキテクチャを導入する。
論文 参考訳(メタデータ) (2020-03-25T09:20:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。