論文の概要: A New Perspective for Flexible Feature Gathering in Scene Text
Recognition Via Character Anchor Pooling
- arxiv url: http://arxiv.org/abs/2002.03509v1
- Date: Mon, 10 Feb 2020 03:01:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 08:59:27.452307
- Title: A New Perspective for Flexible Feature Gathering in Scene Text
Recognition Via Character Anchor Pooling
- Title(参考訳): 文字アンカーポーリングによるシーンテキスト認識におけるフレキシブルな特徴収集の新しい視点
- Authors: Shangbang Long, Yushuo Guan, Kaigui Bian, Cong Yao
- Abstract要約: 本稿では,キャラクタアンコリングモジュール (CAM) とアンカープールモジュール (APM) と呼ばれる結合モジュールのペアを提案する。
CAMは、文字を個別にアンカーすることで、字型非感受性の方法でテキストをローカライズする。APMは、文字アンカーに沿って柔軟に機能を補間して収集し、シーケンス学習を可能にする。
- 参考スコア(独自算出の注目度): 32.82620509088932
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Irregular scene text recognition has attracted much attention from the
research community, mainly due to the complexity of shapes of text in natural
scene.
However, recent methods either rely on shape-sensitive modules such as
bounding box regression, or discard sequence learning.
To tackle these issues, we propose a pair of coupling modules, termed as
Character Anchoring Module (CAM) and Anchor Pooling Module (APM), to extract
high-level semantics from two-dimensional space to form feature sequences.
The proposed CAM localizes the text in a shape-insensitive way by design by
anchoring characters individually.
APM then interpolates and gathers features flexibly along the character
anchors which enables sequence learning.
The complementary modules realize a harmonic unification of spatial
information and sequence learning.
With the proposed modules, our recognition system surpasses previous
state-of-the-art scores on irregular and perspective text datasets, including,
ICDAR 2015, CUTE, and Total-Text, while paralleling state-of-the-art
performance on regular text datasets.
- Abstract(参考訳): 不規則なシーンテキスト認識は、主に自然のシーンにおけるテキストの形状の複雑さのために、研究コミュニティから多くの注目を集めている。
しかし、最近の手法は、境界ボックス回帰のような形状に敏感なモジュールに依存するか、シーケンス学習を捨てる。
これらの問題に対処するため,キャラクタアンコリングモジュール (CAM) とアンカープールモジュール (APM) と呼ばれる結合モジュールのペアを提案し,2次元空間から高レベルなセマンティクスを抽出して特徴系列を生成する。
提案するcamは,文字を個々にアンカーすることで,形状に敏感な方法でテキストをローカライズする。
APMは、文字アンカーに沿って柔軟に機能を補間して収集し、シーケンス学習を可能にする。
相補モジュールは、空間情報とシーケンス学習の調和統一を実現する。
提案したモジュールでは,不規則なテキストデータセット,ICDAR 2015,CUTE,Total-Text,および通常のテキストデータセットの最先端性能の並列化など,従来よりも高い精度で認識システムを実現している。
関連論文リスト
- Class-Aware Mask-Guided Feature Refinement for Scene Text Recognition [56.968108142307976]
CAM(Class-Aware Mask-Guided Feature refinement)と呼ばれる新しい手法を提案する。
本手法では,背景およびテキストスタイルのノイズを抑制するために,標準クラス対応グリフマスクを導入している。
標準マスク特徴とテキスト特徴とのアライメントを強化することにより、モジュールはより効果的な融合を保証する。
論文 参考訳(メタデータ) (2024-02-21T09:22:45Z) - Inverse-like Antagonistic Scene Text Spotting via Reading-Order
Estimation and Dynamic Sampling [26.420235903805782]
我々は、IATSと呼ばれる、エンドツーエンドのトレーニング可能な逆対角テキストスポッティングフレームワークを提案する。
具体的には、初期テキスト境界から読み順情報を抽出する革新的な読み順推定モジュール(REM)を提案する。
本手法は不規則なテキストスポッティングと逆テキストスポッティングの両方において優れた性能を示す。
論文 参考訳(メタデータ) (2024-01-08T02:47:47Z) - FLIP: Towards Fine-grained Alignment between ID-based Models and
Pretrained Language Models for CTR Prediction [51.64257638308695]
本稿では,クリックスルー率(CTR)予測のためのIDベースモデルと事前学習言語モデル(FLIP)間の細粒度特徴レベルのアライメントを提案する。
具体的には、1つのモダリティ(トークンや特徴)のマスキングされたデータは、他のモダリティの助けを借りて回復し、特徴レベルの相互作用とアライメントを確立する必要がある。
論文 参考訳(メタデータ) (2023-10-30T11:25:03Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [72.79006668848186]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - ISS: Image as Stetting Stone for Text-Guided 3D Shape Generation [91.37036638939622]
本稿では,2つのモダリティを接続するステップストーンとして2次元画像を導入することで,その課題に対して,イメージ・アズ・ステッピング・ストーン(ISS)と呼ばれる新しいフレームワークを提案する。
私たちの重要な貢献は、CLIP機能を形状にマッピングする2段階の機能空間アライメントアプローチです。
出力形状を新しいテクスチャで表現するために,テキストガイド型スタイル化モジュールを定式化する。
論文 参考訳(メタデータ) (2022-09-09T06:54:21Z) - Learning Semantic-Aligned Feature Representation for Text-based Person
Search [8.56017285139081]
テキストに基づく人物検索のためのセマンティック・アライン・埋め込み手法を提案する。
特徴アライメントは、意味的に整った視覚的特徴とテキスト的特徴を自動的に学習することで達成される。
CUHK-PEDESおよびFlickr30Kデータセットによる実験結果から,本手法が最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-12-13T14:54:38Z) - I3CL:Intra- and Inter-Instance Collaborative Learning for
Arbitrary-shaped Scene Text Detection [93.62705504233931]
事例間協調学習(I3CL)という新しい手法を提案する。
具体的には、最初の問題に対処するため、複数の受容場を持つ効率的な畳み込みモジュールを設計する。
2つ目の問題に対処するため、異なるテキストインスタンス間の依存関係を利用するインスタンスベースのトランスフォーマーモジュールを考案しました。
論文 参考訳(メタデータ) (2021-08-03T07:48:12Z) - Referring Image Segmentation via Cross-Modal Progressive Comprehension [94.70482302324704]
画像セグメンテーションの参照は、自然言語表現で与えられた記述によく一致するエンティティの前景マスクをセグメンテーションすることを目的としている。
従来のアプローチでは、暗黙的な特徴相互作用と視覚的モダリティと言語的モダリティの融合を用いてこの問題に対処していた。
本稿では,この課題に効果的に対応するために,Cross-Modal Progressive (CMPC) モジュールと Text-Guided Feature Exchange (TGFE) モジュールを提案する。
論文 参考訳(メタデータ) (2020-10-01T16:02:30Z) - SCATTER: Selective Context Attentional Scene Text Recognizer [16.311256552979835]
Scene Text Recognition (STR) は複雑な画像背景に対してテキストを認識するタスクである。
現在のSOTA(State-of-the-art)メソッドは、任意の形で書かれたテキストを認識するのに依然として苦労している。
Selective Context Attentional Text Recognizer (SCATTER) というSTRの新しいアーキテクチャを導入する。
論文 参考訳(メタデータ) (2020-03-25T09:20:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。