論文の概要: CDistNet: Perceiving Multi-Domain Character Distance for Robust Text
Recognition
- arxiv url: http://arxiv.org/abs/2111.11011v5
- Date: Sun, 27 Aug 2023 02:55:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-30 02:13:53.853497
- Title: CDistNet: Perceiving Multi-Domain Character Distance for Robust Text
Recognition
- Title(参考訳): CDistNet:ロバストテキスト認識のためのマルチドメイン文字距離の認識
- Authors: Tianlun Zheng, Zhineng Chen, Shancheng Fang, Hongtao Xie, Yu-Gang
Jiang
- Abstract要約: 本稿では,MDCDP (Multi-Domain Character Distance Perception) と呼ばれる新しいモジュールを提案する。
MDCDPは位置埋め込みを使用して、クロスアテンションメカニズムに従って視覚的特徴と意味的特徴の両方を問合せする。
我々は、複数のMDCDPを積み重ねたCDistNetを開発し、徐々に正確な距離モデリングをガイドする。
- 参考スコア(独自算出の注目度): 87.3894423816705
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Transformer-based encoder-decoder framework is becoming popular in scene
text recognition, largely because it naturally integrates recognition clues
from both visual and semantic domains. However, recent studies show that the
two kinds of clues are not always well registered and therefore, feature and
character might be misaligned in difficult text (e.g., with a rare shape). As a
result, constraints such as character position are introduced to alleviate this
problem. Despite certain success, visual and semantic are still separately
modeled and they are merely loosely associated. In this paper, we propose a
novel module called Multi-Domain Character Distance Perception (MDCDP) to
establish a visually and semantically related position embedding. MDCDP uses
the position embedding to query both visual and semantic features following the
cross-attention mechanism. The two kinds of clues are fused into the position
branch, generating a content-aware embedding that well perceives character
spacing and orientation variants, character semantic affinities, and clues
tying the two kinds of information. They are summarized as the multi-domain
character distance. We develop CDistNet that stacks multiple MDCDPs to guide a
gradually precise distance modeling. Thus, the feature-character alignment is
well built even various recognition difficulties are presented. We verify
CDistNet on ten challenging public datasets and two series of augmented
datasets created by ourselves. The experiments demonstrate that CDistNet
performs highly competitively. It not only ranks top-tier in standard
benchmarks, but also outperforms recent popular methods by obvious margins on
real and augmented datasets presenting severe text deformation, poor linguistic
support, and rare character layouts. Code is available at
https://github.com/simplify23/CDistNet.
- Abstract(参考訳): Transformerベースのエンコーダ・デコーダフレームワークは、視覚とセマンティックの両方のドメインから認識ヒントを自然に統合するため、シーンテキスト認識において人気が高まっている。
しかし、近年の研究では、この2種類の手がかりが必ずしもよく登録されているとは限らないため、特徴と性格は難しいテキスト(例:珍しい形)でミスアライメントされる可能性がある。
その結果、この問題を軽減するために文字位置などの制約が導入される。
一定の成功にもかかわらず、視覚と意味はいまだに別々にモデル化されており、それらは単に疎結合である。
本稿では,マルチドメイン文字距離知覚(mdcdp)と呼ばれる,視覚的かつ意味的に関連した位置埋め込みを実現するモジュールを提案する。
MDCDPは位置埋め込みを使用して、クロスアテンションメカニズムに従って視覚的特徴と意味的特徴の両方を問う。
この2種類の手がかりを位置分岐に融合させ、文字間隔と向きのバリエーション、文字意味の親和性、および2種類の情報を結ぶ手がかりをよく認識するコンテンツ認識埋め込みを生成する。
それらはマルチドメインキャラクタ距離として要約される。
我々は、複数のmdcdpを積み重ねて、徐々に正確な距離モデリングを導くcdistnetを開発した。
これにより、様々な認識困難を伴っても特徴特性アライメントが良好に構築される。
我々は10の挑戦的な公開データセットと2つの拡張データセットについてcdistnetを検証する。
実験の結果,CDistNetは競争力が高いことがわかった。
標準ベンチマークでトップレベルにランクされるだけでなく、テキストの変形、言語サポートの貧弱さ、まれな文字レイアウトを示す実データや拡張データセットの明らかなマージンによって、最近の人気メソッドを上回っている。
コードはhttps://github.com/simplify23/CDistNetで入手できる。
関連論文リスト
- GatedLexiconNet: A Comprehensive End-to-End Handwritten Paragraph Text Recognition System [3.9527064697847005]
内部線分割と畳み込み層に基づくエンコーダを組み込んだエンドツーエンドの段落認識システムを提案する。
本研究は、IAMでは2.27%、RIMESでは0.9%、READ-16では2.13%、READ-2016データセットでは5.73%の文字誤り率を報告した。
論文 参考訳(メタデータ) (2024-04-22T10:19:16Z) - TagAlign: Improving Vision-Language Alignment with Multi-Tag Classification [59.779532652634295]
画像とテキストのペア以外の追加データフォーマットを必要とせずに、画像とテキストの特徴の整合性を向上するための、恥ずかしいほど単純なアプローチを提案する。
画像中に存在する可能性が極めて高い記述からオブジェクトや属性を解析する。
実験は、既存の代替手段よりも平均5.2%のフレームワークの改善を裏付けるものです。
論文 参考訳(メタデータ) (2023-12-21T18:59:06Z) - Multi-Granularity Cross-Modality Representation Learning for Named
Entity Recognition on Social Media [11.235498285650142]
ソーシャルメディア上の名前付きエンティティ認識(NER)とは、構造化されていない自由なコンテンツからエンティティを発見し分類することを指す。
本研究は,多粒性クロスモダリティ表現学習を導入する。
実験の結果,提案手法は2つのツイートのベンチマークデータセット上でSOTAあるいはSOTAの性能を近似することができることがわかった。
論文 参考訳(メタデータ) (2022-10-19T15:14:55Z) - Integrating Visuospatial, Linguistic and Commonsense Structure into
Story Visualization [81.26077816854449]
まず、構造的入力を符号化するための選挙区解析木の利用について検討する。
第二に、構造化されたインプットをコモンセンス情報で強化し、この外部知識が視覚的ストーリーの生成に与える影響について検討する。
第3に、境界ボックスと高密度キャプションによって視覚構造を組み込んで、生成された画像の文字やオブジェクトに関するフィードバックを提供する。
論文 参考訳(メタデータ) (2021-10-21T00:16:02Z) - Joint Visual Semantic Reasoning: Multi-Stage Decoder for Text
Recognition [36.12001394921506]
最先端のSOTA(State-of-the-art)モデルは、複雑な背景、さまざまなフォント、制御されていない照明、歪み、その他のアーチファクトのために、いまだに野生のシナリオで苦労している。
これは、そのようなモデルは、テキスト認識のための視覚情報にのみ依存するため、意味論的推論能力が欠如しているためである。
本稿では,複数段階の多段階の注意デコーダを提案する。
論文 参考訳(メタデータ) (2021-07-26T10:15:14Z) - Rethinking Text Line Recognition Models [57.47147190119394]
2つのデコーダファミリー(コネクショニスト時間分類と変換器)と3つのエンコーダモジュール(双方向LSTM、自己認識、GRCL)を考える。
広く使用されているシーンと手書きテキストの公開データセットの精度とパフォーマンスを比較します。
より一般的なTransformerベースのモデルとは異なり、このアーキテクチャは任意の長さの入力を処理できる。
論文 参考訳(メタデータ) (2021-04-15T21:43:13Z) - MANGO: A Mask Attention Guided One-Stage Scene Text Spotter [41.66707532607276]
MANGOという,新しいMask AttentioN Guided One-stage text Spotting frameworkを提案する。
提案手法は,正規テキストスポッティングベンチマークと不規則テキストスポッティングベンチマークの両方において,競争力と新たな最先端性能を実現する。
論文 参考訳(メタデータ) (2020-12-08T10:47:49Z) - Text Recognition in Real Scenarios with a Few Labeled Samples [55.07859517380136]
Scene Text Recognition (STR) はコンピュータビジョン分野におけるホットな研究テーマである。
本稿では,数ショットの逆数列領域適応 (FASDA) を用いて構築シーケンスを適応する手法を提案する。
我々のアプローチは、ソースドメインとターゲットドメインの間の文字レベルの混乱を最大化することができる。
論文 参考訳(メタデータ) (2020-06-22T13:03:01Z) - TextScanner: Reading Characters in Order for Robust Scene Text
Recognition [60.04267660533966]
TextScannerはシーンテキスト認識の代替手法である。
文字クラス、位置、順序に対する画素単位のマルチチャネルセグメンテーションマップを生成する。
また、コンテキストモデリングにRNNを採用し、文字の位置とクラスを並列で予測する。
論文 参考訳(メタデータ) (2019-12-28T07:52:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。