論文の概要: CDistNet: Perceiving Multi-Domain Character Distance for Robust Text
Recognition
- arxiv url: http://arxiv.org/abs/2111.11011v1
- Date: Mon, 22 Nov 2021 06:27:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-24 01:24:32.511426
- Title: CDistNet: Perceiving Multi-Domain Character Distance for Robust Text
Recognition
- Title(参考訳): CDistNet:ロバストテキスト認識のためのマルチドメイン文字距離の認識
- Authors: Tianlun Zheng, Zhineng Chen, Shancheng Fang, Hongtao Xie, Yu-Gang
Jiang
- Abstract要約: 視覚的および意味的位置符号化を実現するために,MDCDP (Multi-Domain Character Distance Perception) と呼ばれる新しいモジュールを提案する。
MDCDPは位置埋め込みを使用して、注意機構に続く視覚的特徴と意味的特徴の両方を問合せする。
我々はMDCDPを数回積み重ねて正確な距離モデリングを行うCDistNetという新しいアーキテクチャを開発した。
- 参考スコア(独自算出の注目度): 73.27016167284839
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The attention-based encoder-decoder framework is becoming popular in scene
text recognition, largely due to its superiority in integrating recognition
clues from both visual and semantic domains. However, recent studies show the
two clues might be misaligned in the difficult text (e.g., with rare text
shapes) and introduce constraints such as character position to alleviate the
problem. Despite certain success, a content-free positional embedding hardly
associates with meaningful local image regions stably. In this paper, we
propose a novel module called Multi-Domain Character Distance Perception
(MDCDP) to establish a visual and semantic related position encoding. MDCDP
uses positional embedding to query both visual and semantic features following
the attention mechanism. It naturally encodes the positional clue, which
describes both visual and semantic distances among characters. We develop a
novel architecture named CDistNet that stacks MDCDP several times to guide
precise distance modeling. Thus, the visual-semantic alignment is well built
even various difficulties presented. We apply CDistNet to two augmented
datasets and six public benchmarks. The experiments demonstrate that CDistNet
achieves state-of-the-art recognition accuracy. While the visualization also
shows that CDistNet achieves proper attention localization in both visual and
semantic domains. We will release our code upon acceptance.
- Abstract(参考訳): 注意に基づくエンコーダ・デコーダフレームワークは、視覚領域と意味領域の両方からの認識手がかりの統合が優れているため、シーンのテキスト認識で人気が高まっている。
しかし、近年の研究では、この2つの手がかりが難解なテキスト(例:まれなテキストの形)に誤って一致していることを示し、問題を緩和するために文字位置などの制約を導入している。
一定の成功にもかかわらず、コンテンツのない位置埋め込みは、有意義な局所的な画像領域と安定的に結びつくことがほとんどない。
本稿では,MDCDP(Multi-Domain Character Distance Perception)と呼ばれる新しいモジュールを提案する。
MDCDPは位置埋め込みを用いて、注意機構に続く視覚的特徴と意味的特徴の両方を問う。
文字間の視覚的距離と意味的距離の両方を記述する位置手がかりを自然にエンコードする。
我々はMDCDPを数回積み重ねて正確な距離モデリングを行うCDistNetという新しいアーキテクチャを開発した。
このように、視覚的なアライメントは、提示される様々な困難さえも十分に構築されている。
2つの拡張データセットと6つの公開ベンチマークにCDistNetを適用します。
実験により,CDistNetが最先端の認識精度を実現することを示した。
ビジュアライゼーションはCDistNetが視覚領域と意味領域の両方で適切な注意を向けることを示す。
私たちは受け入れ次第コードを公開します。
関連論文リスト
- GatedLexiconNet: A Comprehensive End-to-End Handwritten Paragraph Text Recognition System [3.9527064697847005]
内部線分割と畳み込み層に基づくエンコーダを組み込んだエンドツーエンドの段落認識システムを提案する。
本研究は、IAMでは2.27%、RIMESでは0.9%、READ-16では2.13%、READ-2016データセットでは5.73%の文字誤り率を報告した。
論文 参考訳(メタデータ) (2024-04-22T10:19:16Z) - TagAlign: Improving Vision-Language Alignment with Multi-Tag Classification [59.779532652634295]
画像とテキストのペア以外の追加データフォーマットを必要とせずに、画像とテキストの特徴の整合性を向上するための、恥ずかしいほど単純なアプローチを提案する。
画像中に存在する可能性が極めて高い記述からオブジェクトや属性を解析する。
実験は、既存の代替手段よりも平均5.2%のフレームワークの改善を裏付けるものです。
論文 参考訳(メタデータ) (2023-12-21T18:59:06Z) - Multi-Granularity Cross-Modality Representation Learning for Named
Entity Recognition on Social Media [11.235498285650142]
ソーシャルメディア上の名前付きエンティティ認識(NER)とは、構造化されていない自由なコンテンツからエンティティを発見し分類することを指す。
本研究は,多粒性クロスモダリティ表現学習を導入する。
実験の結果,提案手法は2つのツイートのベンチマークデータセット上でSOTAあるいはSOTAの性能を近似することができることがわかった。
論文 参考訳(メタデータ) (2022-10-19T15:14:55Z) - Integrating Visuospatial, Linguistic and Commonsense Structure into
Story Visualization [81.26077816854449]
まず、構造的入力を符号化するための選挙区解析木の利用について検討する。
第二に、構造化されたインプットをコモンセンス情報で強化し、この外部知識が視覚的ストーリーの生成に与える影響について検討する。
第3に、境界ボックスと高密度キャプションによって視覚構造を組み込んで、生成された画像の文字やオブジェクトに関するフィードバックを提供する。
論文 参考訳(メタデータ) (2021-10-21T00:16:02Z) - Joint Visual Semantic Reasoning: Multi-Stage Decoder for Text
Recognition [36.12001394921506]
最先端のSOTA(State-of-the-art)モデルは、複雑な背景、さまざまなフォント、制御されていない照明、歪み、その他のアーチファクトのために、いまだに野生のシナリオで苦労している。
これは、そのようなモデルは、テキスト認識のための視覚情報にのみ依存するため、意味論的推論能力が欠如しているためである。
本稿では,複数段階の多段階の注意デコーダを提案する。
論文 参考訳(メタデータ) (2021-07-26T10:15:14Z) - Rethinking Text Line Recognition Models [57.47147190119394]
2つのデコーダファミリー(コネクショニスト時間分類と変換器)と3つのエンコーダモジュール(双方向LSTM、自己認識、GRCL)を考える。
広く使用されているシーンと手書きテキストの公開データセットの精度とパフォーマンスを比較します。
より一般的なTransformerベースのモデルとは異なり、このアーキテクチャは任意の長さの入力を処理できる。
論文 参考訳(メタデータ) (2021-04-15T21:43:13Z) - MANGO: A Mask Attention Guided One-Stage Scene Text Spotter [41.66707532607276]
MANGOという,新しいMask AttentioN Guided One-stage text Spotting frameworkを提案する。
提案手法は,正規テキストスポッティングベンチマークと不規則テキストスポッティングベンチマークの両方において,競争力と新たな最先端性能を実現する。
論文 参考訳(メタデータ) (2020-12-08T10:47:49Z) - Text Recognition in Real Scenarios with a Few Labeled Samples [55.07859517380136]
Scene Text Recognition (STR) はコンピュータビジョン分野におけるホットな研究テーマである。
本稿では,数ショットの逆数列領域適応 (FASDA) を用いて構築シーケンスを適応する手法を提案する。
我々のアプローチは、ソースドメインとターゲットドメインの間の文字レベルの混乱を最大化することができる。
論文 参考訳(メタデータ) (2020-06-22T13:03:01Z) - TextScanner: Reading Characters in Order for Robust Scene Text
Recognition [60.04267660533966]
TextScannerはシーンテキスト認識の代替手法である。
文字クラス、位置、順序に対する画素単位のマルチチャネルセグメンテーションマップを生成する。
また、コンテキストモデリングにRNNを採用し、文字の位置とクラスを並列で予測する。
論文 参考訳(メタデータ) (2019-12-28T07:52:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。