論文の概要: CMFN: Cross-Modal Fusion Network for Irregular Scene Text Recognition
- arxiv url: http://arxiv.org/abs/2401.10041v1
- Date: Thu, 18 Jan 2024 15:05:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-19 16:11:46.502379
- Title: CMFN: Cross-Modal Fusion Network for Irregular Scene Text Recognition
- Title(参考訳): cmfn:不規則テキスト認識のためのクロスモーダル融合ネットワーク
- Authors: Jinzhi Zheng, Ruyi Ji, Libo Zhang, Yanjun Wu, Chen Zhao
- Abstract要約: 本稿では,不規則なシーンテキスト認識のための新しいクロスモーダル融合ネットワーク(CMFN)を提案する。
CMFNは、位置自己拡張エンコーダ、視覚認識枝、反復意味認識枝から構成される。
実験により,提案したCMFNアルゴリズムは最先端のアルゴリズムに匹敵する性能を示した。
- 参考スコア(独自算出の注目度): 22.13675752628
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scene text recognition, as a cross-modal task involving vision and text, is
an important research topic in computer vision. Most existing methods use
language models to extract semantic information for optimizing visual
recognition. However, the guidance of visual cues is ignored in the process of
semantic mining, which limits the performance of the algorithm in recognizing
irregular scene text. To tackle this issue, we propose a novel cross-modal
fusion network (CMFN) for irregular scene text recognition, which incorporates
visual cues into the semantic mining process. Specifically, CMFN consists of a
position self-enhanced encoder, a visual recognition branch and an iterative
semantic recognition branch. The position self-enhanced encoder provides
character sequence position encoding for both the visual recognition branch and
the iterative semantic recognition branch. The visual recognition branch
carries out visual recognition based on the visual features extracted by CNN
and the position encoding information provided by the position self-enhanced
encoder. The iterative semantic recognition branch, which consists of a
language recognition module and a cross-modal fusion gate, simulates the way
that human recognizes scene text and integrates cross-modal visual cues for
text recognition. The experiments demonstrate that the proposed CMFN algorithm
achieves comparable performance to state-of-the-art algorithms, indicating its
effectiveness.
- Abstract(参考訳): 視覚とテキストを含むクロスモーダルなタスクとしてのシーンテキスト認識は、コンピュータビジョンにおいて重要な研究課題である。
既存の手法のほとんどは言語モデルを使用して、視覚認識の最適化のために意味情報を抽出する。
しかし、セマンティックマイニングの過程で視覚的手がかりのガイダンスは無視され、不規則なシーンテキストを認識するアルゴリズムの性能が制限される。
この問題に対処するために,視覚的手がかりを意味的なマイニングプロセスに組み込んだ不規則なシーンテキスト認識のための,新しいクロスモーダル融合ネットワーク(CMFN)を提案する。
具体的には、CMFNは、位置自己強調エンコーダ、視覚認識枝、反復意味認識枝からなる。
位置強調エンコーダは、視覚認識ブランチと反復意味認識ブランチの両方に対して文字シーケンス位置符号化を提供する。
視覚認識枝は、cnnによって抽出された視覚特徴と、位置自己強調エンコーダによって提供される位置符号化情報とに基づいて視覚認識を行う。
言語認識モジュールとクロスモーダル融合ゲートからなる反復的意味認識ブランチは、人間がシーンテキストを認識する方法をシミュレートし、テキスト認識のためのクロスモーダル視覚手がかりを統合する。
実験により,提案したCMFNアルゴリズムは最先端アルゴリズムに匹敵する性能を示し,その有効性を示した。
関連論文リスト
- UNIT: Unifying Image and Text Recognition in One Vision Encoder [51.140564856352825]
UNITは、単一のモデル内で画像とテキストの認識を統一することを目的とした、新しいトレーニングフレームワークである。
文書関連タスクにおいて,UNITが既存の手法を著しく上回ることを示す。
注目すべきなのは、UNITはオリジナルのビジョンエンコーダアーキテクチャを保持しており、推論とデプロイメントの点で費用がかからないことだ。
論文 参考訳(メタデータ) (2024-09-06T08:02:43Z) - LOGO: Video Text Spotting with Language Collaboration and Glyph Perception Model [20.007650672107566]
ビデオテキストスポッティング(VTS)は、ビデオ内のテキストインスタンスを同時にローカライズ、認識、追跡することを目的としている。
最近の方法では、最先端の画像テキストスポッターのゼロショット結果を直接追跡する。
特定のデータセット上の微調整トランスフォーマーベースのテキストスポッターにより、パフォーマンスが向上する可能性がある。
論文 参考訳(メタデータ) (2024-05-29T15:35:09Z) - Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - MaskOCR: Text Recognition with Masked Encoder-Decoder Pretraining [68.05105411320842]
本稿では,従来のエンコーダ・デコーダ認識フレームワークにおいて,視覚と言語を事前学習するための新しいアプローチであるMaskOCRを提案する。
マスク付き画像モデリング手法を用いて、未ラベルのテキスト画像の集合を用いて特徴エンコーダを事前学習する。
テキストデータを合成されたテキスト画像に変換し、視覚と言語のデータモダリティを統一し、シーケンスデコーダの言語モデリング能力を向上する。
論文 参考訳(メタデータ) (2022-06-01T08:27:19Z) - Primitive Representation Learning for Scene Text Recognition [7.818765015637802]
本研究では,シーンテキスト画像の固有表現を活用した原始表現学習手法を提案する。
プリミティブ表現学習ネットワーク(PREN)は、並列デコードに視覚テキスト表現を使用するために構築される。
また,注意に基づく手法における不整合問題を軽減するために PREN2D というフレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-10T11:54:49Z) - Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-02-23T07:20:12Z) - SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text
Recognition [17.191496890376197]
そこで我々は,低品質シーンテキストを頑健に認識するために,エンコーダ・デコーダ・フレームワークを改良したセマンティクスを提案する。
提案するフレームワークは、低品質のテキスト画像に対してより堅牢であり、いくつかのベンチマークデータセットで最先端の結果が得られる。
論文 参考訳(メタデータ) (2020-05-22T03:02:46Z) - Towards Accurate Scene Text Recognition with Semantic Reasoning Networks [52.86058031919856]
本稿では,シーンテキスト認識のための意味推論ネットワーク(SRN)という,エンドツーエンドのトレーニング可能な新しいフレームワークを提案する。
GSRMはマルチウェイ並列伝送によってグローバルセマンティックコンテキストをキャプチャするために導入された。
正規テキスト,不規則テキスト,非ラテン語長文を含む7つの公開ベンチマークの結果,提案手法の有効性とロバスト性を検証した。
論文 参考訳(メタデータ) (2020-03-27T09:19:25Z) - Separating Content from Style Using Adversarial Learning for Recognizing
Text in the Wild [103.51604161298512]
画像中の複数の文字の生成と認識のための逆学習フレームワークを提案する。
我々のフレームワークは、新しい最先端の認識精度を達成するために、最近の認識手法に統合することができる。
論文 参考訳(メタデータ) (2020-01-13T12:41:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。