論文の概要: Towards Accurate Scene Text Recognition with Semantic Reasoning Networks
- arxiv url: http://arxiv.org/abs/2003.12294v1
- Date: Fri, 27 Mar 2020 09:19:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-19 05:13:59.382637
- Title: Towards Accurate Scene Text Recognition with Semantic Reasoning Networks
- Title(参考訳): セマンティック推論ネットワークを用いた正確なシーンテキスト認識に向けて
- Authors: Deli Yu, Xuan Li, Chengquan Zhang, Junyu Han, Jingtuo Liu, Errui Ding
- Abstract要約: 本稿では,シーンテキスト認識のための意味推論ネットワーク(SRN)という,エンドツーエンドのトレーニング可能な新しいフレームワークを提案する。
GSRMはマルチウェイ並列伝送によってグローバルセマンティックコンテキストをキャプチャするために導入された。
正規テキスト,不規則テキスト,非ラテン語長文を含む7つの公開ベンチマークの結果,提案手法の有効性とロバスト性を検証した。
- 参考スコア(独自算出の注目度): 52.86058031919856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene text image contains two levels of contents: visual texture and semantic
information. Although the previous scene text recognition methods have made
great progress over the past few years, the research on mining semantic
information to assist text recognition attracts less attention, only RNN-like
structures are explored to implicitly model semantic information. However, we
observe that RNN based methods have some obvious shortcomings, such as
time-dependent decoding manner and one-way serial transmission of semantic
context, which greatly limit the help of semantic information and the
computation efficiency. To mitigate these limitations, we propose a novel
end-to-end trainable framework named semantic reasoning network (SRN) for
accurate scene text recognition, where a global semantic reasoning module
(GSRM) is introduced to capture global semantic context through multi-way
parallel transmission. The state-of-the-art results on 7 public benchmarks,
including regular text, irregular text and non-Latin long text, verify the
effectiveness and robustness of the proposed method. In addition, the speed of
SRN has significant advantages over the RNN based methods, demonstrating its
value in practical use.
- Abstract(参考訳): シーンテキスト画像は、視覚的テクスチャとセマンティック情報という2つのレベルのコンテンツを含んでいる。
過去のシーンテキスト認識手法はここ数年で大きな進歩を遂げてきたが、テキスト認識を支援するためのマイニングセマンティック情報の研究は注目度が低く、RNNのような構造のみが意味情報を暗黙的にモデル化するために研究されている。
しかし,rnnに基づく手法には,意味的文脈の時間依存復号法や一方向の逐次伝達法といった明らかな欠点があり,意味的情報と計算効率を大幅に制限している。
これらの制約を緩和するため,srn(semantic reasoning network)という新しいエンドツーエンド学習フレームワークを提案し,マルチウェイ並列伝送によるグローバルな意味的文脈をキャプチャするためにgsrm(global semantic reasoning module)を導入した。
提案手法の有効性とロバスト性を検証するため,正規テキスト,不規則テキスト,非ラチン長文を含む7つの公開ベンチマークを行った。
さらに、SRNの速度は、RNNベースの手法よりも大きな利点があり、実用上の価値を示している。
関連論文リスト
- Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - Neural Sequence-to-Sequence Modeling with Attention by Leveraging Deep Learning Architectures for Enhanced Contextual Understanding in Abstractive Text Summarization [0.0]
本稿では,単一文書の抽象TSのための新しいフレームワークを提案する。
構造、セマンティック、およびニューラルベースアプローチの3つの主要な側面を統合している。
その結果, 希少語, OOV語処理の大幅な改善が示唆された。
論文 参考訳(メタデータ) (2024-04-08T18:33:59Z) - Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - Sequential Visual and Semantic Consistency for Semi-supervised Text
Recognition [56.968108142307976]
Scene Text Recognition (STR) は、大規模なアノテートデータを必要とする課題である。
既存のSTR法の多くは、STRモデルの性能を低下させ、ドメイン差を生じさせる合成データに頼っている。
本稿では,視覚的・意味的両面から単語レベルの整合性正則化を取り入れたSTRの半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2024-02-24T13:00:54Z) - Efficient Token-Guided Image-Text Retrieval with Consistent Multimodal
Contrastive Training [33.78990448307792]
画像テキスト検索は、視覚と言語間の意味的関係を理解するための中心的な問題である。
以前の作品では、全体像とテキストの粗い粒度の表現を単に学習するか、画像領域またはピクセルとテキストワードの対応を精巧に確立する。
本研究では、粗い表現学習ときめ細かい表現学習を統一した枠組みに組み合わせて、新しい視点から画像テキストの検索を行う。
論文 参考訳(メタデータ) (2023-06-15T00:19:13Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Implicit Feature Alignment: Learn to Convert Text Recognizer to Text
Spotter [38.4211220941874]
我々はIFA(Implicit Feature Alignment)と呼ばれるシンプルでエレガントで効果的なパラダイムを提案する。
IFAは、現在のテキスト認識器に容易に統合でき、その結果、IFA推論と呼ばれる新しい推論機構が生まれる。
IFAは、エンドツーエンドの文書認識タスクにおいて最先端のパフォーマンスを達成することを実験的に実証した。
論文 参考訳(メタデータ) (2021-06-10T17:06:28Z) - SCATTER: Selective Context Attentional Scene Text Recognizer [16.311256552979835]
Scene Text Recognition (STR) は複雑な画像背景に対してテキストを認識するタスクである。
現在のSOTA(State-of-the-art)メソッドは、任意の形で書かれたテキストを認識するのに依然として苦労している。
Selective Context Attentional Text Recognizer (SCATTER) というSTRの新しいアーキテクチャを導入する。
論文 参考訳(メタデータ) (2020-03-25T09:20:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。