論文の概要: Pay Attention to What You Read: Non-recurrent Handwritten Text-Line
Recognition
- arxiv url: http://arxiv.org/abs/2005.13044v1
- Date: Tue, 26 May 2020 21:15:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 00:22:36.945229
- Title: Pay Attention to What You Read: Non-recurrent Handwritten Text-Line
Recognition
- Title(参考訳): 読み物に注意を払う - 繰り返しない手書きのテキスト認識
- Authors: Lei Kang, Pau Riba, Mar\c{c}al Rusi\~nol, Alicia Forn\'es, Mauricio
Villegas
- Abstract要約: 変換器モデルを用いて手書きテキストを認識する非反復的手法を提案する。
我々は文字認識に取り組み、復号化すべき文字列の言語関連依存関係を学習することができる。
- 参考スコア(独自算出の注目度): 4.301658883577544
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The advent of recurrent neural networks for handwriting recognition marked an
important milestone reaching impressive recognition accuracies despite the
great variability that we observe across different writing styles. Sequential
architectures are a perfect fit to model text lines, not only because of the
inherent temporal aspect of text, but also to learn probability distributions
over sequences of characters and words. However, using such recurrent paradigms
comes at a cost at training stage, since their sequential pipelines prevent
parallelization. In this work, we introduce a non-recurrent approach to
recognize handwritten text by the use of transformer models. We propose a novel
method that bypasses any recurrence. By using multi-head self-attention layers
both at the visual and textual stages, we are able to tackle character
recognition as well as to learn language-related dependencies of the character
sequences to be decoded. Our model is unconstrained to any predefined
vocabulary, being able to recognize out-of-vocabulary words, i.e. words that do
not appear in the training vocabulary. We significantly advance over prior art
and demonstrate that satisfactory recognition accuracies are yielded even in
few-shot learning scenarios.
- Abstract(参考訳): 手書き認識のためのリカレントニューラルネットワークの出現は、さまざまな書き方で観察できる大きな変動にもかかわらず、印象的な認識能力に達する重要なマイルストーンとなった。
シーケンシャルなアーキテクチャは、テキストの固有の時間的側面のためだけでなく、文字や単語のシーケンス上の確率分布を学ぶためにも、テキスト行をモデル化するのに最適です。
しかし、逐次パイプラインでは並列化が防止されるため、そのような再帰パラダイムの使用はトレーニング段階でコストがかかる。
本研究では,変圧器モデルを用いて手書き文字を認識する非逐次的手法を提案する。
再発を回避できる新しい方法を提案する。
視覚的にもテキスト的にも多面的な自己認識レイヤを使用することで,文字列の言語的依存性を学習するだけでなく,文字認識にも取り組むことができる。
我々のモデルは、事前定義された語彙に制約されず、外語彙、すなわち訓練語彙に現れない単語を認識することができる。
先行技術を大幅に進歩させ,ごくわずかな学習シナリオでも十分な認識能力が得られることを示す。
関連論文リスト
- Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - Pixel Sentence Representation Learning [67.4775296225521]
本研究では,視覚表現学習プロセスとして,文レベルのテキスト意味論の学習を概念化する。
タイポスや単語順シャッフルのような視覚的に接地されたテキスト摂動法を採用し、人間の認知パターンに共鳴し、摂動を連続的に認識できるようにする。
我々のアプローチは、大規模に教師なしのトピックアライメントトレーニングと自然言語推論監督によってさらに強化されている。
論文 参考訳(メタデータ) (2024-02-13T02:46:45Z) - Text as Image: Learning Transferable Adapter for Multi-Label
Classification [13.11583340598517]
マルチラベル命令追従テキスト生成に大規模言語モデルを用いるための効果的なアプローチを提案する。
このように、ビジュアルラベル認識のための完全に自動化されたパイプラインは、手動のデータに頼ることなく開発される。
論文 参考訳(メタデータ) (2023-12-07T09:22:20Z) - A Transformer-based Approach for Arabic Offline Handwritten Text
Recognition [0.0]
オフラインのアラビア文字を認識できるアーキテクチャを2つ導入する。
私たちのアプローチは言語依存をモデル化することができ、注意機構のみに依存するので、より並列化可能で、より複雑ではありません。
アラビアKHATTデータセットの評価は,提案手法が現在の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-07-27T17:51:52Z) - CSSL-MHTR: Continual Self-Supervised Learning for Scalable Multi-script Handwritten Text Recognition [16.987008461171065]
我々は,手書き文字認識における破滅的な忘れの問題を軽減するために,連続的な自己指導型学習の可能性を探究する。
提案手法は,各タスクにアダプタと呼ばれる中間層を追加し,現在のタスクを学習しながら,前モデルからの知識を効率的に抽出する。
私たちは英語、イタリア語、ロシア語のスクリプトで最先端のパフォーマンスを達成しましたが、タスクごとにいくつかのパラメータしか追加していません。
論文 参考訳(メタデータ) (2023-03-16T14:27:45Z) - Reading and Writing: Discriminative and Generative Modeling for
Self-Supervised Text Recognition [101.60244147302197]
テキスト画像の識別と生成を学習するために,コントラスト学習とマスク付き画像モデリングを導入する。
本手法は,不規則なシーンテキスト認識データセットにおいて,従来の自己教師付きテキスト認識手法を10.2%~20.2%向上させる。
提案したテキスト認識器は,11のベンチマークで平均5.3%の精度で従来のテキスト認識手法を上回り,モデルサイズが類似している。
論文 参考訳(メタデータ) (2022-07-01T03:50:26Z) - FILIP: Fine-grained Interactive Language-Image Pre-Training [106.19474076935363]
微粒な対話型言語-画像事前学習は、モーダルな遅延相互作用機構を通じてより細粒度なアライメントを実現する。
我々は,FILIP300Mと呼ばれる大規模画像テキストペアデータセットを構築し,事前学習を行う。
実験により、FILIPは複数の下流視覚言語タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2021-11-09T17:15:38Z) - SmartPatch: Improving Handwritten Word Imitation with Patch
Discriminators [67.54204685189255]
本稿では,現在の最先端手法の性能を向上させる新手法であるSmartPatchを提案する。
我々は、よく知られたパッチ損失と、平行訓練された手書きテキスト認識システムから収集された情報を組み合わせる。
これにより、より強化された局所識別器が実現し、より現実的で高品質な手書き文字が生成される。
論文 参考訳(メタデータ) (2021-05-21T18:34:21Z) - Separating Content from Style Using Adversarial Learning for Recognizing
Text in the Wild [103.51604161298512]
画像中の複数の文字の生成と認識のための逆学習フレームワークを提案する。
我々のフレームワークは、新しい最先端の認識精度を達成するために、最近の認識手法に統合することができる。
論文 参考訳(メタデータ) (2020-01-13T12:41:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。