論文の概要: Enhancing Indic Handwritten Text Recognition Using Global Semantic
Information
- arxiv url: http://arxiv.org/abs/2212.07776v1
- Date: Thu, 15 Dec 2022 12:53:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 17:09:52.485737
- Title: Enhancing Indic Handwritten Text Recognition Using Global Semantic
Information
- Title(参考訳): グローバルセマンティック情報を用いた手書き文字認識の強化
- Authors: Ajoy Mondal and C. V. Jawahar
- Abstract要約: Indicの手書きテキストを認識するために,グローバルな意味情報を抽出するために,エンコーダ・デコーダフレームワークのセマンティックモジュールを使用する。
提案するフレームワークは、10のIndic言語で書かれた手書きテキストに対して最先端の結果を得る。
- 参考スコア(独自算出の注目度): 36.01828106385858
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Handwritten Text Recognition (HTR) is more interesting and challenging than
printed text due to uneven variations in the handwriting style of the writers,
content, and time. HTR becomes more challenging for the Indic languages because
of (i) multiple characters combined to form conjuncts which increase the number
of characters of respective languages, and (ii) near to 100 unique basic
Unicode characters in each Indic script. Recently, many recognition methods
based on the encoder-decoder framework have been proposed to handle such
problems. They still face many challenges, such as image blur and incomplete
characters due to varying writing styles and ink density. We argue that most
encoder-decoder methods are based on local visual features without explicit
global semantic information.
In this work, we enhance the performance of Indic handwritten text
recognizers using global semantic information. We use a semantic module in an
encoder-decoder framework for extracting global semantic information to
recognize the Indic handwritten texts. The semantic information is used in both
the encoder for supervision and the decoder for initialization. The semantic
information is predicted from the word embedding of a pre-trained language
model. Extensive experiments demonstrate that the proposed framework achieves
state-of-the-art results on handwritten texts of ten Indic languages.
- Abstract(参考訳): 手書きテキスト認識(htr)は、作家、コンテンツ、時間の手書きスタイルが不均一なため、印刷されたテキストよりも興味深く、挑戦的である。
HTRはIndic言語にとってより困難になる
(i)複数の文字が組み合わされて各言語の文字数を増やす結節を形成し、
(ii)各Indicスクリプトで100文字近くの基本Unicode文字。
近年,エンコーダ・デコーダ・フレームワークに基づく認識手法が多数提案されている。
画像のぼやけや不完全な文字など、書き方やインク密度の違いなど、多くの課題に直面している。
ほとんどのエンコーダ・デコーダ法は明示的なグローバル意味情報を持たない局所的な視覚的特徴に基づいている。
本研究では,グローバル意味情報を用いた手書き文字認識の性能を向上させる。
我々は,グローバル意味情報抽出のためのエンコーダ・デコーダフレームワークにおける意味モジュールを用いて,手書き文字を認識する。
意味情報は、監督のためのエンコーダと初期化のためのデコーダの両方で使用される。
この意味情報は、事前学習された言語モデルの単語埋め込みから予測される。
大規模な実験により,10のIndic言語による手書きテキストに対する最先端の成果が得られた。
関連論文リスト
- HierCode: A Lightweight Hierarchical Codebook for Zero-shot Chinese Text Recognition [47.86479271322264]
我々は,漢字の自然的階層性を利用した,新規で軽量なコードブックであるHierCodeを提案する。
HierCodeは階層的なバイナリツリーエンコーディングとプロトタイプ学習を活用して、各文字に特徴的な情報表現を生成するマルチホットエンコーディング戦略を採用している。
このアプローチは、共有ラジカルと構造を利用してOOV文字のゼロショット認識を促進するだけでなく、視覚的特徴と類似性を計算することでラインレベルの認識タスクも優れている。
論文 参考訳(メタデータ) (2024-03-20T17:20:48Z) - Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - Letter-level Online Writer Identification [86.13203975836556]
我々は文字レベルのオンラインライタIDという新たな問題に焦点をあてる。
主な課題は、しばしば異なるスタイルで手紙を書くことである。
我々はこの問題をオンライン書記スタイルのばらつき(Var-O-Styles)と呼ぶ。
論文 参考訳(メタデータ) (2021-12-06T07:21:53Z) - Decoupling Visual-Semantic Feature Learning for Robust Scene Text
Recognition [32.012689511969604]
この問題に対処する新しいビジュアル・セマンティック・デカップリング・ネットワーク(VSDN)を提案する。
我々のVSDNには、ビジュアルデコーダ(VD)とセマンティックデコーダ(SD)があり、それぞれより純粋な視覚的特徴表現と意味的特徴表現を学習する。
提案手法は,標準ベンチマーク上での最先端ないし競争的な結果を達成する。
論文 参考訳(メタデータ) (2021-11-24T09:14:23Z) - SmartPatch: Improving Handwritten Word Imitation with Patch
Discriminators [67.54204685189255]
本稿では,現在の最先端手法の性能を向上させる新手法であるSmartPatchを提案する。
我々は、よく知られたパッチ損失と、平行訓練された手書きテキスト認識システムから収集された情報を組み合わせる。
これにより、より強化された局所識別器が実現し、より現実的で高品質な手書き文字が生成される。
論文 参考訳(メタデータ) (2021-05-21T18:34:21Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z) - SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text
Recognition [17.191496890376197]
そこで我々は,低品質シーンテキストを頑健に認識するために,エンコーダ・デコーダ・フレームワークを改良したセマンティクスを提案する。
提案するフレームワークは、低品質のテキスト画像に対してより堅牢であり、いくつかのベンチマークデータセットで最先端の結果が得られる。
論文 参考訳(メタデータ) (2020-05-22T03:02:46Z) - Spying on your neighbors: Fine-grained probing of contextual embeddings
for information about surrounding words [12.394077144994617]
本稿では,周辺単語の情報エンコーディングのためのコンテキスト埋め込みのきめ細かいテストを可能にする探索タスクのスイートを紹介する。
我々は、人気のあるBERT、ELMoおよびGPTコンテキストエンコーダを調べ、テストされた情報型が実際にトークン間でコンテキスト情報としてエンコードされていることを発見した。
トークン埋め込みを構築する際に,異なる種類のモデルがどのように分解し,単語レベルのコンテキスト情報を優先するかについて,これらの結果の意味を論じる。
論文 参考訳(メタデータ) (2020-05-04T19:34:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。