論文の概要: Invizo: Arabic Handwritten Document Optical Character Recognition Solution
- arxiv url: http://arxiv.org/abs/2502.05277v1
- Date: Fri, 07 Feb 2025 19:25:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:32:20.630268
- Title: Invizo: Arabic Handwritten Document Optical Character Recognition Solution
- Title(参考訳): Invizo: アラビア語の手書き文字認識ソリューション
- Authors: Alhossien Waly, Bassant Tarek, Ali Feteha, Rewan Yehia, Gasser Amr, Walid Gomaa, Ahmed Fares,
- Abstract要約: この研究は、アラビア語の手書き、印刷、およびアラビア数字を認識するためのエンドツーエンドのソリューションを提案する。
我々は81.66%の精度、78.82%のリコール、79.07%のF測定に到達した。
- 参考スコア(独自算出の注目度): 2.5819726282014654
- License:
- Abstract: Converting images of Arabic text into plain text is a widely researched topic in academia and industry. However, recognition of Arabic handwritten and printed text presents difficult challenges due to the complex nature of variations of the Arabic script. This work proposes an end-to-end solution for recognizing Arabic handwritten, printed, and Arabic numbers and presents the data in a structured manner. We reached 81.66% precision, 78.82% Recall, and 79.07% F-measure on a Text Detection task that powers the proposed solution. The proposed recognition model incorporates state-of-the-art CNN-based feature extraction, and Transformer-based sequence modeling to accommodate variations in handwriting styles, stroke thicknesses, alignments, and noise conditions. The evaluation of the model suggests its strong performances on both printed and handwritten texts, yielding 0.59% CER and & 1.72% WER on printed text, and 7.91% CER and 31.41% WER on handwritten text. The overall proposed solution has proven to be relied on in real-life OCR tasks. Equipped with both detection and recognition models as well as other Feature Extraction and Matching helping algorithms. With the general purpose implementation, making the solution valid for any given document or receipt that is Arabic handwritten or printed. Thus, it is practical and useful for any given context.
- Abstract(参考訳): アラビア文字のイメージをプレーンテキストに変換することは、学術と産業において広く研究されているトピックである。
しかし、アラビア文字と印刷されたテキストの認識は、アラビア文字のバリエーションの複雑な性質のために難しい課題を呈している。
本研究は、アラビア語の手書き、印刷、およびアラビア数字を認識するためのエンドツーエンドのソリューションを提案し、構造化された方法でデータを提示する。
我々は81.66%の精度、78.82%のリコール、79.07%のF測定に到達した。
提案する認識モデルでは,手書きスタイル,ストローク厚み,アライメント,ノイズ条件の変動に対応するために,最先端のCNNベースの特徴抽出とトランスフォーマーベースのシーケンスモデリングが組み込まれている。
このモデルの評価は、印刷テキストと手書きテキストの両方で強い性能を示し、印刷テキストでは0.59%のCERと1.72%のWER、手書きテキストでは7.91%のCERと31.41%のWERとなっている。
提案したソリューションは、実生活のOCRタスクに頼っていることが証明されている。
検出モデルと認識モデル、および他の特徴抽出およびマッチング支援アルゴリズムを備える。
汎用的な実装では、そのソリューションをアラビア文字または印刷された任意の文書又は領収書に対して有効にする。
したがって、任意の文脈において実用的で有用である。
関連論文リスト
- Qalam : A Multimodal LLM for Arabic Optical Character and Handwriting Recognition [18.280762424107408]
本研究はアラビア語 OCR と HWR 向けに設計された新しい基礎モデルである Qalam を紹介する。
提案手法は,HWRタスクが0.80%,OCRタスクが1.18%のワード誤り率(WER)を達成し,既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-07-18T14:31:09Z) - Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - Improving the Generation Quality of Watermarked Large Language Models
via Word Importance Scoring [81.62249424226084]
トークンレベルの透かしは、トークン確率分布を変更して生成されたテキストに透かしを挿入する。
この透かしアルゴリズムは、生成中のロジットを変化させ、劣化したテキストの品質につながる可能性がある。
We propose to improve the quality of texts generated by a watermarked language model by Watermarking with Importance Scoring (WIS)。
論文 参考訳(メタデータ) (2023-11-16T08:36:00Z) - Orientation-Independent Chinese Text Recognition in Scene Images [61.34060587461462]
本研究は,テキスト画像のコンテンツと方向情報を切り離すことにより,向きに依存しない視覚特徴を抽出する試みである。
具体的には,不整合コンテンツと向き情報を用いて対応する文字イメージを復元する文字画像再構成ネットワーク(CIRN)を提案する。
論文 参考訳(メタデータ) (2023-09-03T05:30:21Z) - Huruf: An Application for Arabic Handwritten Character Recognition Using
Deep Learning [0.0]
本稿では、アラビア語の文字と数字を認識するための軽量な畳み込みニューラルネットワークアーキテクチャを提案する。
提案したパイプラインは、畳み込み、プール、バッチ正規化、ドロップアウト、最後にグローバル平均レイヤの4つのレイヤを含む合計18層で構成されている。
提案したモデルはそれぞれ96.93%と99.35%の精度を達成し、これは最先端のエンドレベルアプリケーションに適した解決策となった。
論文 参考訳(メタデータ) (2022-12-16T17:39:32Z) - Graphemic Normalization of the Perso-Arabic Script [47.429213930688086]
本稿では,ペルソ・アラビア語が最良文書言語を超えて提示する課題について述べる。
自然言語処理(NLP)の状況に注目する。
ペルソ・アラビア文字ディアスポラの多言語語族8言語に対する正規化が機械翻訳および統計言語モデリングタスクに及ぼす影響を評価する。
論文 参考訳(メタデータ) (2022-10-21T21:59:44Z) - Kurdish Handwritten Character Recognition using Deep Learning Techniques [26.23274417985375]
本稿では、深層学習技術を用いてクルド語アルファベットの文字を認識可能なモデルの設計と開発を試みる。
4000万枚以上の画像を含む、手書きのクルド文字のための包括的なデータセットが作成された。
結果,精度は96%,トレーニング精度は97%であった。
論文 参考訳(メタデータ) (2022-10-18T16:48:28Z) - Reading and Writing: Discriminative and Generative Modeling for
Self-Supervised Text Recognition [101.60244147302197]
テキスト画像の識別と生成を学習するために,コントラスト学習とマスク付き画像モデリングを導入する。
本手法は,不規則なシーンテキスト認識データセットにおいて,従来の自己教師付きテキスト認識手法を10.2%~20.2%向上させる。
提案したテキスト認識器は,11のベンチマークで平均5.3%の精度で従来のテキスト認識手法を上回り,モデルサイズが類似している。
論文 参考訳(メタデータ) (2022-07-01T03:50:26Z) - Comprehensive Benchmark Datasets for Amharic Scene Text Detection and
Recognition [56.048783994698425]
Ethiopic/Amharicスクリプトはアフリカ最古の書記システムの一つで、東アフリカで少なくとも23の言語に対応している。
アムハラ語の表記体系である Abugida は282音節、15句の句読点、20の数字を持つ。
HUST-ART, HUST-AST, ABE, Tana という,自然界におけるアムハラ文字の検出と認識のための総合的な公開データセットを提示した。
論文 参考訳(メタデータ) (2022-03-23T03:19:35Z) - An Efficient Language-Independent Multi-Font OCR for Arabic Script [0.0]
本稿では,アラビア文字のスキャン画像を入力として取り出し,対応するデジタル文書を生成する完全アラビアOCRシステムを提案する。
また,現在最先端のセグメンテーションアルゴリズムよりも優れたフォント非依存文字アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-09-18T22:57:03Z) - Neural Computing for Online Arabic Handwriting Character Recognition
using Hard Stroke Features Mining [0.0]
オンラインアラビア文字認識における書字ストローク特徴の垂直方向と水平方向から所望の臨界点を検出する方法を提案する。
バックプロパゲーション学習アルゴリズムと修正シグモイド関数に基づくアクティベーション関数を備えた多層パーセプトロンを用いて、文字の分類のためにこれらのトークンから最小の特徴セットを抽出する。
提案手法は,文字認識技術に匹敵する98.6%の平均精度を実現する。
論文 参考訳(メタデータ) (2020-05-02T23:17:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。