Fugu-MT 論文翻訳(概要): Invizo: Arabic Handwritten Document Optical Character Recognition Solution

論文の概要: Invizo: Arabic Handwritten Document Optical Character Recognition Solution

arxiv url: http://arxiv.org/abs/2502.05277v1
Date: Fri, 07 Feb 2025 19:25:33 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-11 18:57:49.239027
Title: Invizo: Arabic Handwritten Document Optical Character Recognition Solution
Title（参考訳）: Invizo: アラビア語の手書き文字認識ソリューション
Authors: Alhossien Waly, Bassant Tarek, Ali Feteha, Rewan Yehia, Gasser Amr, Walid Gomaa, Ahmed Fares,
Abstract要約: この研究は、アラビア語の手書き、印刷、およびアラビア数字を認識するためのエンドツーエンドのソリューションを提案する。我々は81.66%の精度、78.82%のリコール、79.07%のF測定に到達した。
参考スコア（独自算出の注目度）: 2.5819726282014654
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Converting images of Arabic text into plain text is a widely researched topic in academia and industry. However, recognition of Arabic handwritten and printed text presents difficult challenges due to the complex nature of variations of the Arabic script. This work proposes an end-to-end solution for recognizing Arabic handwritten, printed, and Arabic numbers and presents the data in a structured manner. We reached 81.66% precision, 78.82% Recall, and 79.07% F-measure on a Text Detection task that powers the proposed solution. The proposed recognition model incorporates state-of-the-art CNN-based feature extraction, and Transformer-based sequence modeling to accommodate variations in handwriting styles, stroke thicknesses, alignments, and noise conditions. The evaluation of the model suggests its strong performances on both printed and handwritten texts, yielding 0.59% CER and & 1.72% WER on printed text, and 7.91% CER and 31.41% WER on handwritten text. The overall proposed solution has proven to be relied on in real-life OCR tasks. Equipped with both detection and recognition models as well as other Feature Extraction and Matching helping algorithms. With the general purpose implementation, making the solution valid for any given document or receipt that is Arabic handwritten or printed. Thus, it is practical and useful for any given context.
Abstract（参考訳）: アラビア文字のイメージをプレーンテキストに変換することは、学術と産業において広く研究されているトピックである。しかし、アラビア文字と印刷されたテキストの認識は、アラビア文字のバリエーションの複雑な性質のために難しい課題を呈している。本研究は、アラビア語の手書き、印刷、およびアラビア数字を認識するためのエンドツーエンドのソリューションを提案し、構造化された方法でデータを提示する。我々は81.66%の精度、78.82%のリコール、79.07%のF測定に到達した。提案する認識モデルでは,手書きスタイル,ストローク厚み,アライメント,ノイズ条件の変動に対応するために,最先端のCNNベースの特徴抽出とトランスフォーマーベースのシーケンスモデリングが組み込まれている。このモデルの評価は、印刷テキストと手書きテキストの両方で強い性能を示し、印刷テキストでは0.59%のCERと1.72%のWER、手書きテキストでは7.91%のCERと31.41%のWERとなっている。提案したソリューションは、実生活のOCRタスクに頼っていることが証明されている。検出モデルと認識モデル、および他の特徴抽出およびマッチング支援アルゴリズムを備える。汎用的な実装では、そのソリューションをアラビア文字または印刷された任意の文書又は領収書に対して有効にする。したがって、任意の文脈において実用的で有用である。

関連論文リスト

Online Writer Retrieval with Chinese Handwritten Phrases: A Synergistic Temporal-Frequency Representation Learning Approach [53.189911918976655]
DOLPHINは,相乗的時間周波数解析による手書き表現の向上を目的とした新しい検索モデルである。 OLIWER(OLIWER)は,1,731人から670,000以上の中国語の字句を含む大規模オンライン作家検索データセットである。本研究は,手書き表現の質向上における点サンプリング周波数と圧力特性の重要性を強調した。
論文参考訳（メタデータ） (2024-12-16T11:19:22Z)
Arabic Handwritten Document OCR Solution with Binarization and Adaptive Scale Fusion Detection [1.1655046053160683]
テキスト行の正確な検出を保証するために,ラインセグメンテーションとAdaptive Scale Fusion技術から始まる完全なOCRパイプラインを提案する。我々のシステムはアラビア多言語データセットに基づいて訓練され、7文字から10文字の単語サンプルに対して99.20%の文字認識率(CRR)と93.75%の単語認識率(WRR)を達成する。
論文参考訳（メタデータ） (2024-12-02T15:21:09Z)
Qalam : A Multimodal LLM for Arabic Optical Character and Handwriting Recognition [18.280762424107408]
本研究はアラビア語 OCR と HWR 向けに設計された新しい基礎モデルである Qalam を紹介する。提案手法は,HWRタスクが0.80%,OCRタスクが1.18%のワード誤り率(WER)を達成し,既存の手法よりも優れていた。
論文参考訳（メタデータ） (2024-07-18T14:31:09Z)
Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文参考訳（メタデータ） (2024-02-27T01:57:09Z)
Improving the Generation Quality of Watermarked Large Language Models via Word Importance Scoring [81.62249424226084]
トークンレベルの透かしは、トークン確率分布を変更して生成されたテキストに透かしを挿入する。この透かしアルゴリズムは、生成中のロジットを変化させ、劣化したテキストの品質につながる可能性がある。 We propose to improve the quality of texts generated by a watermarked language model by Watermarking with Importance Scoring (WIS)。
論文参考訳（メタデータ） (2023-11-16T08:36:00Z)
AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文参考訳（メタデータ） (2023-09-21T13:20:13Z)
Orientation-Independent Chinese Text Recognition in Scene Images [61.34060587461462]
本研究は,テキスト画像のコンテンツと方向情報を切り離すことにより,向きに依存しない視覚特徴を抽出する試みである。具体的には,不整合コンテンツと向き情報を用いて対応する文字イメージを復元する文字画像再構成ネットワーク(CIRN)を提案する。
論文参考訳（メタデータ） (2023-09-03T05:30:21Z)
Huruf: An Application for Arabic Handwritten Character Recognition Using Deep Learning [0.0]
本稿では、アラビア語の文字と数字を認識するための軽量な畳み込みニューラルネットワークアーキテクチャを提案する。提案したパイプラインは、畳み込み、プール、バッチ正規化、ドロップアウト、最後にグローバル平均レイヤの4つのレイヤを含む合計18層で構成されている。提案したモデルはそれぞれ96.93%と99.35%の精度を達成し、これは最先端のエンドレベルアプリケーションに適した解決策となった。
論文参考訳（メタデータ） (2022-12-16T17:39:32Z)
Graphemic Normalization of the Perso-Arabic Script [47.429213930688086]
本稿では,ペルソ・アラビア語が最良文書言語を超えて提示する課題について述べる。自然言語処理(NLP)の状況に注目する。ペルソ・アラビア文字ディアスポラの多言語語族8言語に対する正規化が機械翻訳および統計言語モデリングタスクに及ぼす影響を評価する。
論文参考訳（メタデータ） (2022-10-21T21:59:44Z)
Kurdish Handwritten Character Recognition using Deep Learning Techniques [26.23274417985375]
本稿では、深層学習技術を用いてクルド語アルファベットの文字を認識可能なモデルの設計と開発を試みる。 4000万枚以上の画像を含む、手書きのクルド文字のための包括的なデータセットが作成された。結果,精度は96%,トレーニング精度は97%であった。
論文参考訳（メタデータ） (2022-10-18T16:48:28Z)
PART: Pre-trained Authorship Representation Transformer [52.623051272843426]
文書を書く著者は、自分のテキストに識別情報を印字する。以前の作品では、手作りの機能や分類タスクを使って著者モデルを訓練していた。セマンティクスの代わりにテキストの埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文参考訳（メタデータ） (2022-09-30T11:08:39Z)
Reading and Writing: Discriminative and Generative Modeling for Self-Supervised Text Recognition [101.60244147302197]
テキスト画像の識別と生成を学習するために,コントラスト学習とマスク付き画像モデリングを導入する。本手法は,不規則なシーンテキスト認識データセットにおいて,従来の自己教師付きテキスト認識手法を10.2%～20.2%向上させる。提案したテキスト認識器は,11のベンチマークで平均5.3%の精度で従来のテキスト認識手法を上回り,モデルサイズが類似している。
論文参考訳（メタデータ） (2022-07-01T03:50:26Z)
Comprehensive Benchmark Datasets for Amharic Scene Text Detection and Recognition [56.048783994698425]
Ethiopic/Amharicスクリプトはアフリカ最古の書記システムの一つで、東アフリカで少なくとも23の言語に対応している。アムハラ語の表記体系である Abugida は282音節、15句の句読点、20の数字を持つ。 HUST-ART, HUST-AST, ABE, Tana という,自然界におけるアムハラ文字の検出と認識のための総合的な公開データセットを提示した。
論文参考訳（メタデータ） (2022-03-23T03:19:35Z)
Neural Computing for Online Arabic Handwriting Character Recognition using Hard Stroke Features Mining [0.0]
オンラインアラビア文字認識における書字ストローク特徴の垂直方向と水平方向から所望の臨界点を検出する方法を提案する。バックプロパゲーション学習アルゴリズムと修正シグモイド関数に基づくアクティベーション関数を備えた多層パーセプトロンを用いて、文字の分類のためにこれらのトークンから最小の特徴セットを抽出する。提案手法は,文字認識技術に匹敵する98.6%の平均精度を実現する。
論文参考訳（メタデータ） (2020-05-02T23:17:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。