Fugu-MT 論文翻訳(概要): An Efficient Language-Independent Multi-Font OCR for Arabic Script

論文の概要: An Efficient Language-Independent Multi-Font OCR for Arabic Script

arxiv url: http://arxiv.org/abs/2009.09115v1
Date: Fri, 18 Sep 2020 22:57:03 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-17 02:31:27.422399
Title: An Efficient Language-Independent Multi-Font OCR for Arabic Script
Title（参考訳）: アラビア語文字用言語非依存多形ocr
Authors: Hussein Osman, Karim Zaghw, Mostafa Hazem, Seifeldin Elsehely
Abstract要約: 本稿では,アラビア文字のスキャン画像を入力として取り出し,対応するデジタル文書を生成する完全アラビアOCRシステムを提案する。また,現在最先端のセグメンテーションアルゴリズムよりも優れたフォント非依存文字アルゴリズムを提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Optical Character Recognition (OCR) is the process of extracting digitized text from images of scanned documents. While OCR systems have already matured in many languages, they still have shortcomings in cursive languages with overlapping letters such as the Arabic language. This paper proposes a complete Arabic OCR system that takes a scanned image of Arabic Naskh script as an input and generates a corresponding digital document. Our Arabic OCR system consists of the following modules: Pre-processing, Word-level Feature Extraction, Character Segmentation, Character Recognition, and Post-processing. This paper also proposes an improved font-independent character segmentation algorithm that outperforms the state-of-the-art segmentation algorithms. Lastly, the paper proposes a neural network model for the character recognition task. The system has experimented on several open Arabic corpora datasets with an average character segmentation accuracy 98.06%, character recognition accuracy 99.89%, and overall system accuracy 97.94% achieving outstanding results compared to the state-of-the-art Arabic OCR systems.
Abstract（参考訳）: 光文字認識(OCR)は、スキャンされた文書の画像からデジタル化されたテキストを抽出するプロセスである。 OCRシステムは、すでに多くの言語で成熟しているが、アラビア語のような重複する文字を持つカーシブ言語にはまだ欠点がある。本稿では,アラビア文字のスキャン画像を入力として取り出し,対応するデジタル文書を生成する完全アラビアOCRシステムを提案する。アラビア語のocrシステムは,前処理,単語レベル特徴抽出,文字分割,文字認識,後処理といったモジュールから構成されている。本稿では,最先端のセグメンテーションアルゴリズムに勝るフォント非依存文字セグメンテーションアルゴリズムも提案する。最後に,文字認識タスクのためのニューラルネットワークモデルを提案する。このシステムは、平均的な文字セグメンテーション精度98.06%、文字認識精度99.89%、そしてシステム全体の精度97.94%のオープンアラビアコーパスデータセットで、最先端のアラビアOCRシステムと比較して優れた結果を得た。

関連論文リスト

Zero-Shot Chinese Character Recognition with Hierarchical Multi-Granularity Image-Text Aligning [52.92837273570818]
漢字は独特な構造と構成規則を示しており、表現にきめ細かい意味情報を使用することが可能である。コントラストパラダイムに基づく階層型多言語画像テキストアライニング(Hi-GITA)フレームワークを提案する。提案したHi-GITAは既存のゼロショットCCR法より優れている。
論文参考訳（メタデータ） (2025-05-30T17:39:14Z)
TFIC: End-to-End Text-Focused Image Compression for Coding for Machines [50.86328069558113]
後続の光学文字認識(OCR)のためのテキスト固有の特徴を保持するために設計された画像圧縮システムを提案する。我々のエンコーディングプロセスはOCRモジュールに必要な時間の半分を必要としており、計算能力に制限のあるデバイスに特に適しています。
論文参考訳（メタデータ） (2025-03-25T09:36:13Z)
KITAB-Bench: A Comprehensive Multi-Domain Benchmark for Arabic OCR and Document Understanding [24.9462694200992]
KITAB-Benchは、現在の評価システムのギャップを埋める包括的なアラビアOCRベンチマークである。現代の視覚言語モデル(GPT-4、Gemini、Qwenなど)は、従来のOCRアプローチを平均60%の文字誤り率(CER)で上回っている。本研究はアラビア文書分析手法の改良を促進するための厳格な評価枠組みを確立する。
論文参考訳（メタデータ） (2025-02-20T18:41:23Z)
Arabic Handwritten Document OCR Solution with Binarization and Adaptive Scale Fusion Detection [1.1655046053160683]
テキスト行の正確な検出を保証するために,ラインセグメンテーションとAdaptive Scale Fusion技術から始まる完全なOCRパイプラインを提案する。我々のシステムはアラビア多言語データセットに基づいて訓練され、7文字から10文字の単語サンプルに対して99.20%の文字認識率(CRR)と93.75%の単語認識率(WRR)を達成する。
論文参考訳（メタデータ） (2024-12-02T15:21:09Z)
Qalam : A Multimodal LLM for Arabic Optical Character and Handwriting Recognition [18.280762424107408]
本研究はアラビア語 OCR と HWR 向けに設計された新しい基礎モデルである Qalam を紹介する。提案手法は,HWRタスクが0.80%,OCRタスクが1.18%のワード誤り率(WER)を達成し,既存の手法よりも優れていた。
論文参考訳（メタデータ） (2024-07-18T14:31:09Z)
Symmetrical Linguistic Feature Distillation with CLIP for Scene Text Recognition [77.93678598476149]
CLIP-OCR(Symmetrical Linguistic Feature Distillation framework)を新たに構築する。 CLIP画像エンコーダを逆CLIPテキストエンコーダでカスケードすることにより、画像からテキストまでの特徴フローで対称構造を構築する。大規模な実験では、CLIP-OCRが6つのSTRベンチマークで平均精度93.8%で有効であることが示されている。
論文参考訳（メタデータ） (2023-10-08T04:00:20Z)
Chinese Text Recognition with A Pre-Trained CLIP-Like Model Through Image-IDS Aligning [61.34060587461462]
中国語テキスト認識(CTR)のための2段階フレームワークを提案する。印刷文字画像とIdeographic Description Sequences (IDS) の整列によるCLIP様モデルの事前学習を行う。この事前学習段階は、漢字を認識する人間をシミュレートし、各文字の標準表現を得る。学習された表現はCTRモデルを監督するために使用され、従来の単一文字認識はテキストライン認識に改善される。
論文参考訳（メタデータ） (2023-09-03T05:33:16Z)
OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。 OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文参考訳（メタデータ） (2023-05-13T11:28:37Z)
User-Centric Evaluation of OCR Systems for Kwak'wala [92.73847703011353]
OCRを利用すると、文化的に価値ある文書の書き起こしに費やした時間を50%以上削減できることを示す。この結果から,OCRツールが下流言語ドキュメントや再生作業において持つ潜在的なメリットが示された。
論文参考訳（メタデータ） (2023-02-26T21:41:15Z)
Siamese based Neural Network for Offline Writer Identification on word level data [7.747239584541488]
入力語画像に基づいて文書の著者を特定する新しい手法を提案する。本手法はテキスト独立であり,入力画像のサイズに制約を課さない。
論文参考訳（メタデータ） (2022-11-17T10:01:46Z)
Kurdish Handwritten Character Recognition using Deep Learning Techniques [26.23274417985375]
本稿では、深層学習技術を用いてクルド語アルファベットの文字を認識可能なモデルの設計と開発を試みる。 4000万枚以上の画像を含む、手書きのクルド文字のための包括的なデータセットが作成された。結果,精度は96%,トレーニング精度は97%であった。
論文参考訳（メタデータ） (2022-10-18T16:48:28Z)
Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文参考訳（メタデータ） (2021-11-04T04:39:02Z)
Arabic Handwritten Character Recognition based on Convolution Neural Networks and Support Vector Machine [0.0]
本稿では,ディープ畳み込みニューラルネットワーク(DCNN)とサポートベクタマシン(SVM)を用いたアラビア文字と文字の認識アルゴリズムを提案する。本稿では,入力テンプレートと事前記憶テンプレートとの類似性を決定することで,アラビア文字認識の問題に対処する。本研究は,提案アルゴリズムが入力された手書きアラビア語文字を認識し,識別し,検証する能力を示すものである。
論文参考訳（メタデータ） (2020-09-28T16:18:52Z)
Neural Computing for Online Arabic Handwriting Character Recognition using Hard Stroke Features Mining [0.0]
オンラインアラビア文字認識における書字ストローク特徴の垂直方向と水平方向から所望の臨界点を検出する方法を提案する。バックプロパゲーション学習アルゴリズムと修正シグモイド関数に基づくアクティベーション関数を備えた多層パーセプトロンを用いて、文字の分類のためにこれらのトークンから最小の特徴セットを抽出する。提案手法は,文字認識技術に匹敵する98.6%の平均精度を実現する。
論文参考訳（メタデータ） (2020-05-02T23:17:08Z)
TextScanner: Reading Characters in Order for Robust Scene Text Recognition [60.04267660533966]
TextScannerはシーンテキスト認識の代替手法である。文字クラス、位置、順序に対する画素単位のマルチチャネルセグメンテーションマップを生成する。また、コンテキストモデリングにRNNを採用し、文字の位置とクラスを並列で予測する。
論文参考訳（メタデータ） (2019-12-28T07:52:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。