論文の概要: Advances and Limitations in Open Source Arabic-Script OCR: A Case Study
- arxiv url: http://arxiv.org/abs/2402.10943v1
- Date: Thu, 8 Feb 2024 12:51:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-25 17:06:18.943484
- Title: Advances and Limitations in Open Source Arabic-Script OCR: A Case Study
- Title(参考訳): オープンソースのアラビア文字OCRの進歩と限界--事例研究
- Authors: Benjamin Kiessling (PSL), Gennady Kurin, Matthew Thomas Miller, Kader
Smail
- Abstract要約: この研究は、アラビア語の学術雑誌『al-Abhath』でオープンソースのOCRエンジン『Kraken』の精度調査を行っている。
この研究は、al-Abhathデータに基づいて、フォント固有および一般化されたモデルの相対的精度を評価し、エラーインスタンスのマイクロ分析と、OCRの誤認識に寄与した可能性のあるコンテキスト特徴を提供する。
- 参考スコア(独自算出の注目度): 0.8192907805418583
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work presents an accuracy study of the open source OCR engine, Kraken,
on the leading Arabic scholarly journal, al-Abhath. In contrast with other
commercially available OCR engines, Kraken is shown to be capable of producing
highly accurate Arabic-script OCR. The study also assesses the relative
accuracy of typeface-specific and generalized models on the al-Abhath data and
provides a microanalysis of the ``error instances'' and the contextual features
that may have contributed to OCR misrecognition. Building on this analysis, the
paper argues that Arabic-script OCR can be significantly improved through (1) a
more systematic approach to training data production, and (2) the development
of key technological components, especially multi-language models and improved
line segmentation and layout analysis.
Cet article pr{\'e}sente une {\'e}tude d'exactitude du moteur ROC open
source, Krakan, sur la revue acad{\'e}mique arabe de premier rang, al-Abhath.
Contrairement {\`a} d'autres moteurs ROC disponibles sur le march{\'e}, Kraken
se r{\'e}v{\`e}le {\^e}tre capable de produire de la ROC extr{\^e}mement exacte
de l'{\'e}criture arabe. L'{\'e}tude {\'e}value aussi l'exactitude relative des
mod{\`e}les sp{\'e}cifiquement configur{\'e}s {\`a} des polices et celle des
mod{\`e}les g{\'e}n{\'e}ralis{\'e}s sur les donn{\'e}es d'al-Abhath et fournit
une microanalyse des "occurrences d'erreurs", ainsi qu'une microanalyse des
{\'e}l{\'e}ments contextuels qui pourraient avoir contribu{\'e} {\`a} la
m{\'e}reconnaissance ROC. S'appuyant sur cette analyse, cet article fait valoir
que la ROC de l'{\'e}criture arabe peut {\^e}tre consid{\'e}rablement
am{\'e}lior{\'e}e gr{\^a}ce {\`a} (1) une approche plus syst{\'e}matique
d'entra{\^i}nement de la production de donn{\'e}es et (2) gr{\^a}ce au
d{\'e}veloppement de composants technologiques fondamentaux,
notammentl'am{\'e}lioration des mod{\`e}les multilingues, de la segmentation de
ligne et de l'analyse de la mise en page.
- Abstract(参考訳): 本研究は,オープンソースのocrエンジンであるkrakenについて,アラビア語学術誌al-abhathで正確な研究を行っている。
他の市販のOCRエンジンとは対照的に、クラケンは高度に正確なアラビア文字のOCRを生成することができる。
この研究はまた、al-abhathデータにおけるフォント固有および一般化モデルの相対的精度を評価し、'エラーインスタンス'とocrの誤認識に寄与したかもしれない文脈的特徴のマイクロ分析を提供する。
この分析に基づいて、アラビア文字のOCRは、(1)データ生産のより体系的なアプローチ、(2)鍵となる技術コンポーネント、特に多言語モデルの開発、およびラインセグメンテーションとレイアウト解析の改善により、大幅に改善できると主張している。
Cet article pr{\'e}sente une {\'e}tude d'exactitude du moteur ROC open source, Krakan, sur la revue acad{\'e}mique arabe de premier rang, al-Abhath。
比較論 {\`a} d'autres moteurs ROC disponibles sur le march{\'e}, Kraken se r{\'e}v{\`e}le {\^e}tre capable de produire de la ROC extr{\^e}mement exacte de l'{\'e}criture arabe。
l'{\'e}tude {\'e} 値 aussi l'exactitude relative des mod{\`e}les sp{\'e}cifiquement configur{\'e}s {\`a} des polices et celle des mod{\`e}les g{\'e}n{\'e}ralis{\'e}s sur les donn{\'e}es d'al-abhath et fournit une microanalyse des "occurrences d'erreurs", ainsi qu'une microanalyse des {\'e}l{\'e}ments contextuels qui pourraient avoir contribu{\'e} {\`a} la m{\'e}reconance rociss rociss rociss rociss rociss rociss roc. l'al-abhath et fournit une microanalyse des "occurrences d'erreurs", ainsi qu'une microanalyse des {\'e}l{\'e}ments context
S'appuyant sur cette analyse, cet article fait valoir que la ROC de l'{\'e}criture arabe peut {\^e}tre consid{\'e}rablement am{\'e}lior{\'e}e gr{\^a}ce {\`a} (1) une approche plus syst{\'e}matique d'entra{\^i}nement de la production de donn{\'e}es et (2) gr{\^a}ce au d{\'e}veloppement de composants technologiques classicamentaux, notammentl'am'e}lioration mod de l'e}les multiling de la liging de la liges et la la la la de la de laly page。
関連論文リスト
- CORU: Comprehensive Post-OCR Parsing and Receipt Understanding Dataset [12.828786692835369]
本稿では,CORU(Comprehensive Post-OCR Parsing and Receipt Understanding dataset)を紹介する。
CORUはスーパーマーケットや衣料品店など、さまざまな小売店からの2万以上の注釈付きレシートで構成されている。
従来の手法の有効性を評価するため,CORU上でのモデル範囲のベースライン性能を確立した。
論文 参考訳(メタデータ) (2024-06-06T20:38:15Z) - The CLRS-Text Algorithmic Reasoning Language Benchmark [48.45201665463275]
CLRS-TextはCLRSベンチマークのテキストバージョンである。
CLRS-Textは、30の多様な、挑戦的なアルゴリズムタスクのためのトレースデータを手続き的に生成することができる。
このベンチマークでは、様々なLMをジェネラリストエグゼクタとして微調整し評価する。
論文 参考訳(メタデータ) (2024-06-06T16:29:25Z) - Data Generation for Post-OCR correction of Cyrillic handwriting [41.94295877935867]
本稿では,B'ezier曲線に基づく合成手書き生成エンジンの開発と応用に焦点を当てる。
このようなエンジンは、任意の量で非常にリアルな手書きテキストを生成し、それを利用して実質的なデータセットを作成する。
本データセットに手書きテキスト認識(HTR)モデルを適用し,OCRエラーを識別し,POCモデルトレーニングの基礎となる。
論文 参考訳(メタデータ) (2023-11-27T15:01:26Z) - bbOCR: An Open-source Multi-domain OCR Pipeline for Bengali Documents [0.23639235997306196]
我々はBengali$.$AI-BRACU-OCR(bbOCR)を紹介した。
提案手法は現在のベンガルOCRシステムよりも好ましい。
論文 参考訳(メタデータ) (2023-08-21T11:35:28Z) - B\"{u}y\"{u}k dil modellerinin T\"{u}rk\c{c}e verisetleri ile
e\u{g}itilmesi ve ince ayarlanmas\i [0.0]
大規模な言語モデルは飛躍的に進歩し、大きな注目を集め、激しい研究の段階にある。
トルコ語に関しては、オープンアクセスモデルは十分なカバレッジを提供していない。
本稿では,トルコの大規模なデータセットの作成,これらを用いたLLMのトレーニング,トルコ語入力による事前学習モデルの微調整など,この問題を軽減するためのアイデアを提案する。
論文 参考訳(メタデータ) (2023-06-06T19:31:08Z) - Coresets for Wasserstein Distributionally Robust Optimization Problems [23.292883776685326]
Wassersteinの分散ロバスト最適化(textsfWDRO)は、曖昧なデータによる機械学習のロバスト性を高める一般的なモデルである。
本稿では,一般的なtextsfWDRO問題に対する$epsilon$-coresetを構築するための統一フレームワークを提案する。
テキストfWDROの強い双対性特性を用いて「双対コアセット」を計算可能であることを示す。
論文 参考訳(メタデータ) (2022-10-09T13:24:54Z) - BitextEdit: Automatic Bitext Editing for Improved Low-Resource Machine
Translation [53.55009917938002]
自動編集によりマイニングしたビットクストを改良することを提案する。
提案手法は,5つの低リソース言語ペアと10の翻訳方向に対して,最大8個のBLEUポイントでCCMatrixマイニングビットクストの品質を向上することを示す。
論文 参考訳(メタデータ) (2021-11-12T16:00:39Z) - ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality
Estimation and Corrective Feedback [70.5469946314539]
ChrEnTranslateは、英語と絶滅危惧言語チェロキーとの翻訳のためのオンライン機械翻訳デモシステムである。
統計モデルとニューラルネットワークモデルの両方をサポートし、信頼性をユーザに通知するための品質評価を提供する。
論文 参考訳(メタデータ) (2021-07-30T17:58:54Z) - Structured Multimodal Attentions for TextVQA [57.71060302874151]
上述の2つの問題を主に解決するために,終端から終端までの構造化マルチモーダルアテンション(SMA)ニューラルネットワークを提案する。
SMAはまず、画像に現れるオブジェクト・オブジェクト・オブジェクト・テキスト・テキストの関係を符号化するために構造グラフ表現を使用し、その後、それを推論するためにマルチモーダルグラフアテンションネットワークを設計する。
提案モデルでは,テキストVQAデータセットとST-VQAデータセットの2つのタスクを事前学習ベースTAP以外のモデルで比較した。
論文 参考訳(メタデータ) (2020-06-01T07:07:36Z) - Recurrent Chunking Mechanisms for Long-Text Machine Reading
Comprehension [59.80926970481975]
機械読解(MRC)を長文で研究する。
モデルは長い文書と質問を入力として取り、回答として文書からテキストを抽出する。
我々は、モデルに強化学習を通じてより柔軟な方法でチャンクを学習させることを提案する。
論文 参考訳(メタデータ) (2020-05-16T18:08:58Z) - A Sentence Cloze Dataset for Chinese Machine Reading Comprehension [64.07894249743767]
我々はSentence Cloze-style Machine Reading (SC-MRC)と呼ばれる新しいタスクを提案する。
提案課題は,複数の空白を持つ文に適切な候補文を埋めることである。
私たちは、SC-MRCタスクの難しさを評価するためにCMRC 2019という中国のデータセットを構築しました。
論文 参考訳(メタデータ) (2020-04-07T04:09:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。