論文の概要: Jochre 3 and the Yiddish OCR corpus
- arxiv url: http://arxiv.org/abs/2501.08442v1
- Date: Tue, 14 Jan 2025 21:21:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-16 15:52:47.774750
- Title: Jochre 3 and the Yiddish OCR corpus
- Title(参考訳): Jochre 3 と Yiddish OCR コーパス
- Authors: Assaf Urieli, Amber Clooney, Michelle Sigiel, Grisha Leyfer,
- Abstract要約: オープンソースのOCRツールスイートであるJochre 3を記述し、評価する。
現在のYiddish OCRコーパスには、658ページ、186Kトークン、840Kグリフが含まれている。
我々は6億6000万語をJochre 3 OCRで分析し、新しいOCRはYiddish Book Center OCR検索エンジンで検索できる。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: We describe the construction of a publicly available Yiddish OCR Corpus, and describe and evaluate the open source OCR tool suite Jochre 3, including an Alto editor for corpus annotation, OCR software for Alto OCR layer generation, and a customizable OCR search engine. The current version of the Yiddish OCR corpus contains 658 pages, 186K tokens and 840K glyphs. The Jochre 3 OCR tool uses various fine-tuned YOLOv8 models for top-down page layout analysis, and a custom CNN network for glyph recognition. It attains a CER of 1.5% on our test corpus, far out-performing all other existing public models for Yiddish. We analyzed the full 660M word Yiddish Book Center with Jochre 3 OCR, and the new OCR is searchable through the Yiddish Book Center OCR search engine.
- Abstract(参考訳): 本稿では,公開されたYiddish OCR Corpusの構築について述べるとともに,オープンソースのOCRツールスイートであるJochre 3について,コーパスアノテーション用Altoエディタ,Alto OCR層生成用OCRソフトウェア,カスタマイズ可能なOCR検索エンジンなどについて述べる。
現在のYiddish OCRコーパスには、658ページ、186Kトークン、840Kグリフが含まれている。
Jochre 3 OCRツールは、トップダウンページレイアウト分析のために様々な微調整されたYOLOv8モデルと、グリフ認識のためのカスタムCNNネットワークを使用する。
テストコーパスのCERは1.5%に達し、Yiddishの既存のすべての公開モデルよりもはるかに優れています。
我々は6億6000万語をJochre 3 OCRで分析し、新しいOCRはYiddish Book Center OCR検索エンジンで検索できる。
関連論文リスト
- CC-OCR: A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy [50.78228433498211]
CC-OCRは、マルチシーンテキスト読取、多言語テキスト読取、文書解析、キー情報抽出の4つのOCR中心のトラックで構成されている。
39のサブセットと7,058のフルアノテートされたイメージが含まれており、そのうち41%が実際のアプリケーションからソースされ、初めてリリースされた。
我々は9つの顕著なLMMを評価し、これらのモデルの長所と短所、特にテキストの接地、多目的化、繰り返しの幻覚について明らかにした。
論文 参考訳(メタデータ) (2024-12-03T07:03:25Z) - General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model [22.834085739828815]
我々は,OCR-2.0の到来を促進するために,汎用OCR理論と優れたモデル,すなわちGOTを提案する。
GOTは580Mパラメータを持ち、高圧縮エンコーダと長文デコーダからなる統一的でエレガントでエンドツーエンドのモデルである。
OCR-2.0モデルとして、GOTは様々なOCRタスクで上記の「キャラクタ」を処理できる。
論文 参考訳(メタデータ) (2024-09-03T08:41:31Z) - LOCR: Location-Guided Transformer for Optical Character Recognition [55.195165959662795]
自動回帰中にトランスフォーマーアーキテクチャに位置案内を組み込むモデルであるLOCRを提案する。
125Kの学術文書ページから777万以上のテキスト配置ペアからなるデータセット上でモデルをトレーニングする。
これは、編集距離、BLEU、METEOR、F測定によって測定されたarXivから構築されたテストセットの既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-03-04T15:34:12Z) - EfficientOCR: An Extensible, Open-Source Package for Efficiently
Digitizing World Knowledge [1.8434042562191815]
EffOCRは、オープンソースの光文字認識(OCR)パッケージである。
これは、大規模にテキストを解放するための計算とサンプルの効率の要求を満たす。
EffOCRは安価で、トレーニングにはサンプルの効率がよい。
論文 参考訳(メタデータ) (2023-10-16T04:20:16Z) - User-Centric Evaluation of OCR Systems for Kwak'wala [92.73847703011353]
OCRを利用すると、文化的に価値ある文書の書き起こしに費やした時間を50%以上削減できることを示す。
この結果から,OCRツールが下流言語ドキュメントや再生作業において持つ潜在的なメリットが示された。
論文 参考訳(メタデータ) (2023-02-26T21:41:15Z) - DavarOCR: A Toolbox for OCR and Multi-Modal Document Understanding [27.021253000700288]
DavarOCRは、OCRとドキュメント理解タスクのためのオープンソースのツールボックスである。
DavarOCRは19の高度なアルゴリズムを実装し、9つのタスク形式をカバーする。
論文 参考訳(メタデータ) (2022-07-14T06:54:47Z) - MMOCR: A Comprehensive Toolbox for Text Detection, Recognition and
Understanding [70.16678926775475]
MMOCRは、テキストの検出と認識のためのオープンソースのツールボックスである。
それは14の最先端のアルゴリズムを実装しており、これは私たちが現在知っているすべてのオープンソースのOCRプロジェクトよりも多い。
論文 参考訳(メタデータ) (2021-08-14T14:10:23Z) - An end-to-end Optical Character Recognition approach for
ultra-low-resolution printed text images [0.0]
低解像度画像上で光文字認識(OCR)を行う新しい手法を提案する。
このアプローチは、人間の視覚システムに対する理解から着想を得て、OCRを実行するための確立されたニューラルネットワークを構築します。
平均文字レベル精度 (cla) は99.7%、単語レベル精度 (wla) は98.9%であり、60dpiテキストの約1000ページにわたる。
論文 参考訳(メタデータ) (2021-05-10T17:08:06Z) - ICDAR2019 Competition on Scanned Receipt OCR and Information Extraction [70.71240097723745]
SROIEの技術的課題、重要性、および巨大な商業的可能性を認識し、私たちはSROIEでICDAR 2019コンペティションを開催しました。
競争のために1000全体のスキャンされたレシート画像とアノテーションを備えた新しいデータセットが作成されます。
本報告では,モチベーション,競合データセット,タスク定義,評価プロトコル,提出統計,提案手法の性能,結果分析について述べる。
論文 参考訳(メタデータ) (2021-03-18T12:33:41Z) - OCR Post Correction for Endangered Language Texts [113.8242302688894]
我々は、3つの危惧言語でスキャンされた書籍の書き起こしのベンチマークデータセットを作成する。
本稿では,汎用OCRツールがデータ・スカース・セッティングに対して堅牢でないかを体系的に分析する。
我々は,このデータ・スカース・セッティングにおけるトレーニングを容易にするために,OCRポスト補正法を開発した。
論文 参考訳(メタデータ) (2020-11-10T21:21:08Z) - PP-OCR: A Practical Ultra Lightweight OCR System [8.740684949994664]
実用的超軽量OCRシステム(PP-OCR)を提案する。
PP-OCRの全体的なモデルサイズは、6622の漢字を認識するために3.5M、63の数字記号を認識するために2.8Mである。
論文 参考訳(メタデータ) (2020-09-21T14:57:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。