論文の概要: Comparative analysis of optical character recognition methods for Sámi texts from the National Library of Norway
- arxiv url: http://arxiv.org/abs/2501.07300v1
- Date: Mon, 13 Jan 2025 13:07:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:28:47.240633
- Title: Comparative analysis of optical character recognition methods for Sámi texts from the National Library of Norway
- Title(参考訳): ノルウェー国立図書館蔵のサーミ文字の光学的文字認識法の比較解析
- Authors: Tita Enstad, Trond Trosterud, Marie Iversdatter Røsok, Yngvil Beyer, Marie Roald,
- Abstract要約: S'ami言語で書かれたテキストのOCRを評価し改善する。
以上の結果から,TranskribusとTrOCRはTesseractよりも優れていることがわかった。
また、訓練済みの微調整モデルや手動アノテーションを補足することで、S'ami言語に対して正確なOCRが得られることを示す。
- 参考スコア(独自算出の注目度): 0.2796197251957244
- License:
- Abstract: Optical Character Recognition (OCR) is crucial to the National Library of Norway's (NLN) digitisation process as it converts scanned documents into machine-readable text. However, for the S\'ami documents in NLN's collection, the OCR accuracy is insufficient. Given that OCR quality affects downstream processes, evaluating and improving OCR for text written in S\'ami languages is necessary to make these resources accessible. To address this need, this work fine-tunes and evaluates three established OCR approaches, Transkribus, Tesseract and TrOCR, for transcribing S\'ami texts from NLN's collection. Our results show that Transkribus and TrOCR outperform Tesseract on this task, while Tesseract achieves superior performance on an out-of-domain dataset. Furthermore, we show that fine-tuning pre-trained models and supplementing manual annotations with machine annotations and synthetic text images can yield accurate OCR for S\'ami languages, even with a moderate amount of manually annotated data.
- Abstract(参考訳): 光文字認識(OCR)は、スキャンされた文書を機械可読テキストに変換するノルウェー国立図書館(NLN)のデジタル化プロセスにおいて不可欠である。
しかし、NLNのコレクションにあるS\'ami文書では、OCRの精度は不十分である。
OCRの品質が下流のプロセスに影響を与えることを考慮すれば、これらのリソースをアクセス可能にするためには、S\'ami言語で記述されたテキストに対するOCRの評価と改善が必要である。
このニーズに対処するため、NLNのコレクションからS\'amiテキストを翻訳するために、Transkribus、Tesseract、TrOCRの3つの確立したOCRアプローチを微調整し、評価する。
以上の結果から,TranskribusとTrOCRはTesseractよりも優れており,Tesseractはドメイン外のデータセットで優れたパフォーマンスを実現していることがわかった。
さらに, 微調整済みモデルと手動アノテーションを機械アノテーションや合成テキスト画像で補足することで, 適度な量の手動注釈付きデータであっても, S\'ami言語に対して正確なOCRが得られることを示す。
関連論文リスト
- Deciphering the Underserved: Benchmarking LLM OCR for Low-Resource Scripts [0.0]
本研究では、ウルドゥー語、アルバニア語、タジク語などの低リソーススクリプトにおける光学文字認識(OCR)のための大規模言語モデル(LLM)、特にGPT-4oの可能性について検討する。
テキストの長さ、フォントサイズ、背景色、ぼやけなど、制御されたバリエーションを取り入れた2,520の画像を精巧にキュレートしたデータセットを使用して、研究はさまざまな現実世界の課題をシミュレートする。
論文 参考訳(メタデータ) (2024-12-20T18:05:22Z) - RoundTripOCR: A Data Generation Technique for Enhancing Post-OCR Error Correction in Low-Resource Devanagari Languages [41.09752906121257]
本稿では,Devanagari言語のための合成データ生成手法であるRoundTripOCRを提案する。
我々は,ヒンディー語,マラティー語,ボド語,ネパール語,コンカニ語,サンスクリット語に対するOCR後のテキスト修正データセットをリリースする。
また,機械翻訳の手法を利用した新しいOCR誤り訂正手法を提案する。
論文 参考訳(メタデータ) (2024-12-14T19:59:41Z) - LOCR: Location-Guided Transformer for Optical Character Recognition [55.195165959662795]
自動回帰中にトランスフォーマーアーキテクチャに位置案内を組み込むモデルであるLOCRを提案する。
125Kの学術文書ページから777万以上のテキスト配置ペアからなるデータセット上でモデルをトレーニングする。
これは、編集距離、BLEU、METEOR、F測定によって測定されたarXivから構築されたテストセットの既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-03-04T15:34:12Z) - EfficientOCR: An Extensible, Open-Source Package for Efficiently
Digitizing World Knowledge [1.8434042562191815]
EffOCRは、オープンソースの光文字認識(OCR)パッケージである。
これは、大規模にテキストを解放するための計算とサンプルの効率の要求を満たす。
EffOCRは安価で、トレーニングにはサンプルの効率がよい。
論文 参考訳(メタデータ) (2023-10-16T04:20:16Z) - TransDocs: Optical Character Recognition with word to word translation [2.2336243882030025]
本研究は,光学文字認識(OCR)をML技術で改善することに焦点を当てる。
この研究は、英語からスペイン語への翻訳のためのANKIデータセットに基づいている。
論文 参考訳(メタデータ) (2023-04-15T21:40:14Z) - User-Centric Evaluation of OCR Systems for Kwak'wala [92.73847703011353]
OCRを利用すると、文化的に価値ある文書の書き起こしに費やした時間を50%以上削減できることを示す。
この結果から,OCRツールが下流言語ドキュメントや再生作業において持つ潜在的なメリットが示された。
論文 参考訳(メタデータ) (2023-02-26T21:41:15Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - TrOCR: Transformer-based Optical Character Recognition with Pre-trained
Models [47.48019831416665]
本稿では,事前学習した画像変換器とテキスト変換器モデル,すなわちTrOCRを用いたエンドツーエンドのテキスト認識手法を提案する。
TrOCRは単純だが効果的であり、大規模な合成データで事前訓練し、人間のラベル付きデータセットで微調整することができる。
実験により、TrOCRモデルは、印刷されたテキスト認識タスクと手書きのテキスト認識タスクの両方において、現在の最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2021-09-21T16:01:56Z) - TextOCR: Towards large-scale end-to-end reasoning for arbitrary-shaped
scene text [23.04601165885908]
実画像に900kの注釈付き単語を付加した任意の形状のシーンテキストの検出と認識を行うTextOCRを提案する。
現状のテキスト認識(OCR)モデルはTextOCRではうまく動作しないことを示す。
我々はTextOCRトレーニングされたOCRモデルを使用してPixelM4Cモデルを作成し、エンドツーエンドで画像に基づいてシーンテキストベースの推論を行う。
論文 参考訳(メタデータ) (2021-05-12T07:50:42Z) - OCR Post Correction for Endangered Language Texts [113.8242302688894]
我々は、3つの危惧言語でスキャンされた書籍の書き起こしのベンチマークデータセットを作成する。
本稿では,汎用OCRツールがデータ・スカース・セッティングに対して堅牢でないかを体系的に分析する。
我々は,このデータ・スカース・セッティングにおけるトレーニングを容易にするために,OCRポスト補正法を開発した。
論文 参考訳(メタデータ) (2020-11-10T21:21:08Z) - Scene Text Image Super-Resolution in the Wild [112.90416737357141]
低解像度のテキスト画像は、携帯電話が捉えた文書のような自然の場面でよく見られる。
従来は、合成低解像度画像に対して、単一の画像超解像法 (SISR) を訓練していた。
実際のシーンテキストSRデータセットであるTextZoomをプロポーズする。
この写真には、野生の焦点距離の異なるカメラが捉えた、実際の低解像度と高解像度の2つの画像が含まれている。
論文 参考訳(メタデータ) (2020-05-07T09:18:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。