論文の概要: Improving OCR for Historical Texts of Multiple Languages
- arxiv url: http://arxiv.org/abs/2508.10356v1
- Date: Thu, 14 Aug 2025 05:52:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.190732
- Title: Improving OCR for Historical Texts of Multiple Languages
- Title(参考訳): 複数言語の歴史的テキストに対するOCRの改良
- Authors: Hylke Westerdijk, Ben Blankenborg, Khondoker Ittehadul Islam,
- Abstract要約: 本稿では,光学的文字認識(OCR)と文書レイアウト解析(Document Layout Analysis)の3つのタスクから得られた方法論と知見を,高度なディープラーニング技術を用いて提示する。
The historical Hebrew fragments of the Dead Sea Scrolls, we improve our dataset through extensive data augmentation and using the Kraken and TrOCR model to improve character recognition。
16~18世紀の会議解決タスクの分析では,DeepLabV3+をセマンティックセグメンテーションに組み込んだ畳み込みリカレントニューラルネットワーク(CRNN)を用いた。
現代の英語手書き文字認識タスクでは,ResNet34エンコーダを用いたCRNNを適用した。
- 参考スコア(独自算出の注目度): 0.08192907805418585
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper presents our methodology and findings from three tasks across Optical Character Recognition (OCR) and Document Layout Analysis using advanced deep learning techniques. First, for the historical Hebrew fragments of the Dead Sea Scrolls, we enhanced our dataset through extensive data augmentation and employed the Kraken and TrOCR models to improve character recognition. In our analysis of 16th to 18th-century meeting resolutions task, we utilized a Convolutional Recurrent Neural Network (CRNN) that integrated DeepLabV3+ for semantic segmentation with a Bidirectional LSTM, incorporating confidence-based pseudolabeling to refine our model. Finally, for modern English handwriting recognition task, we applied a CRNN with a ResNet34 encoder, trained using the Connectionist Temporal Classification (CTC) loss function to effectively capture sequential dependencies. This report offers valuable insights and suggests potential directions for future research.
- Abstract(参考訳): 本稿では,光学的文字認識(OCR)と文書レイアウト解析(Document Layout Analysis)の3つのタスクから得られた方法論と知見を,高度なディープラーニング技術を用いて提示する。
まず,Dead Sea Scrollsの歴史的ヘブライ語の断片について,広範なデータ拡張を通じてデータセットを拡張し,クラケンモデルとTrOCRモデルを用いて文字認識を改善した。
16~18世紀の会議解決タスクの分析では、DeepLabV3+を双方向LSTMとセマンティックセグメンテーションに組み込んだ畳み込みリカレントニューラルネットワーク(CRNN)を用いて、信頼に基づく疑似ラベルを組み込んでモデルを洗練しました。
最後に、現代の英語手書き文字認識タスクにおいて、逐次依存関係を効果的にキャプチャするために、Connectionist Temporal Classification (CTC)損失関数を用いて訓練されたResNet34エンコーダを用いたCRNNを適用した。
本報告は貴重な知見を提供し,今後の研究の方向性を示唆するものである。
関連論文リスト
- ESTR-CoT: Towards Explainable and Accurate Event Stream based Scene Text Recognition with Chain-of-Thought Reasoning [57.767536707234036]
本稿では,イベントストリームシーンのテキスト認識フレームワークESTR-CoTを提案する。
具体的には、まず視覚エンコーダEVA-CLIPを採用し、入力イベントストリームをトークンに変換し、Llamaトークン化器を使用して与えられた生成プロンプトをエンコードする。
Qフォーマーは、事前訓練された大言語モデルVicuna-7Bにビジョントークンを整列させ、応答とチェーン・オブ・シークレット(CoT)推論プロセスの両方を同時に出力する。
論文 参考訳(メタデータ) (2025-07-02T23:41:31Z) - Comparative analysis of optical character recognition methods for Sámi texts from the National Library of Norway [0.2796197251957244]
S'ami言語で書かれたテキストのOCRを評価し改善する。
以上の結果から,TranskribusとTrOCRはTesseractよりも優れていることがわかった。
また、訓練済みの微調整モデルや手動アノテーションを補足することで、S'ami言語に対して正確なOCRが得られることを示す。
論文 参考訳(メタデータ) (2025-01-13T13:07:51Z) - Spanish TrOCR: Leveraging Transfer Learning for Language Adaptation [0.0]
本研究では,TrOCRアーキテクチャのスペイン語への移行学習能力について検討する。
我々は、英語のTrOCRエンコーダを言語固有のデコーダと統合し、この言語でモデルを訓練する。
英語のTrOCRをスペイン語で微調整すると、固定データセットサイズに対する言語固有のデコーダよりも優れた認識が得られる。
論文 参考訳(メタデータ) (2024-07-09T15:31:41Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - TransDocs: Optical Character Recognition with word to word translation [2.2336243882030025]
本研究は,光学文字認識(OCR)をML技術で改善することに焦点を当てる。
この研究は、英語からスペイン語への翻訳のためのANKIデータセットに基づいている。
論文 参考訳(メタデータ) (2023-04-15T21:40:14Z) - Retrieval-based Disentangled Representation Learning with Natural
Language Supervision [61.75109410513864]
本稿では,VDR(Vocabulary Disentangled Retrieval)を提案する。
提案手法では,両エンコーダモデルを用いて語彙空間におけるデータと自然言語の両方を表現する。
論文 参考訳(メタデータ) (2022-12-15T10:20:42Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - HCR-Net: A deep learning based script independent handwritten character
recognition network [5.8067395321424975]
手書き文字認識(HCR)は、数十年の研究にもかかわらず、困難なパターン認識問題である。
我々は、HCR研究のためのスクリプト独立型ディープラーニングネットワーク、HCR-Netを提案し、この分野の新たな研究方向性を定めている。
論文 参考訳(メタデータ) (2021-08-15T05:48:07Z) - EASTER: Efficient and Scalable Text Recognizer [0.0]
本稿では,機械印刷版と手書き版の両方で光学文字認識を行うための高能率かつスケーラブルなTExt認識器(EASTER)を提案する。
このモデルでは1次元畳み込み層を再帰なく利用し,データ量を大幅に削減した並列トレーニングを実現している。
また、オフライン手書きテキスト認識タスクにおいて、現在の最良の結果よりも改善点を示す。
論文 参考訳(メタデータ) (2020-08-18T10:26:03Z) - Unsupervised Deep Cross-modality Spectral Hashing [65.3842441716661]
このフレームワークは、最適化をバイナリ最適化とハッシュ関数学習に分離する2段階のハッシュアプローチである。
本稿では,単一モダリティと二項相互モダリティを同時に学習するスペクトル埋め込みに基づく新しいアルゴリズムを提案する。
我々は、画像に強力なCNNを活用し、テキストモダリティを学ぶためのCNNベースのディープアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-08-01T09:20:11Z) - Learning to Hash with Graph Neural Networks for Recommender Systems [103.82479899868191]
グラフ表現学習は、大規模に高品質な候補探索をサポートすることに多くの注目を集めている。
ユーザ・イテム相互作用ネットワークにおけるオブジェクトの埋め込みベクトルの学習の有効性にもかかわらず、連続的な埋め込み空間におけるユーザの好みを推測する計算コストは膨大である。
連続的かつ離散的なコードとを協調的に学習するための,単純かつ効果的な離散表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-04T06:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。