論文の概要: Handwritten Text Recognition of Historical Manuscripts Using Transformer-Based Models
- arxiv url: http://arxiv.org/abs/2508.11499v1
- Date: Fri, 15 Aug 2025 14:20:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:24.045977
- Title: Handwritten Text Recognition of Historical Manuscripts Using Transformer-Based Models
- Title(参考訳): トランスフォーマーモデルを用いた歴史文書の手書きテキスト認識
- Authors: Erez Meoded,
- Abstract要約: 我々はルドルフ・グワルターによって書かれた16世紀のラテン写本に最先端のトランスフォーマーベースのHTRモデルであるTrOCRを適用する。
歴史的手書き文字の特徴に特化して設計された4つの新しい拡張手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Historical handwritten text recognition (HTR) is essential for unlocking the cultural and scholarly value of archival documents, yet digitization is often hindered by scarce transcriptions, linguistic variation, and highly diverse handwriting styles. In this study, we apply TrOCR, a state-of-the-art transformer-based HTR model, to 16th-century Latin manuscripts authored by Rudolf Gwalther. We investigate targeted image preprocessing and a broad suite of data augmentation techniques, introducing four novel augmentation methods designed specifically for historical handwriting characteristics. We also evaluate ensemble learning approaches to leverage the complementary strengths of augmentation-trained models. On the Gwalther dataset, our best single-model augmentation (Elastic) achieves a Character Error Rate (CER) of 1.86, while a top-5 voting ensemble achieves a CER of 1.60 - representing a 50% relative improvement over the best reported TrOCR_BASE result and a 42% improvement over the previous state of the art. These results highlight the impact of domain-specific augmentations and ensemble strategies in advancing HTR performance for historical manuscripts.
- Abstract(参考訳): 歴史的手書き文字認識(HTR)は、古文書の文化的価値と学術的価値を解き放つのに不可欠であるが、デジタル化は少ない書き起こし、言語的バリエーション、非常に多様な書き起こしスタイルによってしばしば妨げられる。
本研究では,ルドルフ・グワルサーが著した16世紀のラテン写本に,最先端のトランスフォーマーベースのHTRモデルであるTrOCRを適用した。
対象画像前処理と幅広いデータ拡張技術について検討し、歴史的手書き特性に特化して設計された4つの新しい拡張手法を提案する。
また,強化学習モデルの相補的強みを利用したアンサンブル学習手法の評価を行った。
Gwaltherデータセットでは,最高の単一モデル拡張(Elastic)が1.86のキャラクタエラー率(CER)を達成し,トップ5の投票アンサンブルが1.60のCERを達成する。
これらの結果は,歴史写本のHTR向上におけるドメイン固有の拡張とアンサンブル戦略の影響を浮き彫りにしたものである。
関連論文リスト
- Quo Vadis Handwritten Text Generation for Handwritten Text Recognition? [34.1205194877339]
歴史写本のデジタル化は、手書き文字認識(HTR)システムに重大な課題をもたらす。
手書きテキスト生成(HTG)技術は、特定の手書きスタイルに適した合成データを生成する。
最先端の3種類のHTGモデルを比較し,HTR微調整への影響を評価する。
論文 参考訳(メタデータ) (2025-08-13T16:39:18Z) - Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。
また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - Retrieval is Accurate Generation [99.24267226311157]
本稿では,支援文書の集合からコンテキスト認識句を選択する新しい手法を提案する。
本モデルでは,検索対象のベースラインの中で,最高の性能と低レイテンシを実現する。
論文 参考訳(メタデータ) (2024-02-27T14:16:19Z) - FigCaps-HF: A Figure-to-Caption Generative Framework and Benchmark with Human Feedback [69.4639239117551]
FigCaps-HFは、新しいフィギュアキャプション生成フレームワークである。
本フレームワークは,1) 図形選択ペアの品質を評価するための自動手法,2) 人物フィードバックを用いた新しい強化学習(RLHF) により,読取者の好みに応じて生成図形選択モデルを最適化する。
論文 参考訳(メタデータ) (2023-07-20T13:40:22Z) - How to Choose Pretrained Handwriting Recognition Models for Single
Writer Fine-Tuning [23.274139396706264]
近年のDeep Learning-based Handwriting Text Recognition (HTR) の進歩は、現代の写本や歴史文書に顕著な性能を持つモデルを生み出している。
これらのモデルは、言語、紙の支持、インク、著者の筆跡など、独特の特徴を持つ写本に適用した場合、同じパフォーマンスを得るのに苦労している。
本稿では,手書きテキスト生成モデルを用いて得られた,大規模で実際のベンチマークデータセットと合成データセットについて考察する。
我々は,5行の実際の微調整行数で,原稿を効果的に書き起こし可能なHTRモデルを得るための,そのようなデータの最も関連性の高い特徴を定量的に示す。
論文 参考訳(メタデータ) (2023-05-04T07:00:28Z) - The Challenges of HTR Model Training: Feedback from the Project Donner
le gout de l'archive a l'ere numerique [0.0]
本稿では、トランスクリプティングプロトコルの作成と言語モデルをフルスケールで使用することの影響について報告する。
また、手書きテキスト認識モデルの性能向上を支援するため、ベースモデルを使用する最善の方法も決定する。
論文 参考訳(メタデータ) (2022-12-13T12:42:12Z) - PART: Pre-trained Authorship Representation Transformer [52.623051272843426]
文書を書く著者は、自分のテキストに識別情報を印字する。
以前の作品では、手作りの機能や分類タスクを使って著者モデルを訓練していた。
セマンティクスの代わりにテキストの埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文 参考訳(メタデータ) (2022-09-30T11:08:39Z) - Boosting Modern and Historical Handwritten Text Recognition with
Deformable Convolutions [52.250269529057014]
自由進化ページにおける手書き文字認識(HTR)は難しい画像理解課題である。
本稿では,手入力に応じて変形し,テキストの幾何学的変化に適応できる変形可能な畳み込みを導入することを提案する。
論文 参考訳(メタデータ) (2022-08-17T06:55:54Z) - SmartPatch: Improving Handwritten Word Imitation with Patch
Discriminators [67.54204685189255]
本稿では,現在の最先端手法の性能を向上させる新手法であるSmartPatchを提案する。
我々は、よく知られたパッチ損失と、平行訓練された手書きテキスト認識システムから収集された情報を組み合わせる。
これにより、より強化された局所識別器が実現し、より現実的で高品質な手書き文字が生成される。
論文 参考訳(メタデータ) (2021-05-21T18:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。