論文の概要: FP-THD: Full page transcription of historical documents
- arxiv url: http://arxiv.org/abs/2601.17040v1
- Date: Tue, 20 Jan 2026 07:13:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:07.018788
- Title: FP-THD: Full page transcription of historical documents
- Title(参考訳): FP-THD: 歴史文書の全ページ書き起こし
- Authors: H Neji, J Nogueras-Iso, J Lacasta, MÁ Latre, FJ García-Marco,
- Abstract要約: 本研究は, 特色を保存した史料の書き起こしのためのパイプラインを提案する。
我々は、レイアウト解析モデルを用いて過去のテキスト画像を分析し、テキスト行を抽出し、OCRモデルで処理し、完全にデジタル化されたページを生成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The transcription of historical documents written in Latin in XV and XVI centuries has special challenges as it must maintain the characters and special symbols that have distinct meanings to ensure that historical texts retain their original style and significance. This work proposes a pipeline for the transcription of historical documents preserving these special features. We propose to extend an existing text line recognition method with a layout analysis model. We analyze historical text images using a layout analysis model to extract text lines, which are then processed by an OCR model to generate a fully digitized page. We showed that our pipeline facilitates the processing of the page and produces an efficient result. We evaluated our approach on multiple datasets and demonstrate that the masked autoencoder effectively processes different types of text, including handwritten, printed and multi-language.
- Abstract(参考訳): XV と XVI 世紀にラテン語で書かれた歴史文書の書き起こしは、歴史文書の本来のスタイルと重要性を確実に維持するために、異なる意味を持つ文字と特別なシンボルを維持しなければならないため、特別な課題がある。
本研究は,これらの特色を保存した史料の書き起こしのためのパイプラインを提案する。
本稿では,レイアウト解析モデルを用いて既存のテキスト行認識手法を拡張することを提案する。
我々は、レイアウト解析モデルを用いて過去のテキスト画像を分析し、テキスト行を抽出し、OCRモデルで処理し、完全にデジタル化されたページを生成する。
我々のパイプラインはページの処理を容易にし、効率的な結果をもたらすことを示した。
我々は、複数のデータセットに対するアプローチを評価し、マスク付きオートエンコーダが、手書き、印刷、多言語など、様々なタイプのテキストを効果的に処理できることを実証した。
関連論文リスト
- Visually Guided Generative Text-Layout Pre-training for Document Intelligence [51.09853181377696]
視覚誘導型生成テキスト事前学習(ViTLP)を提案する。
文書画像が与えられた場合、モデルは階層言語とレイアウトモデリングの目的を最適化し、インターリーブされたテキストとレイアウトシーケンスを生成する。
ViTLPは、文書画像のテキストをローカライズし、認識するためのネイティブなOCRモデルとして機能する。
論文 参考訳(メタデータ) (2024-03-25T08:00:43Z) - PHD: Pixel-Based Language Modeling of Historical Documents [55.75201940642297]
実史文書に類似した合成スキャンを生成する新しい手法を提案する。
我々は,1700-1900年代における合成スキャンと実際の歴史新聞を組み合わせて,我々のモデルであるPHDを事前訓練した。
我々は、この領域におけるその有用性を強調しながら、我々のモデルを歴史的QAタスクに適用することに成功しました。
論文 参考訳(メタデータ) (2023-10-22T08:45:48Z) - Prompt me a Dataset: An investigation of text-image prompting for
historical image dataset creation using foundation models [0.9065034043031668]
基礎モデルを用いた歴史資料からの画像抽出のためのパイプラインを提案する。
我々は,テキスト画像のプロンプトと,それらが複雑度の異なる人文科学データセットに与える影響を評価する。
論文 参考訳(メタデータ) (2023-09-04T15:37:03Z) - The Learnable Typewriter: A Generative Approach to Text Analysis [17.355857281085164]
テキスト行中の文字解析と認識に対する生成文書固有のアプローチを提案する。
同様のフォントや手書きのテキスト行を入力として、我々のアプローチは多数の異なる文字を学習することができる。
論文 参考訳(メタデータ) (2023-02-03T11:17:59Z) - Boosting Modern and Historical Handwritten Text Recognition with
Deformable Convolutions [52.250269529057014]
自由進化ページにおける手書き文字認識(HTR)は難しい画像理解課題である。
本稿では,手入力に応じて変形し,テキストの幾何学的変化に適応できる変形可能な畳み込みを導入することを提案する。
論文 参考訳(メタデータ) (2022-08-17T06:55:54Z) - Robust Text Line Detection in Historical Documents: Learning and
Evaluation Methods [1.9938405188113029]
本稿では,3つの最先端システムDoc-UFCN,dhSegment,ARU-Netを用いて実験を行った。
多様な未確認ページを正確にセグメント化できる,さまざまな履歴文書データセットに基づいてトレーニングされた汎用モデルを構築することが可能であることを示す。
論文 参考訳(メタデータ) (2022-03-23T11:56:25Z) - Digital Editions as Distant Supervision for Layout Analysis of Printed
Books [76.29918490722902]
本稿では,この意味的マークアップを,レイアウト解析モデルのトレーニングと評価のための遠隔監視として利用する手法について述べる。
DTA(Deutsches Textarchiv)の50万ページにわたるモデルアーキテクチャの実験では、これらの領域レベルの評価手法と画素レベルのメトリクスとワードレベルのメトリクスとの高い相関性を見出した。
自己学習による精度向上の可能性と、DTAで訓練されたモデルが他の歴史書に一般化できる可能性について論じる。
論文 参考訳(メタデータ) (2021-12-23T16:51:53Z) - Page Layout Analysis System for Unconstrained Historic Documents [0.0]
我々は,線高とテキストブロック境界予測を追加することで,CNNベースのテキストベースライン検出システムの拡張を提案する。
提案手法は, cBAD ベースライン検出データセット上で有効であることを示す。
論文 参考訳(メタデータ) (2021-02-23T18:13:36Z) - Handwriting Classification for the Analysis of Art-Historical Documents [6.918282834668529]
We focus on the analysis of handwriting in scanned document from the art-historic Archive of the WPI。
視覚構造に基づいて抽出されたテキストの断片をラベル付けする手書き分類モデルを提案する。
論文 参考訳(メタデータ) (2020-11-04T13:06:46Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。