論文の概要: Historical Document Processing: Historical Document Processing: A Survey
of Techniques, Tools, and Trends
- arxiv url: http://arxiv.org/abs/2002.06300v2
- Date: Fri, 11 Sep 2020 03:09:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-31 23:10:39.781653
- Title: Historical Document Processing: Historical Document Processing: A Survey
of Techniques, Tools, and Trends
- Title(参考訳): 歴史文書処理:歴史文書処理:技術・ツール・動向の調査
- Authors: James P. Philips and Nasseh Tabrizi
- Abstract要約: 歴史文書処理は、歴史学者や他の学者が将来使用するために、過去に書かれた資料をデジタル化する過程である。
コンピュータビジョン、文書分析と認識、自然言語処理、機械学習など、コンピュータ科学の様々なサブフィールドからアルゴリズムやソフトウェアツールが組み込まれている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Historical Document Processing is the process of digitizing written material
from the past for future use by historians and other scholars. It incorporates
algorithms and software tools from various subfields of computer science,
including computer vision, document analysis and recognition, natural language
processing, and machine learning, to convert images of ancient manuscripts,
letters, diaries, and early printed texts automatically into a digital format
usable in data mining and information retrieval systems. Within the past twenty
years, as libraries, museums, and other cultural heritage institutions have
scanned an increasing volume of their historical document archives, the need to
transcribe the full text from these collections has become acute. Since
Historical Document Processing encompasses multiple sub-domains of computer
science, knowledge relevant to its purpose is scattered across numerous
journals and conference proceedings. This paper surveys the major phases of,
standard algorithms, tools, and datasets in the field of Historical Document
Processing, discusses the results of a literature review, and finally suggests
directions for further research.
- Abstract(参考訳): 歴史文書処理は、歴史学者や他の学者が将来の使用のために過去から文書をデジタル化する過程である。
コンピュータビジョン、文書解析と認識、自然言語処理、機械学習などのコンピュータ科学の様々な分野のアルゴリズムとソフトウェアツールを組み込んで、古代の写本、文字、日記、初期の印刷されたテキストの画像をデータマイニングや情報検索システムで使用可能なデジタルフォーマットに自動的に変換する。
過去20年以内に、図書館、博物館、その他の文化遺産機関が歴史文書アーカイブの量の増加をスキャンし、これらのコレクションから全文を転写する必要性が高まっている。
歴史的文書処理はコンピュータ科学の複数のサブドメインを含んでいるため、その目的に関する知識は多くの雑誌や会議の手続きに散在している。
本稿では,歴史的文書処理分野における標準アルゴリズム,ツール,データセットの主要なフェーズを調査し,文献レビューの結果について考察し,さらに研究の方向性を提案する。
関連論文リスト
- PHD: Pixel-Based Language Modeling of Historical Documents [55.75201940642297]
実史文書に類似した合成スキャンを生成する新しい手法を提案する。
我々は,1700-1900年代における合成スキャンと実際の歴史新聞を組み合わせて,我々のモデルであるPHDを事前訓練した。
我々は、この領域におけるその有用性を強調しながら、我々のモデルを歴史的QAタスクに適用することに成功しました。
論文 参考訳(メタデータ) (2023-10-22T08:45:48Z) - ScrollTimes: Tracing the Provenance of Paintings as a Window into
History [35.605930297790465]
考古学や美術史において、文化遺産の遺物、遺産の相続と保存の研究が重要な意味を持つ。
美術史家らと共同で、歴史資料の豊富な資料を提供する伝統的な中国の絵画形式である「ハンズクロル」を調査した。
本報告では,ハンドクロルのための「バイオグラフィー」を作成するために,アーティファクト,コンテキスト,および証明レベルを包含する3段階の方法論を提案する。
論文 参考訳(メタデータ) (2023-06-15T03:38:09Z) - Augraphy: A Data Augmentation Library for Document Images [59.457999432618614]
Augraphyはデータ拡張パイプラインを構築するためのPythonライブラリである。
標準的なオフィス操作によって変更されたように見えるクリーンなドキュメントイメージの拡張版を作成するための戦略を提供する。
論文 参考訳(メタデータ) (2022-08-30T22:36:19Z) - Layout-Aware Information Extraction for Document-Grounded Dialogue:
Dataset, Method and Demonstration [75.47708732473586]
視覚的にリッチな文書から構造的知識と意味的知識の両方を抽出するためのレイアウト対応文書レベル情報抽出データセット(LIE)を提案する。
LIEには製品および公式文書の4,061ページから3つの抽出タスクの62kアノテーションが含まれている。
実験の結果、レイアウトはVRDベースの抽出に不可欠であることが示され、システムデモでは、抽出された知識が、ユーザが関心を持っている答えを見つけるのに役立つことも確認されている。
論文 参考訳(メタデータ) (2022-07-14T07:59:45Z) - Open Set Classification of Untranscribed Handwritten Documents [56.0167902098419]
重要な写本の膨大な量のデジタルページイメージが世界中のアーカイブに保存されている。
ドキュメントのクラスや型付け'はおそらくメタデータに含まれる最も重要なタグです。
技術的問題は文書の自動分類の1つであり、それぞれが書き起こされていない手書きのテキスト画像からなる。
論文 参考訳(メタデータ) (2022-06-20T20:43:50Z) - A Survey of Historical Document Image Datasets [2.8707038627097226]
本稿では,文書画像解析のための画像データセットの体系的な文献レビューを行う。
手書きの写本や初期の版画などの史料に焦点が当てられている。
歴史的文書分析のための適切なデータセットを見つけることは、異なる機械学習アルゴリズムを用いた研究を促進するための重要な前提条件である。
論文 参考訳(メタデータ) (2022-03-16T09:56:48Z) - Digital Editions as Distant Supervision for Layout Analysis of Printed
Books [76.29918490722902]
本稿では,この意味的マークアップを,レイアウト解析モデルのトレーニングと評価のための遠隔監視として利用する手法について述べる。
DTA(Deutsches Textarchiv)の50万ページにわたるモデルアーキテクチャの実験では、これらの領域レベルの評価手法と画素レベルのメトリクスとワードレベルのメトリクスとの高い相関性を見出した。
自己学習による精度向上の可能性と、DTAで訓練されたモデルが他の歴史書に一般化できる可能性について論じる。
論文 参考訳(メタデータ) (2021-12-23T16:51:53Z) - Document AI: Benchmarks, Models and Applications [35.46858492311289]
ドキュメントAI(Document AI)とは、ビジネス文書を自動的に読み、理解し、分析する技術である。
近年、ディープラーニング技術の人気は、Document AIの開発を大きく進めている。
本稿では,代表モデル,タスク,ベンチマークデータセットについて概説する。
論文 参考訳(メタデータ) (2021-11-16T16:43:07Z) - A Survey of Deep Learning Approaches for OCR and Document Understanding [68.65995739708525]
我々は、英語で書かれた文書の文書理解のための様々な手法をレビューする。
文献に現れる方法論を集約し,この領域を探索する研究者の跳躍点として機能させる。
論文 参考訳(メタデータ) (2020-11-27T03:05:59Z) - Handwriting Classification for the Analysis of Art-Historical Documents [6.918282834668529]
We focus on the analysis of handwriting in scanned document from the art-historic Archive of the WPI。
視覚構造に基づいて抽出されたテキストの断片をラベル付けする手書き分類モデルを提案する。
論文 参考訳(メタデータ) (2020-11-04T13:06:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。