論文の概要: Large Scale Genealogical Information Extraction From Handwritten Quebec
Parish Records
- arxiv url: http://arxiv.org/abs/2304.14044v1
- Date: Thu, 27 Apr 2023 09:19:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-28 13:57:08.680294
- Title: Large Scale Genealogical Information Extraction From Handwritten Quebec
Parish Records
- Title(参考訳): 手書きケベック教区記録からの大規模系図情報抽出
- Authors: Sol\`ene Tarride and Martin Maarand and M\'elodie Boillet and James
McGrath and Eug\'enie Capel and H\'el\`ene V\'ezina and Christopher
Kermorvant
- Abstract要約: 教区の記録のイメージから、我々のワークフローは行動を特定し、個人情報を抽出することができる。
完全なワークフローは、19世紀から20世紀にかけてケベック郡登録簿の200万ページ以上を処理するために使われてきた。
これらのレコードはBALSACデータベースに統合され、家族関係と系譜関係を大規模に再現するためにリンクされる。
- 参考スコア(独自算出の注目度): 0.14072064932290226
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a complete workflow designed for extracting information
from Quebec handwritten parish registers. The acts in these documents contain
individual and family information highly valuable for genetic, demographic and
social studies of the Quebec population. From an image of parish records, our
workflow is able to identify the acts and extract personal information. The
workflow is divided into successive steps: page classification, text line
detection, handwritten text recognition, named entity recognition and act
detection and classification. For all these steps, different machine learning
models are compared. Once the information is extracted, validation rules
designed by experts are then applied to standardize the extracted information
and ensure its consistency with the type of act (birth, marriage, and death).
This validation step is able to reject records that are considered invalid or
merged. The full workflow has been used to process over two million pages of
Quebec parish registers from the 19-20th centuries. On a sample comprising 65%
of registers, 3.2 million acts were recognized. Verification of the birth and
death acts from this sample shows that 74% of them are considered complete and
valid. These records will be integrated into the BALSAC database and linked
together to recreate family and genealogical relations at large scale.
- Abstract(参考訳): 本稿では,ケベック州手書き教区登録簿から情報を抽出するための完全なワークフローを提案する。
これらの文書には、ケベック住民の遺伝的、人口統計学的、社会的な研究に非常に価値のある個人情報と家族情報が含まれている。
教区記録の画像から、我々のワークフローは行動を特定し、個人情報を抽出することができる。
ワークフローは、ページ分類、テキストライン検出、手書きテキスト認識、名前付きエンティティ認識、行動検出および行動分類の3段階に分けられる。
これらすべてのステップで、異なる機械学習モデルを比較します。
情報が抽出されると、専門家によって設計された検証ルールが適用され、抽出された情報を標準化し、その行動(出産、結婚、死亡)と整合性を確保する。
この検証ステップでは、無効あるいはマージと見なされるレコードを拒否することができる。
完全なワークフローは、19世紀から20世紀にかけてケベック郡登録簿の200万ページ以上を処理するために使われてきた。
65%のレジスタからなるサンプルでは、320万件の行為が認められた。
このサンプルからの出生・死亡行為の検証は、74%が完全かつ有効なものであることを示している。
これらのレコードはBALSACデータベースに統合され、家族と系譜の関係を大規模に再現する。
関連論文リスト
- The Socface Project: Large-Scale Collection, Processing, and Analysis of a Century of French Censuses [3.3484434195495605]
本稿では1836年から1936年までのフランスの国勢調査リストから情報を抽出するための完全な処理ワークフローを提案する。
自動手書き表認識を用いて,これらの表に含まれる全ての情報を抽出することを目的としている。
抽出されたデータは、デモグラファーによって、時間とともに社会の変化を分析し、フランスの経済と社会構造に対する理解を著しく改善するために使用される。
論文 参考訳(メタデータ) (2024-04-29T13:57:02Z) - Document Layout Annotation: Database and Benchmark in the Domain of
Public Affairs [62.38140271294419]
レイアウトラベルの異なるデジタル文書を半自動アノテートする手法を提案する。
スペイン政府から24データソースの集合を用いて,行政領域におけるDLAの新しいデータベースを収集する。
実験の結果,提案したテキストラベリング手順を99%の精度で検証した。
論文 参考訳(メタデータ) (2023-06-12T08:21:50Z) - Crawling the Internal Knowledge-Base of Language Models [53.95793060766248]
本稿では,言語モデルの内部知識ベースである「クローリング」の手順について述べる。
我々は、数十のシードエンティティから始まるグラフのクローリングに対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-01-30T12:03:36Z) - PART: Pre-trained Authorship Representation Transformer [64.78260098263489]
文書を書く著者は、語彙、レジストリ、句読点、ミススペル、絵文字の使用など、テキスト内での識別情報をインプリントする。
以前の作品では、手作りのフィーチャや分類タスクを使用して著者モデルをトレーニングし、ドメイン外の著者に対するパフォーマンスの低下につながった。
セマンティクスの代わりにtextbfauthorship の埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文 参考訳(メタデータ) (2022-09-30T11:08:39Z) - Identity Documents Authentication based on Forgery Detection of
Guilloche Pattern [2.606834301724095]
ギロシェパターンの偽造検出に基づく識別文書の認証モデルを提案する。
認証性能を高めるために、最も適切なパラメータを分析し、識別するために実験を行う。
論文 参考訳(メタデータ) (2022-06-22T11:37:10Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - Writer Recognition Using Off-line Handwritten Single Block Characters [59.17685450892182]
我々は、生年月日DoBの6桁の個人番号を使用する。
本稿では,方向測定を行う手作り特徴に基づく認識手法と,ResNet50モデルによる深い特徴に基づく認識手法について検討する。
その結果,DoBでは手書き情報に同一性関連情報が6桁程度存在することがわかった。
論文 参考訳(メタデータ) (2022-01-25T23:04:10Z) - ICDAR 2021 Competition on Components Segmentation Task of Document
Photos [63.289361617237944]
3つの課題タスクが提案され、提供されたデータセット上で異なるセグメンテーションの割り当てが実行される。
収集されたデータはブラジルのいくつかのID文書のもので、その個人情報は便利に交換された。
さまざまなディープラーニングモデルが、各タスクで最高の結果を得るために、さまざまな戦略を持つ参加者によって適用されました。
論文 参考訳(メタデータ) (2021-06-16T00:49:58Z) - Extracting Procedural Knowledge from Technical Documents [1.0773368566852943]
手続きは、自動化、質問応答、会話の推進のために認知アシスタントが活用できる文書の重要な知識コンポーネントである。
プロダクトマニュアルやユーザガイドといった巨大なドキュメントを解析して,どの部分でプロシージャについて話しているのかを自動的に理解し,それを抽出することは,非常に難しい問題です。
論文 参考訳(メタデータ) (2020-10-20T09:47:52Z) - The Notary in the Haystack -- Countering Class Imbalance in Document
Processing with CNNs [10.076340141538353]
他の文書に関しては、記入器が不足している。
これにより、トレーニングデータのクラス不均衡が畳み込みニューラルネットワークの性能を悪化させるため、分類が難しくなる。
我々は、データ強化、アンダーサンプリング、オーバーサンプリング、焦点損失の正則化など、さまざまな手法を評価した。
論文 参考訳(メタデータ) (2020-07-15T18:40:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。