論文の概要: Large Scale Genealogical Information Extraction From Handwritten Quebec
Parish Records
- arxiv url: http://arxiv.org/abs/2304.14044v1
- Date: Thu, 27 Apr 2023 09:19:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-28 13:57:08.680294
- Title: Large Scale Genealogical Information Extraction From Handwritten Quebec
Parish Records
- Title(参考訳): 手書きケベック教区記録からの大規模系図情報抽出
- Authors: Sol\`ene Tarride and Martin Maarand and M\'elodie Boillet and James
McGrath and Eug\'enie Capel and H\'el\`ene V\'ezina and Christopher
Kermorvant
- Abstract要約: 教区の記録のイメージから、我々のワークフローは行動を特定し、個人情報を抽出することができる。
完全なワークフローは、19世紀から20世紀にかけてケベック郡登録簿の200万ページ以上を処理するために使われてきた。
これらのレコードはBALSACデータベースに統合され、家族関係と系譜関係を大規模に再現するためにリンクされる。
- 参考スコア(独自算出の注目度): 0.14072064932290226
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a complete workflow designed for extracting information
from Quebec handwritten parish registers. The acts in these documents contain
individual and family information highly valuable for genetic, demographic and
social studies of the Quebec population. From an image of parish records, our
workflow is able to identify the acts and extract personal information. The
workflow is divided into successive steps: page classification, text line
detection, handwritten text recognition, named entity recognition and act
detection and classification. For all these steps, different machine learning
models are compared. Once the information is extracted, validation rules
designed by experts are then applied to standardize the extracted information
and ensure its consistency with the type of act (birth, marriage, and death).
This validation step is able to reject records that are considered invalid or
merged. The full workflow has been used to process over two million pages of
Quebec parish registers from the 19-20th centuries. On a sample comprising 65%
of registers, 3.2 million acts were recognized. Verification of the birth and
death acts from this sample shows that 74% of them are considered complete and
valid. These records will be integrated into the BALSAC database and linked
together to recreate family and genealogical relations at large scale.
- Abstract(参考訳): 本稿では,ケベック州手書き教区登録簿から情報を抽出するための完全なワークフローを提案する。
これらの文書には、ケベック住民の遺伝的、人口統計学的、社会的な研究に非常に価値のある個人情報と家族情報が含まれている。
教区記録の画像から、我々のワークフローは行動を特定し、個人情報を抽出することができる。
ワークフローは、ページ分類、テキストライン検出、手書きテキスト認識、名前付きエンティティ認識、行動検出および行動分類の3段階に分けられる。
これらすべてのステップで、異なる機械学習モデルを比較します。
情報が抽出されると、専門家によって設計された検証ルールが適用され、抽出された情報を標準化し、その行動(出産、結婚、死亡)と整合性を確保する。
この検証ステップでは、無効あるいはマージと見なされるレコードを拒否することができる。
完全なワークフローは、19世紀から20世紀にかけてケベック郡登録簿の200万ページ以上を処理するために使われてきた。
65%のレジスタからなるサンプルでは、320万件の行為が認められた。
このサンプルからの出生・死亡行為の検証は、74%が完全かつ有効なものであることを示している。
これらのレコードはBALSACデータベースに統合され、家族と系譜の関係を大規模に再現する。
関連論文リスト
- Unified Multi-Modal Interleaved Document Representation for Information Retrieval [57.65409208879344]
我々は、異なるモダリティでインターリーブされた文書を均等に埋め込み、より包括的でニュアンスのある文書表現を生成する。
具体的には、テキスト、画像、テーブルの処理と統合を統一されたフォーマットと表現に統合する、近年のビジョン言語モデルの能力を活用して、これを実現する。
論文 参考訳(メタデータ) (2024-10-03T17:49:09Z) - Extracting Training Data from Document-Based VQA Models [67.1470112451617]
VLM(Vision-Language Models)は、文書ベースの視覚質問回答において顕著な進歩を遂げている(つまり、画像として提供される入力文書の内容に関する問い合わせに応答する)。
これらのモデルでは、関連する視覚情報が削除された場合でも、トレーニングサンプルに対する応答を記憶し、それらをリグルジタイズすることができる。
これには、トレーニングセットで繰り返し繰り返されるパーソナライズ可能な情報が含まれており、これらのモデルが機密情報を漏らし、したがってプライバシーリスクを引き起こす可能性があることを示している。
論文 参考訳(メタデータ) (2024-07-11T17:44:41Z) - The Socface Project: Large-Scale Collection, Processing, and Analysis of a Century of French Censuses [3.056890324309791]
本稿では1836年から1936年までのフランスの国勢調査リストから情報を抽出するための完全な処理ワークフローを提案する。
自動手書き表認識を用いて,これらの表に含まれる全ての情報を抽出することを目的としている。
抽出されたデータは、デモグラファーによって、時間とともに社会の変化を分析し、フランスの経済と社会構造に対する理解を著しく改善するために使用される。
論文 参考訳(メタデータ) (2024-04-29T13:57:02Z) - Summarization-Based Document IDs for Generative Retrieval with Language Models [65.11811787587403]
要約に基づく文書IDを導入し、各文書のIDは抽出的要約または抽象的キーフレーズから構成される。
以上の結果から,ACIDの使用はトップ10とトップ20のリコールをそれぞれ15.6%,14.4%(相対)改善することがわかった。
また, 抽出IDは, MSMARCOのスニペットではなく, ウィキペディア記事の抽象IDよりも優れていた。
論文 参考訳(メタデータ) (2023-11-14T23:28:36Z) - Identity Documents Authentication based on Forgery Detection of
Guilloche Pattern [2.606834301724095]
ギロシェパターンの偽造検出に基づく識別文書の認証モデルを提案する。
認証性能を高めるために、最も適切なパラメータを分析し、識別するために実験を行う。
論文 参考訳(メタデータ) (2022-06-22T11:37:10Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - Writer Recognition Using Off-line Handwritten Single Block Characters [59.17685450892182]
我々は、生年月日DoBの6桁の個人番号を使用する。
本稿では,方向測定を行う手作り特徴に基づく認識手法と,ResNet50モデルによる深い特徴に基づく認識手法について検討する。
その結果,DoBでは手書き情報に同一性関連情報が6桁程度存在することがわかった。
論文 参考訳(メタデータ) (2022-01-25T23:04:10Z) - ICDAR 2021 Competition on Components Segmentation Task of Document
Photos [63.289361617237944]
3つの課題タスクが提案され、提供されたデータセット上で異なるセグメンテーションの割り当てが実行される。
収集されたデータはブラジルのいくつかのID文書のもので、その個人情報は便利に交換された。
さまざまなディープラーニングモデルが、各タスクで最高の結果を得るために、さまざまな戦略を持つ参加者によって適用されました。
論文 参考訳(メタデータ) (2021-06-16T00:49:58Z) - Extracting Procedural Knowledge from Technical Documents [1.0773368566852943]
手続きは、自動化、質問応答、会話の推進のために認知アシスタントが活用できる文書の重要な知識コンポーネントである。
プロダクトマニュアルやユーザガイドといった巨大なドキュメントを解析して,どの部分でプロシージャについて話しているのかを自動的に理解し,それを抽出することは,非常に難しい問題です。
論文 参考訳(メタデータ) (2020-10-20T09:47:52Z) - The Notary in the Haystack -- Countering Class Imbalance in Document
Processing with CNNs [10.076340141538353]
他の文書に関しては、記入器が不足している。
これにより、トレーニングデータのクラス不均衡が畳み込みニューラルネットワークの性能を悪化させるため、分類が難しくなる。
我々は、データ強化、アンダーサンプリング、オーバーサンプリング、焦点損失の正則化など、さまざまな手法を評価した。
論文 参考訳(メタデータ) (2020-07-15T18:40:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。