Fugu-MT 論文翻訳(概要): Large Scale Genealogical Information Extraction From Handwritten Quebec Parish Records

論文の概要: Large Scale Genealogical Information Extraction From Handwritten Quebec Parish Records

arxiv url: http://arxiv.org/abs/2304.14044v1
Date: Thu, 27 Apr 2023 09:19:23 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-28 13:57:08.680294
Title: Large Scale Genealogical Information Extraction From Handwritten Quebec Parish Records
Title（参考訳）: 手書きケベック教区記録からの大規模系図情報抽出
Authors: Sol\`ene Tarride and Martin Maarand and M\'elodie Boillet and James McGrath and Eug\'enie Capel and H\'el\`ene V\'ezina and Christopher Kermorvant
Abstract要約: 教区の記録のイメージから、我々のワークフローは行動を特定し、個人情報を抽出することができる。完全なワークフローは、19世紀から20世紀にかけてケベック郡登録簿の200万ページ以上を処理するために使われてきた。これらのレコードはBALSACデータベースに統合され、家族関係と系譜関係を大規模に再現するためにリンクされる。
参考スコア（独自算出の注目度）: 0.14072064932290226
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper presents a complete workflow designed for extracting information from Quebec handwritten parish registers. The acts in these documents contain individual and family information highly valuable for genetic, demographic and social studies of the Quebec population. From an image of parish records, our workflow is able to identify the acts and extract personal information. The workflow is divided into successive steps: page classification, text line detection, handwritten text recognition, named entity recognition and act detection and classification. For all these steps, different machine learning models are compared. Once the information is extracted, validation rules designed by experts are then applied to standardize the extracted information and ensure its consistency with the type of act (birth, marriage, and death). This validation step is able to reject records that are considered invalid or merged. The full workflow has been used to process over two million pages of Quebec parish registers from the 19-20th centuries. On a sample comprising 65% of registers, 3.2 million acts were recognized. Verification of the birth and death acts from this sample shows that 74% of them are considered complete and valid. These records will be integrated into the BALSAC database and linked together to recreate family and genealogical relations at large scale.
Abstract（参考訳）: 本稿では,ケベック州手書き教区登録簿から情報を抽出するための完全なワークフローを提案する。これらの文書には、ケベック住民の遺伝的、人口統計学的、社会的な研究に非常に価値のある個人情報と家族情報が含まれている。教区記録の画像から、我々のワークフローは行動を特定し、個人情報を抽出することができる。ワークフローは、ページ分類、テキストライン検出、手書きテキスト認識、名前付きエンティティ認識、行動検出および行動分類の3段階に分けられる。これらすべてのステップで、異なる機械学習モデルを比較します。情報が抽出されると、専門家によって設計された検証ルールが適用され、抽出された情報を標準化し、その行動(出産、結婚、死亡)と整合性を確保する。この検証ステップでは、無効あるいはマージと見なされるレコードを拒否することができる。完全なワークフローは、19世紀から20世紀にかけてケベック郡登録簿の200万ページ以上を処理するために使われてきた。 65%のレジスタからなるサンプルでは、320万件の行為が認められた。このサンプルからの出生・死亡行為の検証は、74%が完全かつ有効なものであることを示している。これらのレコードはBALSACデータベースに統合され、家族と系譜の関係を大規模に再現する。

関連論文リスト

Handcrafted Feature-Assisted One-Class Learning for Artist Authentication in Historical Drawings [0.2730969268472861]
本稿では,履歴図面認証のための検証に基づく計算フレームワークを提案する。メトロポリタン美術館のオープンアクセスコレクションから、認証されたスケッチを使って10人のアーティスト固有の検証者が訓練されている。プールされたシステムは、選択した動作点において、真受容率83.3%、偽受容率9.5%を達成する。
論文参考訳（メタデータ） (2026-01-13T13:30:09Z)
Rewriting History: A Recipe for Interventional Analyses to Study Data Effects on Model Behavior [58.58249548116766]
本稿では,学習データと言語モデル(LM)行動の関係を実験的に研究する。データバッチをインターベンションし、そのデータ上でモデルチェックポイントを再トレーニングして、データと振る舞いに関する仮説をテストするための手順を概説する。
論文参考訳（メタデータ） (2025-10-16T03:22:48Z)
A Multimodal Pipeline for Clinical Data Extraction: Applying Vision-Language Models to Scans of Transfusion Reaction Reports [0.3552186988607578]
本研究では,スキャンした文書からチェックボックスデータを抽出し,分類するオープンソースパイプラインを提案する。パイプラインは、2017年から2024年にかけて毎年コンパイルされた金標準と比較して高い精度とリコールを達成する。
論文参考訳（メタデータ） (2025-04-28T19:40:28Z)
Learning Refined Document Representations for Dense Retrieval via Deliberate Thinking [58.69615583599489]
Deliberate Thinking based Retriever (Debater) は、段階的な思考プロセスを導入することで文書表現を強化する新しいアプローチである。 Debaterは、いくつかのベンチマークで既存のメソッドよりも大幅に優れています。
論文参考訳（メタデータ） (2025-02-18T15:56:34Z)
Unified Multi-Modal Interleaved Document Representation for Information Retrieval [57.65409208879344]
我々は、異なるモダリティでインターリーブされた文書を均等に埋め込み、より包括的でニュアンスのある文書表現を生成する。具体的には、テキスト、画像、テーブルの処理と統合を統一されたフォーマットと表現に統合する、近年のビジョン言語モデルの能力を活用して、これを実現する。
論文参考訳（メタデータ） (2024-10-03T17:49:09Z)
Extracting Training Data from Document-Based VQA Models [67.1470112451617]
VLM(Vision-Language Models)は、文書ベースの視覚質問回答において顕著な進歩を遂げている(つまり、画像として提供される入力文書の内容に関する問い合わせに応答する)。これらのモデルでは、関連する視覚情報が削除された場合でも、トレーニングサンプルに対する応答を記憶し、それらをリグルジタイズすることができる。これには、トレーニングセットで繰り返し繰り返されるパーソナライズ可能な情報が含まれており、これらのモデルが機密情報を漏らし、したがってプライバシーリスクを引き起こす可能性があることを示している。
論文参考訳（メタデータ） (2024-07-11T17:44:41Z)
The Socface Project: Large-Scale Collection, Processing, and Analysis of a Century of French Censuses [3.056890324309791]
本稿では1836年から1936年までのフランスの国勢調査リストから情報を抽出するための完全な処理ワークフローを提案する。自動手書き表認識を用いて,これらの表に含まれる全ての情報を抽出することを目的としている。抽出されたデータは、デモグラファーによって、時間とともに社会の変化を分析し、フランスの経済と社会構造に対する理解を著しく改善するために使用される。
論文参考訳（メタデータ） (2024-04-29T13:57:02Z)
Summarization-Based Document IDs for Generative Retrieval with Language Models [65.11811787587403]
要約に基づく文書IDを導入し、各文書のIDは抽出的要約または抽象的キーフレーズから構成される。以上の結果から,ACIDの使用はトップ10とトップ20のリコールをそれぞれ15.6%,14.4%(相対)改善することがわかった。また, 抽出IDは, MSMARCOのスニペットではなく, ウィキペディア記事の抽象IDよりも優れていた。
論文参考訳（メタデータ） (2023-11-14T23:28:36Z)
Document Layout Annotation: Database and Benchmark in the Domain of Public Affairs [62.38140271294419]
レイアウトラベルの異なるデジタル文書を半自動アノテートする手法を提案する。スペイン政府から24データソースの集合を用いて,行政領域におけるDLAの新しいデータベースを収集する。実験の結果,提案したテキストラベリング手順を99%の精度で検証した。
論文参考訳（メタデータ） (2023-06-12T08:21:50Z)
Identity Documents Authentication based on Forgery Detection of Guilloche Pattern [2.606834301724095]
ギロシェパターンの偽造検出に基づく識別文書の認証モデルを提案する。認証性能を高めるために、最も適切なパラメータを分析し、識別するために実験を行う。
論文参考訳（メタデータ） (2022-06-22T11:37:10Z)
GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。 FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文参考訳（メタデータ） (2022-04-12T03:49:35Z)
Writer Recognition Using Off-line Handwritten Single Block Characters [59.17685450892182]
我々は、生年月日DoBの6桁の個人番号を使用する。本稿では,方向測定を行う手作り特徴に基づく認識手法と,ResNet50モデルによる深い特徴に基づく認識手法について検討する。その結果,DoBでは手書き情報に同一性関連情報が6桁程度存在することがわかった。
論文参考訳（メタデータ） (2022-01-25T23:04:10Z)
ICDAR 2021 Competition on Components Segmentation Task of Document Photos [63.289361617237944]
3つの課題タスクが提案され、提供されたデータセット上で異なるセグメンテーションの割り当てが実行される。収集されたデータはブラジルのいくつかのID文書のもので、その個人情報は便利に交換された。さまざまなディープラーニングモデルが、各タスクで最高の結果を得るために、さまざまな戦略を持つ参加者によって適用されました。
論文参考訳（メタデータ） (2021-06-16T00:49:58Z)
Extracting Procedural Knowledge from Technical Documents [1.0773368566852943]
手続きは、自動化、質問応答、会話の推進のために認知アシスタントが活用できる文書の重要な知識コンポーネントである。プロダクトマニュアルやユーザガイドといった巨大なドキュメントを解析して,どの部分でプロシージャについて話しているのかを自動的に理解し,それを抽出することは,非常に難しい問題です。
論文参考訳（メタデータ） (2020-10-20T09:47:52Z)
The Notary in the Haystack -- Countering Class Imbalance in Document Processing with CNNs [10.076340141538353]
他の文書に関しては、記入器が不足している。これにより、トレーニングデータのクラス不均衡が畳み込みニューラルネットワークの性能を悪化させるため、分類が難しくなる。我々は、データ強化、アンダーサンプリング、オーバーサンプリング、焦点損失の正則化など、さまざまな手法を評価した。
論文参考訳（メタデータ） (2020-07-15T18:40:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。