論文の概要: The Socface Project: Large-Scale Collection, Processing, and Analysis of a Century of French Censuses
- arxiv url: http://arxiv.org/abs/2404.18706v2
- Date: Mon, 3 Jun 2024 07:19:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-04 15:08:25.637386
- Title: The Socface Project: Large-Scale Collection, Processing, and Analysis of a Century of French Censuses
- Title(参考訳): The Socface Project: 1世紀のフランスの国勢調査の大規模収集・処理・分析
- Authors: Mélodie Boillet, Solène Tarride, Manon Blanco, Valentin Rigal, Yoann Schneider, Bastien Abadie, Lionel Kesztenbaum, Christopher Kermorvant,
- Abstract要約: 本稿では1836年から1936年までのフランスの国勢調査リストから情報を抽出するための完全な処理ワークフローを提案する。
自動手書き表認識を用いて,これらの表に含まれる全ての情報を抽出することを目的としている。
抽出されたデータは、デモグラファーによって、時間とともに社会の変化を分析し、フランスの経済と社会構造に対する理解を著しく改善するために使用される。
- 参考スコア(独自算出の注目度): 3.056890324309791
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a complete processing workflow for extracting information from French census lists from 1836 to 1936. These lists contain information about individuals living in France and their households. We aim at extracting all the information contained in these tables using automatic handwritten table recognition. At the end of the Socface project, in which our work is taking place, the extracted information will be redistributed to the departmental archives, and the nominative lists will be freely available to the public, allowing anyone to browse hundreds of millions of records. The extracted data will be used by demographers to analyze social change over time, significantly improving our understanding of French economic and social structures. For this project, we developed a complete processing workflow: large-scale data collection from French departmental archives, collaborative annotation of documents, training of handwritten table text and structure recognition models, and mass processing of millions of images. We present the tools we have developed to easily collect and process millions of pages. We also show that it is possible to process such a wide variety of tables with a single table recognition model that uses the image of the entire page to recognize information about individuals, categorize them and automatically group them into households. The entire process has been successfully used to process the documents of a departmental archive, representing more than 450,000 images.
- Abstract(参考訳): 本稿では1836年から1936年までのフランスの国勢調査リストから情報を抽出するための完全な処理ワークフローを提案する。
これらのリストには、フランスとその家庭に住む個人に関する情報が含まれている。
自動手書き表認識を用いて,これらの表に含まれる全ての情報を抽出することを目的としている。
私たちの仕事が行われているSocfaceプロジェクトの終わりに、抽出された情報は、部局のアーカイブに再配布され、指名リストは無料で公開され、誰でも数億のレコードを閲覧できます。
抽出されたデータは、デモグラファーによって、時間とともに社会の変化を分析し、フランスの経済と社会構造に対する理解を著しく改善するために使用される。
本プロジェクトでは,フランスの部局アーカイブからの大規模データ収集,文書の協調アノテーション,手書き表テキストと構造認識モデルのトレーニング,数百万の画像の大量処理など,完全な処理ワークフローを構築した。
数百万ページの収集と処理を容易にするために開発したツールを紹介します。
また、ページ全体の画像を用いて個人に関する情報を認識し、分類し、自動的に家庭に分類する単一のテーブル認識モデルを用いて、このような多種多様なテーブルを処理できることも示している。
全プロセスは、45万枚以上の画像を表す部門文書の処理に成功している。
関連論文リスト
- End-to-end information extraction in handwritten documents: Understanding Paris marriage records from 1880 to 1940 [3.296046161223931]
本稿では,全ページのテキスト認識と情報抽出のためのアノテーションを備えたM-POPPデータベースのサブセットであるM-POPPデータセットを紹介する。
本稿では,ページイメージから直接手書き文字認識と情報抽出を行うDANを応用した,完全なエンドツーエンドアーキテクチャを提案する。
本稿では,Esposalles上の全ページ情報抽出のための新しい技術を実現することで,このアーキテクチャの情報抽出機能を紹介する。
論文 参考訳(メタデータ) (2024-04-30T07:52:36Z) - ACID: Abstractive, Content-Based IDs for Document Retrieval with
Language Models [69.86170930261841]
ACIDを導入し、それぞれのドキュメントのIDは、大きな言語モデルによって生成される抽象的なキーフレーズから構成される。
我々はACIDの使用がトップ10とトップ20の精度を15.6%、14.4%改善することを示した。
本研究は,LMを用いた生成検索における人間可読な自然言語IDの有効性を実証するものである。
論文 参考訳(メタデータ) (2023-11-14T23:28:36Z) - OBELICS: An Open Web-Scale Filtered Dataset of Interleaved Image-Text
Documents [122.55393759474181]
我々は、インターリーブされた画像テキスト文書のオープンなWebスケールフィルタリングデータセットであるOBELICSを紹介する。
データセット作成プロセスを説明し、包括的なフィルタリングルールを示し、データセットの内容を分析する。
IDEFICSという名前の9~800億のパラメータのビジョンと言語モデルをトレーニングし、異なるマルチモーダルベンチマークで競合性能を得る。
論文 参考訳(メタデータ) (2023-06-21T14:01:01Z) - Document Layout Annotation: Database and Benchmark in the Domain of
Public Affairs [62.38140271294419]
レイアウトラベルの異なるデジタル文書を半自動アノテートする手法を提案する。
スペイン政府から24データソースの集合を用いて,行政領域におけるDLAの新しいデータベースを収集する。
実験の結果,提案したテキストラベリング手順を99%の精度で検証した。
論文 参考訳(メタデータ) (2023-06-12T08:21:50Z) - Leveraging Large Language Models for Topic Classification in the Domain
of Public Affairs [65.9077733300329]
大規模言語モデル (LLM) は公務員文書の分析を大幅に強化する可能性を秘めている。
LLMは、公共の分野など、ドメイン固有のドキュメントを処理するのに非常に役立ちます。
論文 参考訳(メタデータ) (2023-06-05T13:35:01Z) - Decision Support to Crowdsourcing for Annotation and Transcription of
Ancient Documents: The RECITAL Workshop [0.0]
我々は,Com'edie-Franc CaiseとCom'edie-Italienneについてより深く学ぶことを目指している。
我々は、未公開かつ未公開のリソースを大量に採用しており、フランスのビブリオテケ国立図書館で利用可能な、63の日替りレジスタの27,544ページを保有しています。
クラウドソーシングプラットフォームであるRECITALを開発した。
論文 参考訳(メタデータ) (2023-05-30T08:23:02Z) - Large Scale Genealogical Information Extraction From Handwritten Quebec
Parish Records [0.14072064932290226]
教区の記録のイメージから、我々のワークフローは行動を特定し、個人情報を抽出することができる。
完全なワークフローは、19世紀から20世紀にかけてケベック郡登録簿の200万ページ以上を処理するために使われてきた。
これらのレコードはBALSACデータベースに統合され、家族関係と系譜関係を大規模に再現するためにリンクされる。
論文 参考訳(メタデータ) (2023-04-27T09:19:23Z) - SIMARA: a database for key-value information extraction from full pages [0.1835211348413763]
歴史的手書き文書から情報を取り出すための新しいデータベースを提案する。
コーパスには18世紀から20世紀にかけての6つのシリーズから5,393個のエイズが発見されている。
ヘルプを見つけることは、古いアーカイブを記述するメタデータを含む手書きの文書である。
論文 参考訳(メタデータ) (2023-04-26T15:00:04Z) - Layout-Aware Information Extraction for Document-Grounded Dialogue:
Dataset, Method and Demonstration [75.47708732473586]
視覚的にリッチな文書から構造的知識と意味的知識の両方を抽出するためのレイアウト対応文書レベル情報抽出データセット(LIE)を提案する。
LIEには製品および公式文書の4,061ページから3つの抽出タスクの62kアノテーションが含まれている。
実験の結果、レイアウトはVRDベースの抽出に不可欠であることが示され、システムデモでは、抽出された知識が、ユーザが関心を持っている答えを見つけるのに役立つことも確認されている。
論文 参考訳(メタデータ) (2022-07-14T07:59:45Z) - A Large-Scale Multi-Document Summarization Dataset from the Wikipedia
Current Events Portal [10.553314461761968]
MDS(Multi-document summarization)は、大規模な文書コレクションの内容を短い要約に圧縮することを目的としている。
この研究は、文書クラスタの総数と個々のクラスタのサイズの両方で大きいMDS用の新しいデータセットを示す。
論文 参考訳(メタデータ) (2020-05-20T14:33:33Z) - GFTE: Graph-based Financial Table Extraction [66.26206038522339]
金融業界や他の多くの分野において、表は構造化されていないデジタルファイル、例えばポータブル文書フォーマット(PDF)や画像でしばしば開示される。
我々はFinTabという中国の標準データセットを公開しています。
今後の比較のためのベースラインとしてGFTEという新しいグラフベースの畳み込みネットワークモデルを提案する。
論文 参考訳(メタデータ) (2020-03-17T07:10:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。