Fugu-MT 論文翻訳(概要): The Socface Project: Large-Scale Collection, Processing, and Analysis of a Century of French Censuses

論文の概要: The Socface Project: Large-Scale Collection, Processing, and Analysis of a Century of French Censuses

arxiv url: http://arxiv.org/abs/2404.18706v2
Date: Mon, 3 Jun 2024 07:19:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-04 15:08:25.637386
Title: The Socface Project: Large-Scale Collection, Processing, and Analysis of a Century of French Censuses
Title（参考訳）: The Socface Project: 1世紀のフランスの国勢調査の大規模収集・処理・分析
Authors: Mélodie Boillet, Solène Tarride, Manon Blanco, Valentin Rigal, Yoann Schneider, Bastien Abadie, Lionel Kesztenbaum, Christopher Kermorvant,
Abstract要約: 本稿では1836年から1936年までのフランスの国勢調査リストから情報を抽出するための完全な処理ワークフローを提案する。自動手書き表認識を用いて,これらの表に含まれる全ての情報を抽出することを目的としている。抽出されたデータは、デモグラファーによって、時間とともに社会の変化を分析し、フランスの経済と社会構造に対する理解を著しく改善するために使用される。
参考スコア（独自算出の注目度）: 3.056890324309791
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper presents a complete processing workflow for extracting information from French census lists from 1836 to 1936. These lists contain information about individuals living in France and their households. We aim at extracting all the information contained in these tables using automatic handwritten table recognition. At the end of the Socface project, in which our work is taking place, the extracted information will be redistributed to the departmental archives, and the nominative lists will be freely available to the public, allowing anyone to browse hundreds of millions of records. The extracted data will be used by demographers to analyze social change over time, significantly improving our understanding of French economic and social structures. For this project, we developed a complete processing workflow: large-scale data collection from French departmental archives, collaborative annotation of documents, training of handwritten table text and structure recognition models, and mass processing of millions of images. We present the tools we have developed to easily collect and process millions of pages. We also show that it is possible to process such a wide variety of tables with a single table recognition model that uses the image of the entire page to recognize information about individuals, categorize them and automatically group them into households. The entire process has been successfully used to process the documents of a departmental archive, representing more than 450,000 images.
Abstract（参考訳）: 本稿では1836年から1936年までのフランスの国勢調査リストから情報を抽出するための完全な処理ワークフローを提案する。これらのリストには、フランスとその家庭に住む個人に関する情報が含まれている。自動手書き表認識を用いて,これらの表に含まれる全ての情報を抽出することを目的としている。私たちの仕事が行われているSocfaceプロジェクトの終わりに、抽出された情報は、部局のアーカイブに再配布され、指名リストは無料で公開され、誰でも数億のレコードを閲覧できます。抽出されたデータは、デモグラファーによって、時間とともに社会の変化を分析し、フランスの経済と社会構造に対する理解を著しく改善するために使用される。本プロジェクトでは,フランスの部局アーカイブからの大規模データ収集,文書の協調アノテーション,手書き表テキストと構造認識モデルのトレーニング,数百万の画像の大量処理など,完全な処理ワークフローを構築した。数百万ページの収集と処理を容易にするために開発したツールを紹介します。また、ページ全体の画像を用いて個人に関する情報を認識し、分類し、自動的に家庭に分類する単一のテーブル認識モデルを用いて、このような多種多様なテーブルを処理できることも示している。全プロセスは、45万枚以上の画像を表す部門文書の処理に成功している。

関連論文リスト

Beyond Isolated Dots: Benchmarking Structured Table Construction as Deep Knowledge Extraction [80.88654868264645]
Arranged and Organized extract Benchmarkは、断片化された文書を理解するための大規模言語モデルの能力を評価するために設計された。 AOEには3つの異なるドメインにまたがる11のタスクが含まれており、さまざまな入力クエリに適したコンテキスト固有のスキーマを生成するモデルが必要である。結果は、最も先進的なモデルでさえ、かなり苦労したことを示している。
論文参考訳（メタデータ） (2025-07-22T06:37:51Z)
Creating a Historical Migration Dataset from Finnish Church Records, 1800-1920 [1.7453571506859074]
1800年から1920年の間、フィンランドにおける内部移動の構造化されたデータセットを、デジタル化された教会移動記録を用いて作成する。データセットには、手書きのマイグレーションレコードの約20万の画像から抽出された600万以上のエントリが含まれている。このデータセットは、内陸部の移動、都市化、家族の移動、およびフィンランドにおける病気の拡散を研究するのに利用できる。
論文参考訳（メタデータ） (2025-06-09T17:32:55Z)
Multi-Record Web Page Information Extraction From News Websites [83.88591755871734]
本稿では,多数のレコードを含むWebページから情報を抽出する問題に焦点をあてる。このギャップに対処するため、リストページ用に設計された大規模なオープンアクセスデータセットを作成しました。我々のデータセットには13,120のWebページとニュースリストがあり、スケールと複雑さの両方で既存のデータセットをはるかに上回っている。
論文参考訳（メタデータ） (2025-02-20T15:05:00Z)
Masked Image Modeling: A Survey [73.21154550957898]
マスク付き画像モデリングは、コンピュータビジョンにおける強力な自己教師付き学習技術として登場した。我々は近年,分類学を構築し,最も顕著な論文をレビューしている。我々は,最も人気のあるデータセット上で,様々なマスク付き画像モデリング手法の性能評価結果を集約する。
論文参考訳（メタデータ） (2024-08-13T07:27:02Z)
Information Extraction from Historical Well Records Using A Large Language Model [0.1906498126334485]
石油とガスの井戸を最初に見つけてプラグで繋ぐことが不可欠である。歴史資料はいくつかあるが、しばしば非構造化され、掃除されず、時代遅れである。本稿では,これらの井戸の高速かつ低コストな位置推定のための新しい計算手法を提案する。
論文参考訳（メタデータ） (2024-05-08T21:59:11Z)
End-to-end information extraction in handwritten documents: Understanding Paris marriage records from 1880 to 1940 [3.296046161223931]
本稿では,全ページのテキスト認識と情報抽出のためのアノテーションを備えたM-POPPデータベースのサブセットであるM-POPPデータセットを紹介する。本稿では,ページイメージから直接手書き文字認識と情報抽出を行うDANを応用した,完全なエンドツーエンドアーキテクチャを提案する。本稿では,Esposalles上の全ページ情報抽出のための新しい技術を実現することで,このアーキテクチャの情報抽出機能を紹介する。
論文参考訳（メタデータ） (2024-04-30T07:52:36Z)
OBELICS: An Open Web-Scale Filtered Dataset of Interleaved Image-Text Documents [122.55393759474181]
我々は、インターリーブされた画像テキスト文書のオープンなWebスケールフィルタリングデータセットであるOBELICSを紹介する。データセット作成プロセスを説明し、包括的なフィルタリングルールを示し、データセットの内容を分析する。 IDEFICSという名前の9～800億のパラメータのビジョンと言語モデルをトレーニングし、異なるマルチモーダルベンチマークで競合性能を得る。
論文参考訳（メタデータ） (2023-06-21T14:01:01Z)
Document Layout Annotation: Database and Benchmark in the Domain of Public Affairs [62.38140271294419]
レイアウトラベルの異なるデジタル文書を半自動アノテートする手法を提案する。スペイン政府から24データソースの集合を用いて,行政領域におけるDLAの新しいデータベースを収集する。実験の結果,提案したテキストラベリング手順を99%の精度で検証した。
論文参考訳（メタデータ） (2023-06-12T08:21:50Z)
Leveraging Large Language Models for Topic Classification in the Domain of Public Affairs [65.9077733300329]
大規模言語モデル (LLM) は公務員文書の分析を大幅に強化する可能性を秘めている。 LLMは、公共の分野など、ドメイン固有のドキュメントを処理するのに非常に役立ちます。
論文参考訳（メタデータ） (2023-06-05T13:35:01Z)
Decision Support to Crowdsourcing for Annotation and Transcription of Ancient Documents: The RECITAL Workshop [0.0]
我々は,Com'edie-Franc CaiseとCom'edie-Italienneについてより深く学ぶことを目指している。我々は、未公開かつ未公開のリソースを大量に採用しており、フランスのビブリオテケ国立図書館で利用可能な、63の日替りレジスタの27,544ページを保有しています。クラウドソーシングプラットフォームであるRECITALを開発した。
論文参考訳（メタデータ） (2023-05-30T08:23:02Z)
Large Scale Genealogical Information Extraction From Handwritten Quebec Parish Records [0.14072064932290226]
教区の記録のイメージから、我々のワークフローは行動を特定し、個人情報を抽出することができる。完全なワークフローは、19世紀から20世紀にかけてケベック郡登録簿の200万ページ以上を処理するために使われてきた。これらのレコードはBALSACデータベースに統合され、家族関係と系譜関係を大規模に再現するためにリンクされる。
論文参考訳（メタデータ） (2023-04-27T09:19:23Z)
SIMARA: a database for key-value information extraction from full pages [0.1835211348413763]
歴史的手書き文書から情報を取り出すための新しいデータベースを提案する。コーパスには18世紀から20世紀にかけての6つのシリーズから5,393個のエイズが発見されている。ヘルプを見つけることは、古いアーカイブを記述するメタデータを含む手書きの文書である。
論文参考訳（メタデータ） (2023-04-26T15:00:04Z)
Layout-Aware Information Extraction for Document-Grounded Dialogue: Dataset, Method and Demonstration [75.47708732473586]
視覚的にリッチな文書から構造的知識と意味的知識の両方を抽出するためのレイアウト対応文書レベル情報抽出データセット(LIE)を提案する。 LIEには製品および公式文書の4,061ページから3つの抽出タスクの62kアノテーションが含まれている。実験の結果、レイアウトはVRDベースの抽出に不可欠であることが示され、システムデモでは、抽出された知識が、ユーザが関心を持っている答えを見つけるのに役立つことも確認されている。
論文参考訳（メタデータ） (2022-07-14T07:59:45Z)
GFTE: Graph-based Financial Table Extraction [66.26206038522339]
金融業界や他の多くの分野において、表は構造化されていないデジタルファイル、例えばポータブル文書フォーマット(PDF)や画像でしばしば開示される。我々はFinTabという中国の標準データセットを公開しています。今後の比較のためのベースラインとしてGFTEという新しいグラフベースの畳み込みネットワークモデルを提案する。
論文参考訳（メタデータ） (2020-03-17T07:10:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。