論文の概要: Creating a Historical Migration Dataset from Finnish Church Records, 1800-1920
- arxiv url: http://arxiv.org/abs/2506.07960v1
- Date: Mon, 09 Jun 2025 17:32:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:11.079339
- Title: Creating a Historical Migration Dataset from Finnish Church Records, 1800-1920
- Title(参考訳): フィンランドの教会記録からの歴史的移住データセットの作成(1800-1920年)
- Authors: Ari Vesalainen, Jenna Kanerva, Aida Nitsch, Kiia Korsu, Ilari Larkiola, Laura Ruotsalainen, Filip Ginter,
- Abstract要約: 1800年から1920年の間、フィンランドにおける内部移動の構造化されたデータセットを、デジタル化された教会移動記録を用いて作成する。
データセットには、手書きのマイグレーションレコードの約20万の画像から抽出された600万以上のエントリが含まれている。
このデータセットは、内陸部の移動、都市化、家族の移動、およびフィンランドにおける病気の拡散を研究するのに利用できる。
- 参考スコア(独自算出の注目度): 1.7453571506859074
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This article presents a large-scale effort to create a structured dataset of internal migration in Finland between 1800 and 1920 using digitized church moving records. These records, maintained by Evangelical-Lutheran parishes, document the migration of individuals and families and offer a valuable source for studying historical demographic patterns. The dataset includes over six million entries extracted from approximately 200,000 images of handwritten migration records. The data extraction process was automated using a deep learning pipeline that included layout analysis, table detection, cell classification, and handwriting recognition. The complete pipeline was applied to all images, resulting in a structured dataset suitable for research. The dataset can be used to study internal migration, urbanization, and family migration, and the spread of disease in preindustrial Finland. A case study from the Elim\"aki parish shows how local migration histories can be reconstructed. The work demonstrates how large volumes of handwritten archival material can be transformed into structured data to support historical and demographic research.
- Abstract(参考訳): 本稿は、1800年から1920年までのフィンランドにおける内部移動の構造化データセットを、デジタル化された教会移動記録を用いて作成するための大規模な取り組みについて述べる。
これらの記録は福音派=ルター派教区によって維持され、個人や家族の移住を記録しており、歴史的人口動態を研究する上で貴重な資料となっている。
データセットには、手書きのマイグレーションレコードの約20万の画像から抽出された600万以上のエントリが含まれている。
データ抽出プロセスは、レイアウト分析、テーブル検出、セル分類、手書き認識を含むディープラーニングパイプラインを使用して自動化された。
完全なパイプラインはすべての画像に適用され、結果として研究に適した構造化データセットが得られた。
このデータセットは、内陸部の移動、都市化、家族の移動、およびフィンランドにおける病気の拡散を研究するのに利用できる。
エリム・アキ教区の事例研究は、どのように地域移住の歴史を再構築できるかを示している。
この研究は、手書きのアーカイブ資料が、歴史的、人口統計学的研究を支援するために、どのように構造化されたデータに変換されるかを実証している。
関連論文リスト
- The Socface Project: Large-Scale Collection, Processing, and Analysis of a Century of French Censuses [3.056890324309791]
本稿では1836年から1936年までのフランスの国勢調査リストから情報を抽出するための完全な処理ワークフローを提案する。
自動手書き表認識を用いて,これらの表に含まれる全ての情報を抽出することを目的としている。
抽出されたデータは、デモグラファーによって、時間とともに社会の変化を分析し、フランスの経済と社会構造に対する理解を著しく改善するために使用される。
論文 参考訳(メタデータ) (2024-04-29T13:57:02Z) - Guided Distant Supervision for Multilingual Relation Extraction Data: Adapting to a New Language [7.59001382786429]
本稿では,ドイツにおける大規模生物関係抽出データセットの作成のために,遠距離監視法を適用した。
我々のデータセットは,9種類の関係型に対して80,000以上のインスタンスで構成されており,ドイツで最大規模の関係抽出データセットである。
私たちは、自動生成されたデータセット上に、最先端の機械学習モデルをトレーニングし、それらもリリースします。
論文 参考訳(メタデータ) (2024-03-25T19:40:26Z) - SIMARA: a database for key-value information extraction from full pages [0.1835211348413763]
歴史的手書き文書から情報を取り出すための新しいデータベースを提案する。
コーパスには18世紀から20世紀にかけての6つのシリーズから5,393個のエイズが発見されている。
ヘルプを見つけることは、古いアーカイブを記述するメタデータを含む手書きの文書である。
論文 参考訳(メタデータ) (2023-04-26T15:00:04Z) - Topic Modelling of Swedish Newspaper Articles about Coronavirus: a Case
Study using Latent Dirichlet Allocation Method [8.405827390095064]
トピックモデリング(TM)は、自然言語理解(NLU)と自然言語処理(NLP)の研究分野からのものである。
本研究では,LDA(Latent Dirichlet Allocation)法を用いて,コロナウイルスに関するスウェーデンの新聞記事の話題変化をモデル化する。
我々は,2020年1月17日から2021年3月13日までの約1年2ヶ月間のトピック変更に関する6515の論文,適用方法,統計データを含むコーパスについて述べる。
論文 参考訳(メタデータ) (2023-01-08T12:33:58Z) - Datasets: A Community Library for Natural Language Processing [55.48866401721244]
データセットは、現代のNLPのためのコミュニティライブラリである。
このライブラリには650以上のユニークなデータセットが含まれており、250以上のコントリビュータを抱えており、さまざまな新しいクロスデータセット研究プロジェクトを支援している。
論文 参考訳(メタデータ) (2021-09-07T03:59:22Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z) - A High-Quality Multilingual Dataset for Structured Documentation
Translation [101.41835967142521]
本稿では,文書領域を対象とした高品質な多言語データセットを提案する。
エンタープライズソフトウェアプラットフォームのオンラインドキュメントからXML構造化の並列テキストセグメントを収集します。
論文 参考訳(メタデータ) (2020-06-24T02:08:44Z) - ToTTo: A Controlled Table-To-Text Generation Dataset [61.83159452483026]
ToTToはオープンドメインの英語のテーブル・トゥ・テキストのデータセットで、12万以上のトレーニングサンプルがある。
本稿では、ウィキペディアから既存の候補文を直接修正するデータセット構築プロセスを紹介する。
通常流動的であるが、既存の方法は多くの場合、表がサポートしていないフレーズを幻覚させる。
論文 参考訳(メタデータ) (2020-04-29T17:53:45Z) - A Large Dataset of Historical Japanese Documents with Complex Layouts [5.343406649012619]
HJDatasetは、複雑なレイアウトを持つ日本古文書の大規模なデータセットである。
レイアウト要素アノテーションには7つのタイプがある。
レイアウト要素を抽出する半ルール法を開発し、その結果を人間の検査員が確認する。
論文 参考訳(メタデータ) (2020-04-18T18:38:25Z) - Learning to Summarize Passages: Mining Passage-Summary Pairs from
Wikipedia Revision Histories [110.54963847339775]
ウィキペディアページのリビジョン履歴をマイニングすることで,パス・トゥ・サマリーデータセットを自動構築する手法を提案する。
特に、本手法では、ページに追加される本体の通路と導入文を同時にマイニングする。
構築されたデータセットは、100万以上のパス・サマー・ペアを含む。
論文 参考訳(メタデータ) (2020-04-06T12:11:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。