論文の概要: Predicting the Past: Estimating Historical Appraisals with OCR and Machine Learning
- arxiv url: http://arxiv.org/abs/2505.24676v1
- Date: Fri, 30 May 2025 15:04:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:53.016333
- Title: Predicting the Past: Estimating Historical Appraisals with OCR and Machine Learning
- Title(参考訳): 過去を予測する:OCRと機械学習による歴史的評価の推定
- Authors: Mihir Bhaskar, Jun Tao Luo, Zihan Geng, Asmita Hajra, Junia Howell, Matthew R. Gormley,
- Abstract要約: 本稿では,歴史的住宅評価データをデジタル化し,それを応用して1つの郡にデータセットを構築し,リリースするアプローチを提案する。
我々は、古典的なコンピュータビジョン技術とディープラーニングベースのOCRを組み合わせた2段階のアプローチに基づいて、OCRを使用して5万のプロパティにデータをラベル付けする。
これらの費用対効果の高いツールによって、学者、コミュニティ活動家、政策立案者は、リライニングの歴史的影響をよりよく分析し理解することができる。
- 参考スコア(独自算出の注目度): 7.361213992389788
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite well-documented consequences of the U.S. government's 1930s housing policies on racial wealth disparities, scholars have struggled to quantify its precise financial effects due to the inaccessibility of historical property appraisal records. Many counties still store these records in physical formats, making large-scale quantitative analysis difficult. We present an approach scholars can use to digitize historical housing assessment data, applying it to build and release a dataset for one county. Starting from publicly available scanned documents, we manually annotated property cards for over 12,000 properties to train and validate our methods. We use OCR to label data for an additional 50,000 properties, based on our two-stage approach combining classical computer vision techniques with deep learning-based OCR. For cases where OCR cannot be applied, such as when scanned documents are not available, we show how a regression model based on building feature data can estimate the historical values, and test the generalizability of this model to other counties. With these cost-effective tools, scholars, community activists, and policy makers can better analyze and understand the historical impacts of redlining.
- Abstract(参考訳): 1930年代のアメリカ合衆国政府の人種的富格差に関する住宅政策が文書化された結果があったにも拘わらず、歴史家は歴史的資産評価記録が入手できないために正確な財政効果の定量化に苦慮している。
多くの郡は依然としてこれらの記録を物理的に保存しており、大規模な定量的分析を困難にしている。
本稿では,歴史的住宅評価データをデジタル化し,それを応用して1つの郡にデータセットを構築し,リリースするアプローチを提案する。
公開されているスキャンされたドキュメントから始めて、12,000以上のプロパティを手動でアノテートして、メソッドをトレーニングし、検証しました。
我々は、古典的なコンピュータビジョン技術とディープラーニングベースのOCRを組み合わせた2段階のアプローチに基づいて、OCRを使用して5万のプロパティにデータをラベル付けする。
OCRが適用できない場合、例えばスキャンされた文書が入手できない場合、特徴データに基づく回帰モデルが歴史的価値を推定し、このモデルの他の郡への一般化可能性をテストする方法を示す。
これらの費用対効果の高いツールによって、学者、コミュニティ活動家、政策立案者は、リライニングの歴史的影響をよりよく分析し理解することができる。
関連論文リスト
- Archival Faces: Detection of Faces in Digitized Historical Documents [3.32292936540283]
現在の顔検出器は、50:90%のIoUで約24%のmAPしか達成していない。
この研究は、デジタル化された歴史新聞の2.2kの新しい画像を含む、手動で注釈付きドメイン特化データセットを導入している。
論文 参考訳(メタデータ) (2025-04-01T09:10:45Z) - Enhancing Legal Case Retrieval via Scaling High-quality Synthetic Query-Candidate Pairs [67.54302101989542]
判例検索は、ある事実記述の参照として類似した事例を提供することを目的としている。
既存の作業は主に、長いクエリを使ったケース・ツー・ケースの検索に重点を置いている。
データスケールは、既存のデータハングリーニューラルネットワークのトレーニング要件を満たすには不十分である。
論文 参考訳(メタデータ) (2024-10-09T06:26:39Z) - Automatic knowledge-graph creation from historical documents: The Chilean dictatorship as a case study [38.69658029480461]
チリ独裁時代(1973-1990年)に関する歴史資料から知識グラフの自動構築に関する結果を示す。
我々のアプローチは、LLMを使ってエンティティとそれらのエンティティ間の関係を自動的に認識することである。
アーキテクチャを評価するために、文書の小さな部分集合を用いて構築された金標準グラフを使用し、これを同じ文書集合を処理する際に、我々のアプローチから得られたグラフと比較する。
論文 参考訳(メタデータ) (2024-08-21T20:15:22Z) - Improving OCR Quality in 19th Century Historical Documents Using a
Combined Machine Learning Based Approach [1.89915151018241]
大量のソースが初めてデジタル化され、抽出技術が遅れている。
我々は、機械学習モデルを用いて、高価値な歴史的一次情報源であるSchemaismusの複雑なデータ構造を認識し、抽出した。
1702年から1918年の間、ハプスブルクの公務員の全ての人物が一定の階層的水準を超えた記録を残している。
論文 参考訳(メタデータ) (2024-01-15T15:53:13Z) - PHD: Pixel-Based Language Modeling of Historical Documents [55.75201940642297]
実史文書に類似した合成スキャンを生成する新しい手法を提案する。
我々は,1700-1900年代における合成スキャンと実際の歴史新聞を組み合わせて,我々のモデルであるPHDを事前訓練した。
我々は、この領域におけるその有用性を強調しながら、我々のモデルを歴史的QAタスクに適用することに成功しました。
論文 参考訳(メタデータ) (2023-10-22T08:45:48Z) - CSPRD: A Financial Policy Retrieval Dataset for Chinese Stock Market [61.59326951366202]
我々は、中国株式政策検索データセット(CSPRD)を導入して、新たな課題である政策検索を提案する。
CSPRDは、中国の政策コーパスの10k以上の項目から、経験豊富な専門家によってラベル付けされた700以上のパスを提供する。
我々の最高のパフォーマンスベースラインは56.1% MRR@10、28.5% NDCG@10、37.5% Recall@10、80.6% Precision@10である。
論文 参考訳(メタデータ) (2023-09-08T15:40:54Z) - Yes but.. Can ChatGPT Identify Entities in Historical Documents? [8.591605318423321]
大規模言語モデル(LLM)は数年前から利用されており、現代文書から実体を認識する上で最先端のパフォーマンスが得られている。
ChatGPTは、科学的コミュニティや一般大衆に多くの関心を喚起している。
論文 参考訳(メタデータ) (2023-03-30T12:23:39Z) - No Free Lunch in "Privacy for Free: How does Dataset Condensation Help
Privacy" [75.98836424725437]
データプライバシを保護するために設計された新しい手法は、慎重に精査する必要がある。
プライバシ保護の失敗は検出し難いが,プライバシ保護法を実装したシステムが攻撃された場合,破滅的な結果につながる可能性がある。
論文 参考訳(メタデータ) (2022-09-29T17:50:23Z) - Deconstructing Self-Supervised Monocular Reconstruction: The Design
Decisions that Matter [63.5550818034739]
本稿では,自己教師付き単分子深度推定への最先端の貢献を評価するための枠組みを提案する。
事前トレーニング、バックボーン、アーキテクチャ設計の選択、損失関数が含まれる。
我々は16の最先端コントリビューションを再実装し、検証し、再評価し、新しいデータセットを導入します。
論文 参考訳(メタデータ) (2022-08-02T14:38:53Z) - A Generic Image Retrieval Method for Date Estimation of Historical
Document Collections [0.4588028371034407]
本稿では,異種コレクションの前方でよく一般化する検索手法に基づく頑健な日付推定システムを提案する。
我々は、スムーズなnDCGというランキング損失関数を用いて、各問題の文書の順序を学習する畳み込みニューラルネットワークを訓練する。
論文 参考訳(メタデータ) (2022-04-08T12:30:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。