論文の概要: Predicting the Past: Estimating Historical Appraisals with OCR and Machine Learning
- arxiv url: http://arxiv.org/abs/2505.24676v1
- Date: Fri, 30 May 2025 15:04:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:53.016333
- Title: Predicting the Past: Estimating Historical Appraisals with OCR and Machine Learning
- Title(参考訳): 過去を予測する:OCRと機械学習による歴史的評価の推定
- Authors: Mihir Bhaskar, Jun Tao Luo, Zihan Geng, Asmita Hajra, Junia Howell, Matthew R. Gormley,
- Abstract要約: 本稿では,歴史的住宅評価データをデジタル化し,それを応用して1つの郡にデータセットを構築し,リリースするアプローチを提案する。
我々は、古典的なコンピュータビジョン技術とディープラーニングベースのOCRを組み合わせた2段階のアプローチに基づいて、OCRを使用して5万のプロパティにデータをラベル付けする。
これらの費用対効果の高いツールによって、学者、コミュニティ活動家、政策立案者は、リライニングの歴史的影響をよりよく分析し理解することができる。
- 参考スコア(独自算出の注目度): 7.361213992389788
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite well-documented consequences of the U.S. government's 1930s housing policies on racial wealth disparities, scholars have struggled to quantify its precise financial effects due to the inaccessibility of historical property appraisal records. Many counties still store these records in physical formats, making large-scale quantitative analysis difficult. We present an approach scholars can use to digitize historical housing assessment data, applying it to build and release a dataset for one county. Starting from publicly available scanned documents, we manually annotated property cards for over 12,000 properties to train and validate our methods. We use OCR to label data for an additional 50,000 properties, based on our two-stage approach combining classical computer vision techniques with deep learning-based OCR. For cases where OCR cannot be applied, such as when scanned documents are not available, we show how a regression model based on building feature data can estimate the historical values, and test the generalizability of this model to other counties. With these cost-effective tools, scholars, community activists, and policy makers can better analyze and understand the historical impacts of redlining.
- Abstract(参考訳): 1930年代のアメリカ合衆国政府の人種的富格差に関する住宅政策が文書化された結果があったにも拘わらず、歴史家は歴史的資産評価記録が入手できないために正確な財政効果の定量化に苦慮している。
多くの郡は依然としてこれらの記録を物理的に保存しており、大規模な定量的分析を困難にしている。
本稿では,歴史的住宅評価データをデジタル化し,それを応用して1つの郡にデータセットを構築し,リリースするアプローチを提案する。
公開されているスキャンされたドキュメントから始めて、12,000以上のプロパティを手動でアノテートして、メソッドをトレーニングし、検証しました。
我々は、古典的なコンピュータビジョン技術とディープラーニングベースのOCRを組み合わせた2段階のアプローチに基づいて、OCRを使用して5万のプロパティにデータをラベル付けする。
OCRが適用できない場合、例えばスキャンされた文書が入手できない場合、特徴データに基づく回帰モデルが歴史的価値を推定し、このモデルの他の郡への一般化可能性をテストする方法を示す。
これらの費用対効果の高いツールによって、学者、コミュニティ活動家、政策立案者は、リライニングの歴史的影響をよりよく分析し理解することができる。
関連論文リスト
- A Scalable Machine Learning Pipeline for Building Footprint Detection in Historical Maps [0.0]
本稿では,疎度な建物分布を持つ農村マップに適した,スケーラブルで効率的なパイプラインを提案する。
パイプラインは、Ordnance Survey Irelandの履歴25インチマップシリーズと6インチマップシリーズのテストセクションを使用して検証されている。
このパイプラインは1839年に製造された6インチの地図にある、タリー・コ・ゴールウェイの約22の建物を識別したが、1899年に製造された25インチの地図は見つからなかった。
論文 参考訳(メタデータ) (2025-08-05T15:33:29Z) - Archival Faces: Detection of Faces in Digitized Historical Documents [3.32292936540283]
現在の顔検出器は、50:90%のIoUで約24%のmAPしか達成していない。
この研究は、デジタル化された歴史新聞の2.2kの新しい画像を含む、手動で注釈付きドメイン特化データセットを導入している。
論文 参考訳(メタデータ) (2025-04-01T09:10:45Z) - Enhancing Legal Case Retrieval via Scaling High-quality Synthetic Query-Candidate Pairs [67.54302101989542]
判例検索は、ある事実記述の参照として類似した事例を提供することを目的としている。
既存の作業は主に、長いクエリを使ったケース・ツー・ケースの検索に重点を置いている。
データスケールは、既存のデータハングリーニューラルネットワークのトレーニング要件を満たすには不十分である。
論文 参考訳(メタデータ) (2024-10-09T06:26:39Z) - Automatic knowledge-graph creation from historical documents: The Chilean dictatorship as a case study [38.69658029480461]
チリ独裁時代(1973-1990年)に関する歴史資料から知識グラフの自動構築に関する結果を示す。
我々のアプローチは、LLMを使ってエンティティとそれらのエンティティ間の関係を自動的に認識することである。
アーキテクチャを評価するために、文書の小さな部分集合を用いて構築された金標準グラフを使用し、これを同じ文書集合を処理する際に、我々のアプローチから得られたグラフと比較する。
論文 参考訳(メタデータ) (2024-08-21T20:15:22Z) - Improving OCR Quality in 19th Century Historical Documents Using a
Combined Machine Learning Based Approach [1.89915151018241]
大量のソースが初めてデジタル化され、抽出技術が遅れている。
我々は、機械学習モデルを用いて、高価値な歴史的一次情報源であるSchemaismusの複雑なデータ構造を認識し、抽出した。
1702年から1918年の間、ハプスブルクの公務員の全ての人物が一定の階層的水準を超えた記録を残している。
論文 参考訳(メタデータ) (2024-01-15T15:53:13Z) - PHD: Pixel-Based Language Modeling of Historical Documents [55.75201940642297]
実史文書に類似した合成スキャンを生成する新しい手法を提案する。
我々は,1700-1900年代における合成スキャンと実際の歴史新聞を組み合わせて,我々のモデルであるPHDを事前訓練した。
我々は、この領域におけるその有用性を強調しながら、我々のモデルを歴史的QAタスクに適用することに成功しました。
論文 参考訳(メタデータ) (2023-10-22T08:45:48Z) - CSPRD: A Financial Policy Retrieval Dataset for Chinese Stock Market [61.59326951366202]
我々は、中国株式政策検索データセット(CSPRD)を導入して、新たな課題である政策検索を提案する。
CSPRDは、中国の政策コーパスの10k以上の項目から、経験豊富な専門家によってラベル付けされた700以上のパスを提供する。
我々の最高のパフォーマンスベースラインは56.1% MRR@10、28.5% NDCG@10、37.5% Recall@10、80.6% Precision@10である。
論文 参考訳(メタデータ) (2023-09-08T15:40:54Z) - Yes but.. Can ChatGPT Identify Entities in Historical Documents? [8.591605318423321]
大規模言語モデル(LLM)は数年前から利用されており、現代文書から実体を認識する上で最先端のパフォーマンスが得られている。
ChatGPTは、科学的コミュニティや一般大衆に多くの関心を喚起している。
論文 参考訳(メタデータ) (2023-03-30T12:23:39Z) - No Free Lunch in "Privacy for Free: How does Dataset Condensation Help
Privacy" [75.98836424725437]
データプライバシを保護するために設計された新しい手法は、慎重に精査する必要がある。
プライバシ保護の失敗は検出し難いが,プライバシ保護法を実装したシステムが攻撃された場合,破滅的な結果につながる可能性がある。
論文 参考訳(メタデータ) (2022-09-29T17:50:23Z) - Deconstructing Self-Supervised Monocular Reconstruction: The Design
Decisions that Matter [63.5550818034739]
本稿では,自己教師付き単分子深度推定への最先端の貢献を評価するための枠組みを提案する。
事前トレーニング、バックボーン、アーキテクチャ設計の選択、損失関数が含まれる。
我々は16の最先端コントリビューションを再実装し、検証し、再評価し、新しいデータセットを導入します。
論文 参考訳(メタデータ) (2022-08-02T14:38:53Z) - A Generic Image Retrieval Method for Date Estimation of Historical
Document Collections [0.4588028371034407]
本稿では,異種コレクションの前方でよく一般化する検索手法に基づく頑健な日付推定システムを提案する。
我々は、スムーズなnDCGというランキング損失関数を用いて、各問題の文書の順序を学習する畳み込みニューラルネットワークを訓練する。
論文 参考訳(メタデータ) (2022-04-08T12:30:39Z) - Algorithmic Fairness Datasets: the Story so Far [68.45921483094705]
データ駆動アルゴリズムは、人々の幸福に直接影響し、批判的な決定をサポートするために、さまざまな領域で研究されている。
研究者のコミュニティは、既存のアルゴリズムの株式を調査し、新しいアルゴリズムを提案し、歴史的に不利な人口に対する自動意思決定のリスクと機会の理解を深めてきた。
公正な機械学習の進歩はデータに基づいており、適切に文書化された場合にのみ適切に使用できる。
残念なことに、アルゴリズムフェアネスコミュニティは、特定のリソース(オパシティ)に関する情報の不足と利用可能な情報の分散(スパーシティ)によって引き起こされる、集合的なデータドキュメント負債に悩まされている。
論文 参考訳(メタデータ) (2022-02-03T17:25:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。