論文の概要: Digitizing Historical Balance Sheet Data: A Practitioner's Guide
- arxiv url: http://arxiv.org/abs/2204.00052v1
- Date: Thu, 31 Mar 2022 19:18:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-04 15:18:13.200700
- Title: Digitizing Historical Balance Sheet Data: A Practitioner's Guide
- Title(参考訳): 歴史バランスシートデータのデジタル化 - 実践者のガイド
- Authors: Sergio Correia, Stephan Luck
- Abstract要約: 本稿では,光学式文字認識(OCR)エンジンを前処理および後処理で拡張することにより,大規模歴史的マイクロデータのデジタル化を成功させる方法について論じる。
2つの大きなバランスシートデータセットに対してそれらを適用し、これらのメソッドを含むPythonパッケージである"quipucamayoc"を統一フレームワークで導入する。
- 参考スコア(独自算出の注目度): 0.30458514384586394
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper discusses how to successfully digitize large-scale historical
micro-data by augmenting optical character recognition (OCR) engines with pre-
and post-processing methods. Although OCR software has improved dramatically in
recent years due to improvements in machine learning, off-the-shelf OCR
applications still present high error rates which limits their applications for
accurate extraction of structured information. Complementing OCR with
additional methods can however dramatically increase its success rate, making
it a powerful and cost-efficient tool for economic historians. This paper
showcases these methods and explains why they are useful. We apply them against
two large balance sheet datasets and introduce "quipucamayoc", a Python package
containing these methods in a unified framework.
- Abstract(参考訳): 本稿では,光学式文字認識(OCR)エンジンを前処理と後処理で拡張することにより,大規模歴史的マイクロデータをデジタル化する方法について述べる。
近年、機械学習の改善によりOCRソフトウェアは劇的に改善されているが、市販のOCRアプリケーションは依然として高いエラー率を示しており、構造化情報の正確な抽出には限界がある。
しかし、追加の手法でOCRを補完することは、成功率を劇的に向上させ、経済史家にとって強力で費用効率のよいツールとなる。
本稿ではこれらの方法を紹介し,なぜ有用かを説明する。
2つの大きなバランスシートデータセットに適用し、これらのメソッドを統一フレームワークに含むpythonパッケージである"quipucamayoc"を導入する。
関連論文リスト
- Reference-Based Post-OCR Processing with LLM for Diacritic Languages [0.0]
コンテンツ中心の電子書籍を参照ベースとして活用し、不完全なOCR生成テキストを訂正する手法を提案する。
この技術は、ダイアクリティカル言語のための高精度な擬似ページ・ツー・ページラベルを生成する。
パイプラインは、古いドキュメントから様々な種類のノイズを排除し、欠落した文字、単語、乱れたシーケンスといった問題に対処する。
論文 参考訳(メタデータ) (2024-10-17T08:05:02Z) - Enhancing Legal Case Retrieval via Scaling High-quality Synthetic Query-Candidate Pairs [67.54302101989542]
判例検索は、ある事実記述の参照として類似した事例を提供することを目的としている。
既存の作業は主に、長いクエリを使ったケース・ツー・ケースの検索に重点を置いている。
データスケールは、既存のデータハングリーニューラルネットワークのトレーニング要件を満たすには不十分である。
論文 参考訳(メタデータ) (2024-10-09T06:26:39Z) - EASRec: Elastic Architecture Search for Efficient Long-term Sequential
Recommender Systems [82.76483989905961]
現在のSRS(Sequential Recommender Systems)は、計算とリソースの非効率に悩まされている。
我々は、効率的な長期シーケンスレコメンダシステム(EASRec)のための弾性アーキテクチャー探索を開発する。
EASRecは、入力データバッチから履歴情報を活用するデータ認識ゲートを導入し、レコメンデーションネットワークの性能を改善する。
論文 参考訳(メタデータ) (2024-02-01T07:22:52Z) - Noise-Robust Dense Retrieval via Contrastive Alignment Post Training [89.29256833403167]
Contrastive Alignment POst Training (CAPOT) は、指数再生を必要とせず、モデルロバスト性を改善する高効率な微調整法である。
CAPOTはドキュメントエンコーダを凍結することで堅牢な検索を可能にし、クエリエンコーダはノイズの多いクエリを修正されていないルートに整列させる。
MSMARCO、Natural Questions、Trivia QAパス検索のCAPOTノイズ変動を評価し、CAPOTがオーバーヘッドを伴わないデータ増大に類似した影響があることを発見した。
論文 参考訳(メタデータ) (2023-04-06T22:16:53Z) - User-Centric Evaluation of OCR Systems for Kwak'wala [92.73847703011353]
OCRを利用すると、文化的に価値ある文書の書き起こしに費やした時間を50%以上削減できることを示す。
この結果から,OCRツールが下流言語ドキュメントや再生作業において持つ潜在的なメリットが示された。
論文 参考訳(メタデータ) (2023-02-26T21:41:15Z) - Donut: Document Understanding Transformer without OCR [17.397447819420695]
我々は,OCRフレームワークを基盤にすることなく,エンドツーエンドのトレーニングが可能な新しいVDUモデルを提案する。
提案手法は,公開ベンチマークデータセットとプライベート産業サービスデータセットの各種文書理解タスクにおける最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-11-30T18:55:19Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - PP-OCRv2: Bag of Tricks for Ultra Lightweight OCR System [9.376162696601238]
我々は、より良いテキスト検知器とより良いテキスト認識器を訓練するためのトリックの袋を紹介します。
実データを用いた実験では、PP-OCRv2の精度は同じ推論コストでPP-OCRよりも7%高いことが示されている。
論文 参考訳(メタデータ) (2021-09-07T15:24:40Z) - Lights, Camera, Action! A Framework to Improve NLP Accuracy over OCR
documents [2.6201102730518606]
我々は、下流のNLPタスクに対してOCRエラーを軽減するための効果的なフレームワークを実証する。
まず,文書合成パイプラインを構築することにより,モデル学習におけるデータ不足問題に対処する。
コミュニティの利益のために、私たちはドキュメント合成パイプラインをオープンソースプロジェクトとして利用可能にしました。
論文 参考訳(メタデータ) (2021-08-06T00:32:54Z) - Making Online Sketching Hashing Even Faster [63.16042585506435]
本稿では,FROSH(FasteR Online Sketching Hashing)アルゴリズムを提案する。
提案したFROSHがより少ない時間を消費し、同等のスケッチ精度を実現することを保証するための理論的正当性を提供する。
また、FROSHの分散実装であるDFROSHを拡張して、FROSHのトレーニング時間コストをさらに削減する。
論文 参考訳(メタデータ) (2020-10-10T08:50:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。