論文の概要: Occode: an end-to-end machine learning pipeline for transcription of
historical population censuses
- arxiv url: http://arxiv.org/abs/2106.03996v1
- Date: Mon, 7 Jun 2021 22:39:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-10 08:42:38.349587
- Title: Occode: an end-to-end machine learning pipeline for transcription of
historical population censuses
- Title(参考訳): Occode: 歴史的人口統計の書き起こしのためのエンドツーエンドの機械学習パイプライン
- Authors: Bj{\o}rn-Richard Pedersen, Einar Holsb{\o}, Trygve Andersen, Nikita
Shvetsov, Johan Ravn, Hilde Leikny Sommerseth, Lars Ailo Bongo
- Abstract要約: ノルウェーの1950年の人口統計では、Occodeのエンドツーエンド機械学習パイプラインを開発し、調整し、使用し、7300万行を手書きの職業コードで書き起こした。
我々は、自動転写されたコードに対して97%の精度を実現し、手動による検証のために3%のコードを送信する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Machine learning approaches achieve high accuracy for text recognition and
are therefore increasingly used for the transcription of handwritten historical
sources. However, using machine learning in production requires a streamlined
end-to-end machine learning pipeline that scales to the dataset size, and a
model that achieves high accuracy with few manual transcriptions. In addition,
the correctness of the model results must be verified. This paper describes our
lessons learned developing, tuning, and using the Occode end-to-end machine
learning pipeline for transcribing 7,3 million rows with handwritten occupation
codes in the Norwegian 1950 population census. We achieve an accuracy of 97%
for the automatically transcribed codes, and we send 3% of the codes for manual
verification. We verify that the occupation code distribution found in our
result matches the distribution found in our training data which should be
representative for the census as a whole. We believe our approach and lessons
learned are useful for other transcription projects that plan to use machine
learning in production. The source code is available at:
https://github.com/uit-hdl/rhd-codes
- Abstract(参考訳): 機械学習のアプローチは、テキスト認識において高い精度を達成し、手書きの史料の書き起こしにますます使われている。
しかし、本番環境で機械学習を使用するには、データセットのサイズにスケールするエンドツーエンドの機械学習パイプラインと、手作業による書き起こしが少なく、高い精度を実現するモデルが必要である。
さらに、モデル結果の正確性を検証する必要がある。
本稿では,Occodeのエンドツーエンド機械学習パイプラインを用いて,1950年のノルウェー人口調査において,手書きの職業コードを用いた7300万行の翻訳を行った。
自動書き起こされたコードに対して97%の精度を実現し,手作業による検証のために3%のコードを送信した。
調査の結果から得られた職業コード分布が,調査全体を代表するべき訓練データに含まれる分布と一致していることを確認した。
私たちが学んだアプローチと教訓は、機械学習を本番で使用する予定の他の書き起こしプロジェクトに役立ちます。
ソースコードはhttps://github.com/uit-hdl/rhd-codesで入手できる。
関連論文リスト
- Let the Code LLM Edit Itself When You Edit the Code [50.46536185784169]
underlinetextbfPositional textbfIntegrity textbfEncoding (PIE)
PIEは、標準的な完全再計算手法に比べて計算オーバーヘッドを85%以上削減する。
その結果、PIEは計算オーバーヘッドを標準の完全再計算手法に比べて85%以上削減することを示した。
論文 参考訳(メタデータ) (2024-07-03T14:34:03Z) - Self-play with Execution Feedback: Improving Instruction-following Capabilities of Large Language Models [54.14602121129874]
トレーニングデータを自動的に生成する最初のスケーラブルで信頼性の高いAutoIFを導入する。
AutoIFは命令追従データ品質の検証をコード検証に変換する。
論文 参考訳(メタデータ) (2024-06-19T13:29:53Z) - Zero-Shot Code Representation Learning via Prompt Tuning [6.40875582886359]
コード表現を学習するためのゼロショットアプローチであるZecolerを提案する。
Zecolerは、事前訓練されたプログラミング言語モデルの上に構築されている。
我々はZecolerを,コードクローン検出,コード検索,メソッド名予測,コード要約,コード生成を含む5つのコードインテリジェンスタスクで評価する。
論文 参考訳(メタデータ) (2024-04-13T09:47:07Z) - Natural Language Processing Through Transfer Learning: A Case Study on
Sentiment Analysis [1.14219428942199]
本稿では,感情分析を中心に自然言語処理における伝達学習の可能性について考察する。
その主張は、スクラッチからのトレーニングモデルと比較して、事前訓練されたBERTモデルを使用したトランスファーラーニングは、感情分類の精度を向上できるというものである。
論文 参考訳(メタデータ) (2023-11-28T17:12:06Z) - GECTurk: Grammatical Error Correction and Detection Dataset for Turkish [1.804922416527064]
文法的誤り検出・訂正(GEC)ツールは、母語話者と第二言語学習者にとって有用であることが証明されている。
合成データ生成は、そのようなデータの不足を克服するための一般的なプラクティスである。
トルコ語のためのフレキシブルで総合的なデータ生成パイプラインを提案し、20以上の専門家による文法と綴り規則をカバーしている。
論文 参考訳(メタデータ) (2023-09-20T14:25:44Z) - KRNet: Towards Efficient Knowledge Replay [50.315451023983805]
知識再生技術は、継続的な学習や連続的なドメイン適応といった多くのタスクで広く使われている。
本稿では,任意のサンプル識別番号を直接対応するダタムにマッピングする,新規で効率的な知識記録ネットワーク(KRNet)を提案する。
我々のKRNetは、潜在コードに対するストレージコストを著しく削減し、エンコーダのサブネットワークを使わずにトレーニングできる。
論文 参考訳(メタデータ) (2022-05-23T08:34:17Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - InferCode: Self-Supervised Learning of Code Representations by
Predicting Subtrees [17.461451218469062]
本稿では,自己言語学習機構をソースコードモデルに適用することにより,制限を克服するinfercodeを提案する。
ASTのサブツリーは、人間のラベル付けや高価なグラフ構築のオーバーヘッドなしにコード表現をトレーニングするためのラベルとして、InferCodeで扱われる。
Code2Vec、Code2Seq、ASTNNなど、同じ下流タスクに適用される以前のコード学習技術と比較して、事前に訓練されたInferCodeモデルを使用して、より高いパフォーマンスを達成できます。
論文 参考訳(メタデータ) (2020-12-13T10:33:41Z) - Scaling Systematic Literature Reviews with Machine Learning Pipelines [57.82662094602138]
体系的なレビューは、科学的文書からデータを抽出する。
これらの側面をそれぞれ自動化するパイプラインを構築し、多くの人間時間対システム品質トレードオフを実験します。
人間の専門的アノテーションの2週間だけで、パイプラインシステム全体の驚くほどの精度と一般性が得られることが分かりました。
論文 参考訳(メタデータ) (2020-10-09T16:19:42Z) - Machine learning for complete intersection Calabi-Yau manifolds: a
methodological study [0.0]
我々は機械学習(ML)を用いてホッジ数$h1,1$と$h2,1$の完全なカラビ・ヤウ交差点を予測する問題を再考する。
我々は、古いデータセットのインセプションモデルにインスパイアされたニューラルネットワークを使用して、トレーニング用のデータの30% (resp. 70%) のみを使用して、97% (resp. 99%) の精度で$h1,1$を得る。
新しい例では、単純な線形回帰は、トレーニング用のデータの30%でほぼ100%の正確性をもたらす。
論文 参考訳(メタデータ) (2020-07-30T19:43:49Z) - ELECTRA: Pre-training Text Encoders as Discriminators Rather Than
Generators [108.3381301768299]
Masked Language Modeling (MLM) は、BERT のような事前学習手法で、いくつかのトークンを [MASK] に置き換えて、元のトークンを再構築するためにモデルをトレーニングすることで入力を破損させた。
代用トークン検出という,より効率的な事前学習タスクを提案する。
論文 参考訳(メタデータ) (2020-03-23T21:17:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。