論文の概要: Evaluation of Ensemble Learning Techniques for handwritten OCR Improvement
- arxiv url: http://arxiv.org/abs/2509.16221v1
- Date: Thu, 11 Sep 2025 09:19:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-28 15:30:14.335851
- Title: Evaluation of Ensemble Learning Techniques for handwritten OCR Improvement
- Title(参考訳): 手書きOCR改善のためのアンサンブル学習手法の評価
- Authors: Martin Preiß,
- Abstract要約: Ensemble Learning(アンサンブルラーニング)は、いくつかの機械学習モデルを組み合わせて、既存の手法の精度を高めることができると主張している手法である。
アンサンブル学習によってOCRの精度が向上し、この手法が実現でき、トレーニングデータセットのサイズがここでは役に立たないことが分かった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For the bachelor project 2021 of Professor Lippert's research group, handwritten entries of historical patient records needed to be digitized using Optical Character Recognition (OCR) methods. Since the data will be used in the future, a high degree of accuracy is naturally required. Especially in the medical field this has even more importance. Ensemble Learning is a method that combines several machine learning models and is claimed to be able to achieve an increased accuracy for existing methods. For this reason, Ensemble Learning in combination with OCR is investigated in this work in order to create added value for the digitization of the patient records. It was possible to discover that ensemble learning can lead to an increased accuracy for OCR, which methods were able to achieve this and that the size of the training data set did not play a role here.
- Abstract(参考訳): Lippert教授の研究グループの学士プロジェクト2021では、OCR(Optical Character Recognition)法を用いて、患者の歴史的記録の手書きエントリをデジタル化する必要があった。
将来的にはデータを使用するため、高い精度が要求される。
特に医療分野では、これがさらに重要である。
Ensemble Learning(アンサンブルラーニング)は、いくつかの機械学習モデルを組み合わせて、既存の手法の精度を高めることができると主張している手法である。
このため,患者記録のデジタル化に付加価値を生み出すために,OCRと組み合わせたアンサンブルラーニングについて検討した。
アンサンブル学習によってOCRの精度が向上し、この手法が実現でき、トレーニングデータセットのサイズがここでは役に立たないことが分かった。
関連論文リスト
- Handwritten Digit Recognition: An Ensemble-Based Approach for Superior Performance [9.174021241188143]
本稿では,CNN(Convolutional Neural Networks)と従来の機械学習技術を組み合わせて,認識精度と堅牢性を向上させるアンサンブルに基づくアプローチを提案する。
我々は,70,000個の手書き桁画像からなるMNISTデータセットを用いて本手法の評価を行った。
特徴抽出にCNNを,分類にSVM(Support Vector Machines)を併用したハイブリッドモデルは,99.30%の精度を実現する。
論文 参考訳(メタデータ) (2025-03-08T07:09:49Z) - Image Based Character Recognition, Documentation System To Decode Inscription From Temple [0.0]
このプロジェクトは、ブリハデシュワラー神殿の壁に発見された10世紀のタミル語碑文に適用された光学的文字認識OCR法の訓練と分析を行っている。
選択されたOCRには、生データを前処理するために現代的なICR技術を使用した広く使われているOCRエンジンであるTesseractと、我々のモデルを微調整するためのボックス編集ソフトウェアが含まれる。
テッセラクトによる分析は、古代タミル文字のニュアンスを正確に解読する効果を評価することを目的としている。
論文 参考訳(メタデータ) (2024-05-21T17:20:35Z) - Ensemble uncertainty as a criterion for dataset expansion in distinct
bone segmentation from upper-body CT images [0.7388859384645263]
個々の骨の局所化と分節化は多くの計画およびナビゲーションアプリケーションにおいて重要な前処理ステップである。
上半身CTにおいて125個の異なる骨を分割できるエンドツーエンド学習アルゴリズムを提案する。
また、アンサンブルベースの不確実性対策も提供し、スキャンを単一にしてトレーニングデータセットを拡大します。
論文 参考訳(メタデータ) (2022-08-19T08:39:23Z) - LifeLonger: A Benchmark for Continual Disease Classification [59.13735398630546]
MedMNISTコレクションの連続的な疾患分類のためのベンチマークであるLifeLongerを紹介する。
タスクとクラスでの病気の漸進的な学習は、モデルをスクラッチから再トレーニングすることなく、新しいサンプルを分類する問題に対処する。
クロスドメインインクリメンタル学習は、これまで得られた知識を維持しながら、異なる機関から派生したデータセットを扱う問題に対処する。
論文 参考訳(メタデータ) (2022-04-12T12:25:05Z) - BERT WEAVER: Using WEight AVERaging to enable lifelong learning for
transformer-based models in biomedical semantic search engines [49.75878234192369]
We present WEAVER, a simple, yet efficient post-processing method that infuse old knowledge into the new model。
WEAVERを逐次的に適用すると、同じ単語の埋め込み分布が、一度にすべてのデータに対する総合的なトレーニングとして得られることを示す。
論文 参考訳(メタデータ) (2022-02-21T10:34:41Z) - LeQua@CLEF2022: Learning to Quantify [76.22817970624875]
LeQua 2022は、テキストデータセットで'を定量化する方法を評価するための新しい実験室である。
本研究の目的は、バイナリ設定とシングルラベルのマルチクラス設定の両方において、学習方法の比較評価のための設定を提供することである。
論文 参考訳(メタデータ) (2021-11-22T14:54:20Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - Diminishing Uncertainty within the Training Pool: Active Learning for
Medical Image Segmentation [6.3858225352615285]
医用画像データセットのセグメンテーション作業におけるアクティブラーニングについて検討する。
トレーニングデータセットをバイアスする不確実データの頻度の増大、入力画像間の相互情報を正規化として利用すること、およびスタイン変動勾配降下(SVGD)のためのダイスログの類似性(Dice log-likelihood)の適応という3つの新しいアクティブ学習戦略を提案する。
その結果、データセット毎に利用可能なデータの22.69 %と48.85 %をそれぞれ使用しながら、完全な精度を達成することで、データ削減の観点での改善が示された。
論文 参考訳(メタデータ) (2021-01-07T01:55:48Z) - Self-Training with Improved Regularization for Sample-Efficient Chest
X-Ray Classification [80.00316465793702]
挑戦的なシナリオで堅牢なモデリングを可能にするディープラーニングフレームワークを提案する。
その結果,85%のラベル付きデータを用いて,大規模データ設定で学習した分類器の性能に適合する予測モデルを構築することができた。
論文 参考訳(メタデータ) (2020-05-03T02:36:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。