論文の概要: Classification of Documents Extracted from Images with Optical Character
Recognition Methods
- arxiv url: http://arxiv.org/abs/2106.11125v1
- Date: Tue, 15 Jun 2021 15:56:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-27 10:22:13.105200
- Title: Classification of Documents Extracted from Images with Optical Character
Recognition Methods
- Title(参考訳): 光文字認識法による画像から抽出した文書の分類
- Authors: Omer Aydin
- Abstract要約: 今日では機械学習が非常に一般的で、1日に何十回も使われており、おそらく無知である。
本研究では,2つの異なる機械学習手法を組み合わせた。
手書きや印刷された文書はスキャナーやデジタルカメラでデジタル化されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Over the past decade, machine learning methods have given us driverless cars,
voice recognition, effective web search, and a much better understanding of the
human genome. Machine learning is so common today that it is used dozens of
times a day, possibly unknowingly. Trying to teach a machine some processes or
some situations can make them predict some results that are difficult to
predict by the human brain. These methods also help us do some operations that
are often impossible or difficult to do with human activities in a short time.
For these reasons, machine learning is so important today. In this study, two
different machine learning methods were combined. In order to solve a
real-world problem, the manuscript documents were first transferred to the
computer and then classified. We used three basic methods to realize the whole
process. Handwriting or printed documents have been digitalized by a scanner or
digital camera. These documents have been processed with two different Optical
Character Recognition (OCR) operation. After that generated texts are
classified by using Naive Bayes algorithm. All project was programmed in
Microsoft Visual Studio 12 platform on Windows operating system. C# programming
language was used for all parts of the study. Also, some prepared codes and
DLLs were used.
- Abstract(参考訳): 過去10年間で、機械学習の手法によって、無人運転車、音声認識、効果的なweb検索、そして人間のゲノムの理解がより良くなりました。
今日、機械学習は非常に一般的で、1日に何十回も使われている。
何らかのプロセスや状況について機械に教えようとすると、人間の脳では予測が難しい結果を予測することができる。
これらの手法は、短時間で人間の活動を扱うことがしばしば不可能または難しい操作を行うのにも役立ちます。
これらの理由から、今日では機械学習がとても重要です。
本研究では,2つの異なる機械学習手法を組み合わせた。
現実の問題を解決するために、原稿文書はまずコンピュータに転送され、次に分類された。
プロセス全体の実現には3つの基本手法を用いた。
手書きや印刷された文書はスキャナやデジタルカメラでデジタル化されている。
これらの文書は2つの異なる光学文字認識(OCR)操作で処理されている。
その後、naive bayesアルゴリズムを用いて生成したテキストを分類する。
すべてのプロジェクトは、Windowsオペレーティングシステム上のMicrosoft Visual Studio 12プラットフォームでプログラムされた。
C#プログラミング言語は研究のすべての部分に使われた。
また、用意されたコードやDLLも使用された。
関連論文リスト
- LLM-DetectAIve: a Tool for Fine-Grained Machine-Generated Text Detection [87.43727192273772]
テキストが人間の書いたものなのか、機械で作られたものなのかを判断するのは、しばしば困難である。
細粒度検出のためのLLM-DetectAIveを提案する。
i) 人書き、ii) 機械生成、(iii) 機械書、次いで機械書、(iv) 人書き、そして機械ポリッシュの4つのカテゴリをサポートする。
論文 参考訳(メタデータ) (2024-08-08T07:43:17Z) - Offline Imitation Learning Through Graph Search and Retrieval [57.57306578140857]
模倣学習は、ロボットが操作スキルを取得するための強力な機械学習アルゴリズムである。
本稿では,グラフ検索と検索により,最適下実験から学習する,シンプルで効果的なアルゴリズムGSRを提案する。
GSRは、ベースラインに比べて10%から30%高い成功率、30%以上の熟練を達成できる。
論文 参考訳(メタデータ) (2024-07-22T06:12:21Z) - Introduction to speech recognition [1.3506900724117183]
この文書は、非常に小さなデータベースの助けを借りて、3つの単語(1、2、3)を正しく分類するシステムを実装している。
この性能を達成するために、音声モデリングの特異性、強力なコンピュータアルゴリズム、機械学習を使用する。
論文 参考訳(メタデータ) (2024-02-01T17:54:15Z) - Algorithmic failure as a humanities methodology: machine learning's
mispredictions identify rich cases for qualitative analysis [0.0]
私は単純な機械学習アルゴリズムを訓練し、架空のキャラクターの情報だけを使ってアクションがアクティブか受動的かを予測する。
この結果は、失敗予測は質的分析のリッチケースを特定するために生産的に使用できるという、Munkらの理論を支持する。
さらに、この手法がどのような種類のデータに役立ち、どの種類の機械学習が最も生成性が高いかを理解するために、さらなる研究が必要である。
論文 参考訳(メタデータ) (2023-05-19T13:24:32Z) - Handwritten Digit Recognition Using Improved Bounding Box Recognition
Technique [0.0]
このプロジェクトにはOCR(Optical Character Recognition)の技術が組み込まれており、コンピュータ科学の様々な研究分野が含まれている。
このプロジェクトの目的は、キャラクターの写真を撮って処理して、人間の脳がさまざまな数字を認識するように、そのキャラクターのイメージを認識することだ。
このプロジェクトには、画像処理技術と機械学習の大きな研究領域と、ニューラルネットワークと呼ばれる機械学習のビルディングブロックの深いアイデアが含まれている。
論文 参考訳(メタデータ) (2021-11-10T01:53:34Z) - Human-in-the-Loop Disinformation Detection: Stance, Sentiment, or
Something Else? [93.91375268580806]
政治とパンデミックは、機械学習対応の偽ニュース検出アルゴリズムの開発に十分な動機を与えている。
既存の文献は、主に完全自動化されたケースに焦点を当てているが、その結果得られた技術は、軍事応用に必要な様々なトピック、ソース、時間スケールに関する偽情報を確実に検出することはできない。
既に利用可能なアナリストを人間のループとして活用することにより、感情分析、アスペクトベースの感情分析、姿勢検出といった標準的な機械学習技術は、部分的に自動化された偽情報検出システムに使用するためのもっとも有効な方法となる。
論文 参考訳(メタデータ) (2021-11-09T13:30:34Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - Handwritten Digit Recognition using Machine and Deep Learning Algorithms [0.0]
我々は,MNISTデータセットを用いて,Support Vector Machines (SVM), Multi-Layer Perceptron (MLP), Convolution Neural Network (CNN)モデルを用いて手書き桁認識を行った。
我々の主な目的は、上述したモデルの精度と実行時間を比較して、桁認識に最適なモデルを得ることである。
論文 参考訳(メタデータ) (2021-06-23T18:23:01Z) - Ten Quick Tips for Deep Learning in Biology [116.78436313026478]
機械学習は、データのパターンを認識し、予測モデリングに使用するアルゴリズムの開発と応用に関係している。
ディープラーニングは、独自の機械学習のサブフィールドになっている。
生物学的研究の文脈において、ディープラーニングは高次元の生物学的データから新しい洞察を導き出すためにますます使われてきた。
論文 参考訳(メタデータ) (2021-05-29T21:02:44Z) - Scaling Systematic Literature Reviews with Machine Learning Pipelines [57.82662094602138]
体系的なレビューは、科学的文書からデータを抽出する。
これらの側面をそれぞれ自動化するパイプラインを構築し、多くの人間時間対システム品質トレードオフを実験します。
人間の専門的アノテーションの2週間だけで、パイプラインシステム全体の驚くほどの精度と一般性が得られることが分かりました。
論文 参考訳(メタデータ) (2020-10-09T16:19:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。