論文の概要: Text recognition on images using pre-trained CNN
- arxiv url: http://arxiv.org/abs/2302.05105v1
- Date: Fri, 10 Feb 2023 08:09:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-13 16:22:02.578710
- Title: Text recognition on images using pre-trained CNN
- Title(参考訳): 事前学習cnnを用いた画像のテキスト認識
- Authors: Afgani Fajar Rizky, Novanto Yudistira, Edy Santoso
- Abstract要約: 認識はChars74Kデータセットを使用してトレーニングされ、最高のモデル結果はIIIT-5K-Datasetのサンプルでテストされる。
検証データには97.94%、テストデータには98.16%、IIIT-5K-Datasetには95.62%の精度がある。
- 参考スコア(独自算出の注目度): 2.191505742658975
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: A text on an image often stores important information and directly carries
high level semantics, makes it as important source of information and become a
very active research topic. Many studies have shown that the use of CNN-based
neural networks is quite effective and accurate for image classification which
is the basis of text recognition. It can also be more enhanced by using
transfer learning from pre-trained model trained on ImageNet dataset as an
initial weight. In this research, the recognition is trained by using Chars74K
dataset and the best model results then tested on some samples of
IIIT-5K-Dataset. The research results showed that the best accuracy is the
model that trained using VGG-16 architecture applied with image transformation
of rotation 15{\deg}, image scale of 0.9, and the application of gaussian blur
effect. The research model has an accuracy of 97.94% for validation data,
98.16% for test data, and 95.62% for the test data from IIIT-5K-Dataset. Based
on these results, it can be concluded that pre-trained CNN can produce good
accuracy for text recognition, and the model architecture that used in this
study can be used as reference material in the development of text detection
systems in the future
- Abstract(参考訳): 画像上のテキストは、しばしば重要な情報を格納し、直接高レベルのセマンティクスを持ち、重要な情報源となり、非常に活発な研究テーマとなる。
多くの研究により、cnnベースのニューラルネットワークの使用は、テキスト認識の基礎となる画像分類に非常に効果的で正確であることが示されている。
ImageNetデータセットでトレーニングされたトレーニング済みモデルから移行学習を初期重みとして使用することで、さらに強化することもできる。
本研究では、Chars74Kデータセットを用いて認識を訓練し、IIIT-5K-Datasetのサンプルでテストした。
その結果, vgg-16 アーキテクチャを用いて, ローテーション 15{\deg} の画像変換, 0.9 の画像スケール, ガウスのぼけ効果を訓練したモデルが最も精度が高いことがわかった。
検証データには97.94%、テストデータには98.16%、IIIT-5K-Datasetには95.62%の精度がある。
これらの結果から,事前学習したcnnはテキスト認識の精度が向上し,本研究で用いたモデルアーキテクチャをテキスト検出システムの開発における参考資料として用いることができると結論づけることができる。
関連論文リスト
- NCT-CRC-HE: Not All Histopathological Datasets Are Equally Useful [15.10324445908774]
本稿では,NCT-CRC-HE-100Kの大腸癌データセットの解析を行った。
このデータセットと得られた結果の両方が、データ固有のバイアスの影響を受けている可能性がある。
画像あたりの3つの特徴しか使用していない最も単純なモデルでさえ、この9クラスデータセットで50%以上の精度を示すことができる。
論文 参考訳(メタデータ) (2024-09-17T20:36:03Z) - T-ADAF: Adaptive Data Augmentation Framework for Image Classification
Network based on Tensor T-product Operator [0.0]
本稿ではテンソルT-Product Operatorに基づくAdaptive Data Augmentation Frameworkを提案する。
1つの画像データを3倍にし、これら3つの画像から結果を得る。
数値実験により、我々のデータ拡張フレームワークは、元のニューラルネットワークモデルの性能を2%向上させることができることが示された。
論文 参考訳(メタデータ) (2023-06-07T08:30:44Z) - Reinforce Data, Multiply Impact: Improved Model Accuracy and Robustness
with Dataset Reinforcement [68.44100784364987]
本研究では、強化データセット上でトレーニングされたモデルアーキテクチャの精度が、ユーザにとって追加のトレーニングコストなしで向上するように、データセットを改善する戦略を提案する。
ImageNet+と呼ばれるImageNetトレーニングデータセットの強化バージョンと、強化されたデータセットCIFAR-100+、Flowers-102+、Food-101+を作成します。
ImageNet+でトレーニングされたモデルは、より正確で、堅牢で、校正され、下流タスクにうまく転送されます。
論文 参考訳(メタデータ) (2023-03-15T23:10:17Z) - DeepDC: Deep Distance Correlation as a Perceptual Image Quality
Evaluator [53.57431705309919]
ImageNet Pre-trained Deep Neural Network (DNN)は、効果的な画像品質評価(IQA)モデルを構築するための顕著な転送性を示す。
我々は,事前学習DNN機能のみに基づく新しいフル参照IQA(FR-IQA)モデルを開発した。
5つの標準IQAデータセット上で,提案した品質モデルの優位性を示すため,包括的実験を行った。
論文 参考訳(メタデータ) (2022-11-09T14:57:27Z) - CoV-TI-Net: Transferred Initialization with Modified End Layer for
COVID-19 Diagnosis [5.546855806629448]
転送学習は比較的新しい学習手法であり、少ない計算で優れた性能を達成するために多くの分野で採用されている。
本研究では,MNISTデータセットにPyTorch事前学習モデル(VGG19_bnとWideResNet -101)を適用した。
提案したモデルはKaggleのノートブックで開発、検証され、計算時間を要さずに99.77%の精度に達した。
論文 参考訳(メタデータ) (2022-09-20T08:52:52Z) - Portuguese Man-of-War Image Classification with Convolutional Neural
Networks [58.720142291102135]
ポルトガルマン・オブ・ウォー(ポルトガル語: Man-of-war、PMW)は、長い触手を持つゼラチン質の生物である。
本稿では,InstagramのソーシャルメディアからPMW画像を認識するための畳み込みニューラルネットワークの利用について報告する。
論文 参考訳(メタデータ) (2022-07-04T03:06:45Z) - Classification of EEG Motor Imagery Using Deep Learning for
Brain-Computer Interface Systems [79.58173794910631]
トレーニングされたT1クラス畳み込みニューラルネットワーク(CNN)モデルを使用して、運動画像の識別を成功させる能力を調べる。
理論的には、モデルが正確にトレーニングされた場合、クラスを特定し、それに従ってラベル付けすることが可能になる。
CNNモデルは復元され、より小さなサンプルデータを使用して同じ種類の運動画像データを特定するために使用される。
論文 参考訳(メタデータ) (2022-05-31T17:09:46Z) - Deep Learning Based Classification System For Recognizing Local Spinach [0.0]
ホウレンソウを自動的に識別する深層学習法が使用されている。
4つの畳み込みニューラルネットワーク(CNN)モデルを用いてホウレンソウを分類した。
これらのモデルの中で、VGG16は99.79%の精度を達成した。
論文 参考訳(メタデータ) (2022-01-06T15:10:41Z) - Efficient sign language recognition system and dataset creation method
based on deep learning and image processing [0.0]
本研究では,手話データセットを効果的に作成できるデジタル画像処理と機械学習の技術について検討する。
仮説をテストするために異なるデータセットが作成され、毎日14の単語が使われ、rgbカラーシステムで異なるスマートフォンによって記録された。
テストセットでは96.38%,検証セットでは81.36%の精度で,より困難な条件が得られた。
論文 参考訳(メタデータ) (2021-03-22T23:36:49Z) - Shape-Texture Debiased Neural Network Training [50.6178024087048]
畳み込みニューラルネットワークは、トレーニングデータセットによって、テクスチャまたは形状にバイアスされることが多い。
形状・テクスチャ・デバイアスド学習のためのアルゴリズムを開発した。
実験により,本手法は複数の画像認識ベンチマークにおけるモデル性能の向上に成功していることが示された。
論文 参考訳(メタデータ) (2020-10-12T19:16:12Z) - Radioactive data: tracing through training [130.2266320167683]
本稿では,このデータセットに認識不能な変化を生じさせる新しい手法であるEmphradioactive dataを提案する。
訓練されたモデルにより, 放射能データの利用を検知し, 信頼度(p-値)のレベルを提供する。
提案手法はディープネットワーク最適化におけるデータ拡張とバックドア性に対して堅牢である。
論文 参考訳(メタデータ) (2020-02-03T18:41:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。