論文の概要: Performance Evaluation of Advanced Deep Learning Architectures for
Offline Handwritten Character Recognition
- arxiv url: http://arxiv.org/abs/2003.06794v1
- Date: Sun, 15 Mar 2020 11:17:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-23 08:55:32.062953
- Title: Performance Evaluation of Advanced Deep Learning Architectures for
Offline Handwritten Character Recognition
- Title(参考訳): オフライン手書き文字認識のための高度なディープラーニングアーキテクチャの性能評価
- Authors: Moazam Soomro, Muhammad Ali Farooq, Rana Hammad Raza
- Abstract要約: このシステムは、原画素値から特徴を収集することにより、高度な多層ディープニューラルネットワークを利用する。
NVIDIA DIGITSのCaffe AlexNetとGoogleNetモデルを含む、ディープラーニングアーキテクチャの2つの状態が使用されている。
AlexNetが達成した精度は77.77%、Google Netが88.89%だった。
- 参考スコア(独自算出の注目度): 0.6445605125467573
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a hand-written character recognition comparison and
performance evaluation for robust and precise classification of different
hand-written characters. The system utilizes advanced multilayer deep neural
network by collecting features from raw pixel values. The hidden layers stack
deep hierarchies of non-linear features since learning complex features from
conventional neural networks is very challenging. Two state of the art deep
learning architectures were used which includes Caffe AlexNet and GoogleNet
models in NVIDIA DIGITS.The frameworks were trained and tested on two different
datasets for incorporating diversity and complexity. One of them is the
publicly available dataset i.e. Chars74K comprising of 7705 characters and has
upper and lowercase English alphabets, along with numerical digits. While the
other dataset created locally consists of 4320 characters. The local dataset
consists of 62 classes and was created by 40 subjects. It also consists upper
and lowercase English alphabets, along with numerical digits. The overall
dataset is divided in the ratio of 80% for training and 20% for testing phase.
The time required for training phase is approximately 90 minutes. For
validation part, the results obtained were compared with the groundtruth. The
accuracy level achieved with AlexNet was 77.77% and 88.89% with Google Net. The
higher accuracy level of GoogleNet is due to its unique combination of
inception modules, each including pooling, convolutions at various scales and
concatenation procedures.
- Abstract(参考訳): 本稿では,手書き文字の頑健かつ正確な分類のための文字認識比較と性能評価について述べる。
このシステムは、生のピクセル値から特徴を収集し、高度な多層深層ニューラルネットワークを利用する。
隠れた層は、従来のニューラルネットワークから複雑な特徴を学習するため、非線形特徴の深い階層を積み重ねる。
NVIDIA DIGITSのCaffe AlexNetとGoogleNetモデルを含む、ディープラーニングアーキテクチャの2つの状態が使用されている。これらのフレームワークは、多様性と複雑性を取り入れた2つの異なるデータセットでトレーニングされ、テストされた。
そのうちの1つは、7705文字からなる公開データセットであるchars74kで、英語のアルファベットと数値の数字を持つ。
他のデータセットは4320文字で構成されている。
ローカルデータセットは62のクラスで構成され、40人の被験者によって作成された。
また、上段と下段の英語アルファベットと数字の数字も含んでいる。
データセット全体は、トレーニングの80%とテストフェーズの20%の比率で分割される。
訓練に要する時間はおよそ90分である。
検証部では,得られた結果を基部と比較した。
AlexNetの精度は77.77%、Google Netは88.89%だった。
GoogleNetの精度の高いレベルは、それぞれがプール、さまざまなスケールでの畳み込み、結合手順を含む、開始モジュールのユニークな組み合わせである。
関連論文リスト
- Dataset Quantization [72.61936019738076]
大規模データセットを小さなサブセットに圧縮する新しいフレームワークであるデータセット量子化(DQ)を提案する。
DQは、ImageNet-1kのような大規模データセットを最先端圧縮比で蒸留する最初の方法である。
論文 参考訳(メタデータ) (2023-08-21T07:24:29Z) - ULIP: Learning a Unified Representation of Language, Images, and Point
Clouds for 3D Understanding [110.07170245531464]
現在の3Dモデルは、注釈付きデータの少ないデータセットと、事前に定義されたカテゴリセットによって制限されている。
近年の進歩は、言語などの他のモダリティからの知識を活用することで、同様の問題を著しく軽減できることを示している。
画像,テキスト,3次元点雲の統一表現は,3つのモードからオブジェクト三重項を事前学習することで学習する。
論文 参考訳(メタデータ) (2022-12-10T01:34:47Z) - Kurdish Handwritten Character Recognition using Deep Learning Techniques [26.23274417985375]
本稿では、深層学習技術を用いてクルド語アルファベットの文字を認識可能なモデルの設計と開発を試みる。
4000万枚以上の画像を含む、手書きのクルド文字のための包括的なデータセットが作成された。
結果,精度は96%,トレーニング精度は97%であった。
論文 参考訳(メタデータ) (2022-10-18T16:48:28Z) - Learning Rate Curriculum [75.98230528486401]
ラーニングレートカリキュラム(LeRaC)と呼ばれる新しいカリキュラム学習手法を提案する。
LeRaCは、ニューラルネットワークの各レイヤ毎に異なる学習率を使用して、最初のトレーニングエポックの間、データに依存しないカリキュラムを作成する。
Smoothing(CBS)によるCurriculum(Curriculum)との比較を行った。
論文 参考訳(メタデータ) (2022-05-18T18:57:36Z) - Investigating Neural Architectures by Synthetic Dataset Design [14.317837518705302]
近年、多くの新しいニューラルネットワーク構造(アーキテクチャと層)が出現している。
アドホックな合成データセットを設計することにより,各構造がネットワーク能力に与える影響を測定する手法をスケッチする。
本稿では,以下の3つのネットワーク特性のそれぞれを評価するために,3つのデータセットを構築した手法について述べる。
論文 参考訳(メタデータ) (2022-04-23T10:50:52Z) - Deep ensembles in bioimage segmentation [74.01883650587321]
本研究では,畳み込みニューラルネットワーク(CNN)のアンサンブルを提案する。
アンサンブル法では、多くの異なるモデルが訓練され、分類に使用され、アンサンブルは単一分類器の出力を集約する。
提案するアンサンブルは,DeepLabV3+とHarDNet環境を用いて,異なるバックボーンネットワークを組み合わせることで実現されている。
論文 参考訳(メタデータ) (2021-12-24T05:54:21Z) - Dive into Layers: Neural Network Capacity Bounding using Algebraic
Geometry [55.57953219617467]
ニューラルネットワークの学習性はそのサイズと直接関連していることを示す。
入力データとニューラルネットワークのトポロジ的幾何学的複雑さを測定するためにベッチ数を用いる。
実世界のデータセットMNISTで実験を行い、分析結果と結論を検証した。
論文 参考訳(メタデータ) (2021-09-03T11:45:51Z) - Facial Age Estimation using Convolutional Neural Networks [0.0]
本論文は,ノルウェー科学技術大学における機械学習の学生プロジェクトの一部である。
5つの畳み込み層と3つの完全連結層を持つ深い畳み込みニューラルネットワークを提示し、画像に基づく個人の年齢を推定する。
論文 参考訳(メタデータ) (2021-05-14T10:09:47Z) - Satellite Image Classification with Deep Learning [0.0]
IARPA関数マップ(FMoW)データセットから対象物や施設を63のクラスに分類する深層学習システムについて述べる。
このシステムは、畳み込みニューラルネットワークと、衛星メタデータと画像特徴を統合する追加のニューラルネットワークのアンサンブルで構成されている。
執筆時点では、このシステムはfMoW TopCoderコンペティションで2位だ。
論文 参考訳(メタデータ) (2020-10-13T15:56:58Z) - Alpha-Net: Architecture, Models, and Applications [0.0]
カスタムトレーニングと重み評価のための新しいネットワークアーキテクチャを提案する。
アーキテクチャの振る舞いを表現するために,Alpha-Netを4つの異なるレイヤ構成で実装する。
Alpha-Net v3では、ImageNetベンチマークで最新の最先端ネットワークであるResNet 50よりも3%精度が向上している。
論文 参考訳(メタデータ) (2020-06-27T05:05:01Z) - Pyramidal Convolution: Rethinking Convolutional Neural Networks for
Visual Recognition [98.10703825716142]
この研究は、複数のフィルタスケールで入力を処理できるピラミッド畳み込み(PyConv)を導入している。
PyConvをベースとした,画像分類,映像行動分類/認識,オブジェクト検出,意味的画像分割/パーシングの4つの主要なタスクについて,異なるアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-06-20T10:19:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。