論文の概要: Optical Character Recognition using Convolutional Neural Networks for Ashokan Brahmi Inscriptions
- arxiv url: http://arxiv.org/abs/2501.01981v1
- Date: Sun, 29 Dec 2024 09:56:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-12 03:17:00.660722
- Title: Optical Character Recognition using Convolutional Neural Networks for Ashokan Brahmi Inscriptions
- Title(参考訳): 畳み込みニューラルネットワークを用いたAshokan Brahmi碑文の光学的文字認識
- Authors: Yash Agrawal, Srinidhi Balasubramanian, Rahul Meena, Rohail Alam, Himanshu Malviya, Rohini P,
- Abstract要約: この研究は主に、トレーニング済みの3つのCNN(LeNet、VGG-16、MobileNet)に焦点を当てている。
この結果、MobileNetは他の2モデルよりも精度が高く、検証精度は95.94%、検証損失は0.129であることがわかった。
- 参考スコア(独自算出の注目度): 0.13194391758295113
- License:
- Abstract: This research paper delves into the development of an Optical Character Recognition (OCR) system for the recognition of Ashokan Brahmi characters using Convolutional Neural Networks. It utilizes a comprehensive dataset of character images to train the models, along with data augmentation techniques to optimize the training process. Furthermore, the paper incorporates image preprocessing to remove noise, as well as image segmentation to facilitate line and character segmentation. The study mainly focuses on three pre-trained CNNs, namely LeNet, VGG-16, and MobileNet and compares their accuracy. Transfer learning was employed to adapt the pre-trained models to the Ashokan Brahmi character dataset. The findings reveal that MobileNet outperforms the other two models in terms of accuracy, achieving a validation accuracy of 95.94% and validation loss of 0.129. The paper provides an in-depth analysis of the implementation process using MobileNet and discusses the implications of the findings. The use of OCR for character recognition is of significant importance in the field of epigraphy, specifically for the preservation and digitization of ancient scripts. The results of this research paper demonstrate the effectiveness of using pre-trained CNNs for the recognition of Ashokan Brahmi characters.
- Abstract(参考訳): 本稿では,畳み込みニューラルネットワークを用いたアショーカンブラフミ文字認識のための光学文字認識(OCR)システムの開発について述べる。
これは、トレーニングプロセスの最適化にデータ拡張技術とともに、包括的な文字イメージのデータセットを使用してモデルをトレーニングする。
さらに,画像前処理によりノイズを除去し,画像分割により線分や文字分節を容易にする。
この研究は主に、トレーニング済みの3つのCNN(LeNet、VGG-16、MobileNet)に焦点を当て、精度を比較した。
Ashokan Brahmi文字データセットに事前訓練されたモデルを適用するために、トランスファーラーニングが採用された。
その結果、MobileNetは他の2モデルよりも精度が良く、検証精度は95.94%、検証損失は0.129であることがわかった。
本稿では,MobileNetを用いた実装プロセスの詳細な分析を行い,その意義について考察する。
文字認識におけるOCRの使用は、特に古代の文字の保存とデジタル化のために、エピノグラフィー分野において重要な意味を持つ。
本研究は,Ashokan Brahmi文字認識のための事前学習CNNの有効性を実証するものである。
関連論文リスト
- Optimizing the Neural Network Training for OCR Error Correction of
Historical Hebrew Texts [0.934612743192798]
本稿では,ヘブライOCR後補正のための軽量ニューラルネットワークを,手作業で生成したデータよりもはるかに少ない精度でトレーニングする方法を提案する。
過去のOCR新聞の分析は、共通言語とコーパス固有のOCRエラーを学習するために行われた。
論文 参考訳(メタデータ) (2023-07-30T12:59:06Z) - Defect Classification in Additive Manufacturing Using CNN-Based Vision
Processing [76.72662577101988]
本稿では、まず、畳み込みニューラルネットワーク(CNN)を用いて、画像データセットの欠陥をAMから第2に正確に分類し、発達した分類モデルにアクティブラーニング技術を適用する。
これにより、トレーニングデータやトレーニングデータの生成に必要なデータのサイズを削減できる、ヒューマン・イン・ザ・ループ機構の構築が可能になる。
論文 参考訳(メタデータ) (2023-07-14T14:36:58Z) - Text recognition on images using pre-trained CNN [2.191505742658975]
認識はChars74Kデータセットを使用してトレーニングされ、最高のモデル結果はIIIT-5K-Datasetのサンプルでテストされる。
検証データには97.94%、テストデータには98.16%、IIIT-5K-Datasetには95.62%の精度がある。
論文 参考訳(メタデータ) (2023-02-10T08:09:51Z) - Impact of a DCT-driven Loss in Attention-based Knowledge-Distillation
for Scene Recognition [64.29650787243443]
本稿では, アクティベーションマップの2次元周波数変換を転送前に提案し, 解析する。
この戦略は、シーン認識などのタスクにおける知識伝達可能性を高める。
我々は、この論文で使われているトレーニングおよび評価フレームワークを、http://www.vpu.eps.uam.es/publications/DCTBasedKDForSceneRecognitionで公開しています。
論文 参考訳(メタデータ) (2022-05-04T11:05:18Z) - A Comprehensive Study of Image Classification Model Sensitivity to
Foregrounds, Backgrounds, and Visual Attributes [58.633364000258645]
このデータセットをRIVAL10と呼びます。
本研究では,前景,背景,属性の騒音劣化に対する幅広いモデルの感度を評価する。
本稿では,多種多様な最先端アーキテクチャ (ResNets, Transformers) とトレーニング手順 (CLIP, SimCLR, DeiT, Adversarial Training) について考察する。
論文 参考訳(メタデータ) (2022-01-26T06:31:28Z) - Semantic-Aware Generation for Self-Supervised Visual Representation
Learning [116.5814634936371]
セマンティック・アウェア・ジェネレーション(SaGe)は、生成した画像に保存される詳細よりも、よりリッチなセマンティクスを促進する。
SaGeは、ターゲットネットワークをビュー特有の特徴で補完することで、集中的なデータ拡張によって引き起こされるセマンティックな劣化を軽減する。
我々は、ImageNet-1K上でSaGeを実行し、近接検定、線形分類、微視的画像認識を含む5つの下流タスクで事前訓練されたモデルを評価する。
論文 参考訳(メタデータ) (2021-11-25T16:46:13Z) - Influence of image noise on crack detection performance of deep
convolutional neural networks [0.0]
深層畳み込みニューラルネットワークを用いた画像データからのひび割れの分類について多くの研究がなされている。
本稿では,画像ノイズがネットワークの精度に与える影響について検討する。
AlexNetは提案したインデックスに基づいて最も効率的なモデルに選ばれた。
論文 参考訳(メタデータ) (2021-11-03T09:08:54Z) - Learning Co-segmentation by Segment Swapping for Retrieval and Discovery [67.6609943904996]
この研究の目的は、一対のイメージから視覚的に類似したパターンを効率的に識別することである。
画像中のオブジェクトセグメントを選択し、それを別の画像にコピーペーストすることで、合成トレーニングペアを生成する。
提案手法は,Brueghelデータセット上でのアートワークの詳細検索に対して,明確な改善をもたらすことを示す。
論文 参考訳(メタデータ) (2021-10-29T16:51:16Z) - Image Quality Assessment using Contrastive Learning [50.265638572116984]
我々は、補助的な問題を解決するために、対照的な対の目的を用いて深層畳み込みニューラルネットワーク(CNN)を訓練する。
本研究では,最新のNR画像品質モデルと比較して,ContriQUEが競争性能を向上することを示す。
以上の結果から,大きなラベル付き主観的画像品質データセットを必要とせずに,知覚的関連性を持つ強力な品質表現が得られることが示唆された。
論文 参考訳(メタデータ) (2021-10-25T21:01:00Z) - Exploiting the relationship between visual and textual features in
social networks for image classification with zero-shot deep learning [0.0]
本稿では,CLIPニューラルネットワークアーキテクチャの伝達可能な学習能力に基づく分類器アンサンブルを提案する。
本研究は,Placesデータセットのラベルによる画像分類タスクに基づいて,視覚的部分のみを考慮した実験である。
画像に関連付けられたテキストを考えることは、目標に応じて精度を向上させるのに役立つ。
論文 参考訳(メタデータ) (2021-07-08T10:54:59Z) - Application of Facial Recognition using Convolutional Neural Networks
for Entry Access Control [0.0]
本論文は,画像中の人物を入力として捉え,その人物を著者の1人か否かを分類する,教師付き分類問題の解決に焦点をあてる。
提案手法は,(1)WoodNetと呼ばれるニューラルネットワークをスクラッチから構築し,トレーニングすること,(2)ImageNetデータベース上に事前トレーニングされたネットワークを利用することで,転送学習を活用すること,の2つである。
結果は、データセット内の個人を高い精度で分類し、保持されたテストデータに対して99%以上の精度で達成する2つのモデルである。
論文 参考訳(メタデータ) (2020-11-23T07:55:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。