論文の概要: Arabic Handwritten Text for Person Biometric Identification: A Deep Learning Approach
- arxiv url: http://arxiv.org/abs/2406.00409v1
- Date: Sat, 1 Jun 2024 11:43:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 07:15:00.914642
- Title: Arabic Handwritten Text for Person Biometric Identification: A Deep Learning Approach
- Title(参考訳): 人物生体認証のためのアラビア手書きテキスト:深層学習アプローチ
- Authors: Mazen Balat, Youssef Mohamed, Ahmed Heakl, Ahmed Zaky,
- Abstract要約: 本研究は,人物の生体認証のためのアラビア手書きテキストを,ディープラーニングモデルがどの程度認識できるかを徹底的に検討する。
広く認識されている3つのデータセットを使用して、ResNet50、MobileNetV2、EfficientNetB7の3つの高度なアーキテクチャを比較している。
その結果、EfficientNetB7は、AHAWP、Khatt、LAMIS-MSHDデータセットで98.57%、99.15%、99.79%のアキュラシーを達成した。
- 参考スコア(独自算出の注目度): 0.9910347287556193
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study thoroughly investigates how well deep learning models can recognize Arabic handwritten text for person biometric identification. It compares three advanced architectures -- ResNet50, MobileNetV2, and EfficientNetB7 -- using three widely recognized datasets: AHAWP, Khatt, and LAMIS-MSHD. Results show that EfficientNetB7 outperforms the others, achieving test accuracies of 98.57\%, 99.15\%, and 99.79\% on AHAWP, Khatt, and LAMIS-MSHD datasets, respectively. EfficientNetB7's exceptional performance is credited to its innovative techniques, including compound scaling, depth-wise separable convolutions, and squeeze-and-excitation blocks. These features allow the model to extract more abstract and distinctive features from handwritten text images. The study's findings hold significant implications for enhancing identity verification and authentication systems, highlighting the potential of deep learning in Arabic handwritten text recognition for person biometric identification.
- Abstract(参考訳): 本研究は,人物の生体認証のためのアラビア手書きテキストを,ディープラーニングモデルがどの程度認識できるかを徹底的に検討する。
広く認識されている3つのデータセット(AHAWP、Khatt、LAMIS-MSHD)を使用して、ResNet50、MobileNetV2、EfficientNetB7の3つの高度なアーキテクチャを比較している。
その結果、EfficientNetB7は、それぞれAHAWP、Khatt、LAMIS-MSHDデータセットで98.57\%、99.15\%、99.79\%の精度で、他よりも優れていた。
EfficientNetB7の例外的な性能は、複合スケーリング、深度的に分離可能な畳み込み、シャープ・アンド・エキサイクリングブロックなど、その革新的な技術によって評価されている。
これらの特徴により、手書きのテキスト画像からより抽象的で独特な特徴を抽出することができる。
この研究の結果は、アイデンティティ認証と認証システムの強化に重要な意味を持ち、人物の生体認証のためのアラビア文字によるテキスト認識におけるディープラーニングの可能性を強調している。
関連論文リスト
- One-Stage-TFS: Thai One-Stage Fingerspelling Dataset for Fingerspelling Recognition Frameworks [0.0]
タイのワンステージフィンガースペルデータセットは、手ジェスチャー認識の研究を進めるために設計された総合的なリソースである。
このデータセットは、タイのラジャバト・マハ・サラカム大学(英語版)の大学生が行った15の1段子音のジェスチャーを7,200枚の画像から成っている。
論文 参考訳(メタデータ) (2024-11-05T03:26:26Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - Advancing 3D finger knuckle recognition via deep feature learning [51.871256510747465]
接触のない3Dフィンガーナックルパターンは、識別性、距離からの視認性、利便性、利便性により、効果的な生体認証として出現している。
近年、ディープニューラルネットワークの中間機能を複数のスケールで同時に組み込むディープ・フィーチャー・コラボレーティブ・ネットワークが開発されている。
本稿では,3次元指のナックル画像を表現するために,最小次元の識別特徴ベクトルを学習する可能性を検討することにより,本手法を推し進める。
論文 参考訳(メタデータ) (2023-01-07T20:55:16Z) - Huruf: An Application for Arabic Handwritten Character Recognition Using
Deep Learning [0.0]
本稿では、アラビア語の文字と数字を認識するための軽量な畳み込みニューラルネットワークアーキテクチャを提案する。
提案したパイプラインは、畳み込み、プール、バッチ正規化、ドロップアウト、最後にグローバル平均レイヤの4つのレイヤを含む合計18層で構成されている。
提案したモデルはそれぞれ96.93%と99.35%の精度を達成し、これは最先端のエンドレベルアプリケーションに適した解決策となった。
論文 参考訳(メタデータ) (2022-12-16T17:39:32Z) - Kurdish Handwritten Character Recognition using Deep Learning Techniques [26.23274417985375]
本稿では、深層学習技術を用いてクルド語アルファベットの文字を認識可能なモデルの設計と開発を試みる。
4000万枚以上の画像を含む、手書きのクルド文字のための包括的なデータセットが作成された。
結果,精度は96%,トレーニング精度は97%であった。
論文 参考訳(メタデータ) (2022-10-18T16:48:28Z) - Learning Diversified Feature Representations for Facial Expression
Recognition in the Wild [97.14064057840089]
本稿では,CNN層が抽出した顔表情認識アーキテクチャの特徴を多様化する機構を提案する。
AffectNet,FER+,RAF-DBの3つの顔表情認識実験の結果,本手法の有効性が示された。
論文 参考訳(メタデータ) (2022-10-17T19:25:28Z) - Multimodal Masked Autoencoders Learn Transferable Representations [127.35955819874063]
単純でスケーラブルなネットワークアーキテクチャであるM3AE(Multimodal Masked Autoencoder)を提案する。
M3AEは、マスク付きトークン予測により、視覚と言語データの両方の統一エンコーダを学習する。
我々は,大規模な画像テキストデータセット上で訓練されたM3AEについて実証的研究を行い,M3AEが下流タスクによく伝達される一般化可能な表現を学習できることを見出した。
論文 参考訳(メタデータ) (2022-05-27T19:09:42Z) - Unified Contrastive Learning in Image-Text-Label Space [130.31947133453406]
Unified Contrastive Learning (UniCL)は、意味的に豊かだが差別的な表現を学習する効果的な方法である。
UniCLスタンドアローンは、3つの画像分類データセットにまたがる教師あり学習手法に対抗して、純粋な画像ラベルデータに関する優れた学習者である。
論文 参考訳(メタデータ) (2022-04-07T17:34:51Z) - Efficient Measuring of Readability to Improve Documents Accessibility
for Arabic Language Learners [0.0]
この手法は、テキストの読みと理解の難易度を区別する機械学習の分類法に基づいている。
いくつかのモデルは、オンラインアラビアのウェブサイトから採掘された巨大なコーパスで訓練され、手動で注釈付けされた。
TF-IDFベクトルは単語ベースのユニグラムとビッグラムの組み合わせで訓練され、全体的な精度は4種類の複雑性に対して87.14%であった。
論文 参考訳(メタデータ) (2021-09-09T10:05:38Z) - Neural Computing for Online Arabic Handwriting Character Recognition
using Hard Stroke Features Mining [0.0]
オンラインアラビア文字認識における書字ストローク特徴の垂直方向と水平方向から所望の臨界点を検出する方法を提案する。
バックプロパゲーション学習アルゴリズムと修正シグモイド関数に基づくアクティベーション関数を備えた多層パーセプトロンを用いて、文字の分類のためにこれらのトークンから最小の特徴セットを抽出する。
提案手法は,文字認識技術に匹敵する98.6%の平均精度を実現する。
論文 参考訳(メタデータ) (2020-05-02T23:17:08Z) - Exploiting Structured Knowledge in Text via Graph-Guided Representation
Learning [73.0598186896953]
本稿では、知識グラフからのガイダンスを用いて、生テキスト上で学習する2つの自己教師型タスクを提案する。
エンティティレベルのマスキング言語モデルに基づいて、最初のコントリビューションはエンティティマスキングスキームです。
既存のパラダイムとは対照的に,本手法では事前学習時にのみ,知識グラフを暗黙的に使用する。
論文 参考訳(メタデータ) (2020-04-29T14:22:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。