論文の概要: Leveraging Transfer Learning and Mobile-enabled Convolutional Neural Networks for Improved Arabic Handwritten Character Recognition
- arxiv url: http://arxiv.org/abs/2509.05019v1
- Date: Fri, 05 Sep 2025 11:28:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.578102
- Title: Leveraging Transfer Learning and Mobile-enabled Convolutional Neural Networks for Improved Arabic Handwritten Character Recognition
- Title(参考訳): アラビア文字認識改善のための移動型畳み込みニューラルネットワークの活用
- Authors: Mohsine El Khayati, Ayyad Maafiri, Yassine Himeur, Hamzah Ali Alkhazaleh, Shadi Atalla, Wathiq Mansoor,
- Abstract要約: この研究は、アラビア文字認識(AHCR)を強化するために、トランスファーラーニング(TL)とモバイル対応畳み込みニューラルネットワーク(MbNets)の統合を検討する。
本研究は, フル微調整, 部分微調整, スクラッチからのトレーニングという, 軽量な4つのMbNetを用いた3つのTL戦略を評価する。
AHCD,HIJJA,IFHCDBの3つのベンチマークデータセットで実験を行った。
- 参考スコア(独自算出の注目度): 3.344045288963461
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The study explores the integration of transfer learning (TL) with mobile-enabled convolutional neural networks (MbNets) to enhance Arabic Handwritten Character Recognition (AHCR). Addressing challenges like extensive computational requirements and dataset scarcity, this research evaluates three TL strategies--full fine-tuning, partial fine-tuning, and training from scratch--using four lightweight MbNets: MobileNet, SqueezeNet, MnasNet, and ShuffleNet. Experiments were conducted on three benchmark datasets: AHCD, HIJJA, and IFHCDB. MobileNet emerged as the top-performing model, consistently achieving superior accuracy, robustness, and efficiency, with ShuffleNet excelling in generalization, particularly under full fine-tuning. The IFHCDB dataset yielded the highest results, with 99% accuracy using MnasNet under full fine-tuning, highlighting its suitability for robust character recognition. The AHCD dataset achieved competitive accuracy (97%) with ShuffleNet, while HIJJA posed significant challenges due to its variability, achieving a peak accuracy of 92% with ShuffleNet. Notably, full fine-tuning demonstrated the best overall performance, balancing accuracy and convergence speed, while partial fine-tuning underperformed across metrics. These findings underscore the potential of combining TL and MbNets for resource-efficient AHCR, paving the way for further optimizations and broader applications. Future work will explore architectural modifications, in-depth dataset feature analysis, data augmentation, and advanced sensitivity analysis to enhance model robustness and generalizability.
- Abstract(参考訳): 本研究では,移動可能な畳み込みニューラルネットワーク(MbNets)と転写学習(TL)を統合し,アラビア文字認識(AHCR)を強化する。
大規模な計算要求やデータセットの不足といった課題に対処するため、本研究では、完全な微調整、部分微調整、スクラッチからのトレーニングという、MobileNet、SqueezeNet、MnasNet、ShuffleNetの4つのTL戦略を評価した。
AHCD,HIJJA,IFHCDBの3つのベンチマークデータセットで実験を行った。
MobileNetは最高性能のモデルとして登場し、精度、堅牢性、効率性が一貫して向上した。
IFHCDBデータセットは最高で99%の精度でMnasNetをフルチューニングし、堅牢な文字認識に適していることを強調した。
AHCDデータセットはShuffleNetとの競合精度(97%)を達成したが、HIJJAはその変動性のために大きな課題を提起し、ShuffleNetでは92%のピーク精度を達成した。
特に、完全な微調整は、最高の全体的なパフォーマンスを示し、精度と収束速度のバランスを保ちながら、部分的な微調整はメトリクス全体で過小評価された。
これらの結果は、TLとMbNetをリソース効率のよいAHCRに組み込むことの可能性を強調し、さらなる最適化と幅広い応用の道を開いた。
今後の研究では、アーキテクチャの変更、詳細なデータセットの特徴分析、データ拡張、モデルの堅牢性と一般化性を高めるための高度な感度分析などについて検討する予定である。
関連論文リスト
- Comparative Analysis of Lightweight Deep Learning Models for Memory-Constrained Devices [0.0]
CIFAR-10、CIFAR-100、Tiny ImageNetの3つの異なるデータセットで、最先端の5つのアーキテクチャがベンチマークされている。
モデルは、分類精度、推測時間、浮動小数点演算(FLOP)、モデルサイズという4つの重要なパフォーマンス指標を用いて評価される。
論文 参考訳(メタデータ) (2025-05-06T08:36:01Z) - A Multi-Fidelity Graph U-Net Model for Accelerated Physics Simulations [1.2430809884830318]
本稿では,GNNモデルの性能向上のための多元性手法の利点を生かした,新しいGNNアーキテクチャであるMulti-Fidelity U-Netを提案する。
提案手法は精度とデータ要求において有意に優れた性能を示すことを示す。
また,提案アーキテクチャの高速バージョンであるMulti-Fidelity U-Net Liteを35%高速化し,精度を2~5%削減した。
論文 参考訳(メタデータ) (2024-12-19T20:09:38Z) - On Calibration of Modern Quantized Efficient Neural Networks [79.06893963657335]
キャリブレーションの質は、量子化の質を追跡するために観察される。
GhostNet-VGGは、低い精度で全体的なパフォーマンス低下に対して最も堅牢であることが示されている。
論文 参考訳(メタデータ) (2023-09-25T04:30:18Z) - FxP-QNet: A Post-Training Quantizer for the Design of Mixed
Low-Precision DNNs with Dynamic Fixed-Point Representation [2.4149105714758545]
我々は、ディープニューラルネットワーク(FxP-QNet)の固定点量子化器(FixP-QNet)と呼ばれる新しいフレームワークを提案する。
FxP-QNetは、ネットワーク精度と低精度要求との間のトレードオフに基づいて、各レイヤのデータ構造ごとに量子化レベルを適用する。
その結果、FxP-QNet量子化されたAlexNet、VGG-16、ResNet-18は、全精度のメモリ要求を0.95%未満の7.16x、10.36x、6.44x、1.99%削減した。
論文 参考訳(メタデータ) (2022-03-22T23:01:43Z) - Benchmarking Test-Time Unsupervised Deep Neural Network Adaptation on
Edge Devices [19.335535517714703]
エッジへの展開後のディープニューラルネットワーク(DNN)の予測精度は、新しいデータの分布の変化によって、時間とともに低下する可能性がある。
バッチ正規化パラメータを再調整することにより、ノイズデータに対するモデルの予測精度を向上させるため、近年の予測時間非教師なしDNN適応技術が導入されている。
本論文は, 各種エッジデバイスの性能とエネルギーを定量化するために, この種の技術に関する総合的な研究を初めて行ったものである。
論文 参考訳(メタデータ) (2022-03-21T19:10:40Z) - When Vision Transformers Outperform ResNets without Pretraining or
Strong Data Augmentations [111.44860506703307]
Vision Transformer (ViTs) と既存のVisionNetsは、ハンドワイヤ機能やインダクティブスループットを汎用神経アーキテクチャに置き換えようとしている。
本稿では、損失幾何学のレンズからViTとRes-Mixersを解析し、トレーニングおよび推論時のモデルのデータ効率を改善することを目的とする。
最初の数層では、スペーサー活動ニューロンの頑健性が改善していることが示されている。
その結果、ViTsは、大規模な事前トレーニングや強力なデータ拡張なしに、ImageNet上でスクラッチからトレーニングした時に、同様のサイズと滑らかさのネットより優れています。
論文 参考訳(メタデータ) (2021-06-03T02:08:03Z) - FBNetV3: Joint Architecture-Recipe Search using Predictor Pretraining [65.39532971991778]
サンプル選択とランキングの両方を導くことで、アーキテクチャとトレーニングのレシピを共同でスコアする精度予測器を提案する。
高速な進化的検索をCPU分で実行し、さまざまなリソース制約に対するアーキテクチャと準備のペアを生成します。
FBNetV3は最先端のコンパクトニューラルネットワークのファミリーを構成しており、自動と手動で設計された競合より優れている。
論文 参考訳(メタデータ) (2020-06-03T05:20:21Z) - FADNet: A Fast and Accurate Network for Disparity Estimation [18.05392578461659]
本研究では,FADNetという分散度推定のための効率的かつ高精度なディープネットワークを提案する。
高速な計算を保存するために、2Dベースの効率的な相関層と積み重ねブロックを利用する。
精度を向上させるために、マルチスケールの重みスケジューリングトレーニング技術を活用するために、マルチスケールの予測を含んでいる。
論文 参考訳(メタデータ) (2020-03-24T10:27:11Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z) - Toward fast and accurate human pose estimation via soft-gated skip
connections [97.06882200076096]
本稿では,高精度かつ高効率な人間のポーズ推定について述べる。
我々は、最先端技術よりも精度と効率を両立させる文脈において、この設計選択を再分析する。
本モデルでは,MPII と LSP のデータセットから最先端の結果が得られる。
論文 参考訳(メタデータ) (2020-02-25T18:51:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。