論文の概要: Robust and Real-Time Bangladeshi Currency Recognition: A Dual-Stream MobileNet and EfficientNet Approach
- arxiv url: http://arxiv.org/abs/2602.07015v1
- Date: Sat, 31 Jan 2026 17:37:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.354506
- Title: Robust and Real-Time Bangladeshi Currency Recognition: A Dual-Stream MobileNet and EfficientNet Approach
- Title(参考訳): ロバストかつリアルタイムバングラデシュ通貨認識:デュアルストリームモバイルネットと効率的なネットアプローチ
- Authors: Subreena, Mohammad Amzad Hossain, Mirza Raquib, Saydul Akbar Murad, Farida Siddiqi Prity, Muhammad Hanif, Nick Rahimi,
- Abstract要約: バングラデシュの新しい紙幣データセットを構築し、制御されたシナリオと実際のシナリオの両方を含む。
我々は、様々な複雑さをカバーし、モデルの一般化を改善するために、公開ベンチマークを含む4つの追加データセットを組み込んだ。
提案したモデルは、制御されたデータセットで97.95%の精度、複雑なバックグラウンドで92.84%、すべてのデータセットを組み合わせれば94.98%の精度が得られる。
- 参考スコア(独自算出の注目度): 2.3053825622580133
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate currency recognition is essential for assistive technologies, particularly for visually impaired individuals who rely on others to identify banknotes. This dependency puts them at risk of fraud and exploitation. To address these challenges, we first build a new Bangladeshi banknote dataset that includes both controlled and real-world scenarios, ensuring a more comprehensive and diverse representation. Next, to enhance the dataset's robustness, we incorporate four additional datasets, including public benchmarks, to cover various complexities and improve the model's generalization. To overcome the limitations of current recognition models, we propose a novel hybrid CNN architecture that combines MobileNetV3-Large and EfficientNetB0 for efficient feature extraction. This is followed by an effective multilayer perceptron (MLP) classifier to improve performance while keeping computational costs low, making the system suitable for resource-constrained devices. The experimental results show that the proposed model achieves 97.95% accuracy on controlled datasets, 92.84% on complex backgrounds, and 94.98% accuracy when combining all datasets. The model's performance is thoroughly evaluated using five-fold cross-validation and seven metrics: accuracy, precision, recall, F1-score, Cohen's Kappa, MCC, and AUC. Additionally, explainable AI methods like LIME and SHAP are incorporated to enhance transparency and interpretability.
- Abstract(参考訳): 正確な通貨認識は補助技術、特に他人に頼って紙幣を識別する視覚障害者にとって不可欠である。
この依存は彼らを詐欺や搾取の危険に晒す。
これらの課題に対処するために、我々はまず、コントロールされたシナリオと現実世界の両方を含むバングラデシュの紙幣データセットを構築し、より包括的で多様な表現を確実にします。
次に、データセットの堅牢性を高めるために、さまざまな複雑さをカバーし、モデルの一般化を改善するために、公開ベンチマークを含む4つの追加データセットを統合する。
そこで本研究では,MobileNetV3-LargeとEfficientNetB0を組み合わせたハイブリッドCNNアーキテクチャを提案する。
これに続いて効果的な多層パーセプトロン(MLP)分類器が登場し、計算コストを低く抑えながら性能を向上させる。
実験の結果,制御されたデータセットに対して97.95%の精度,複雑な背景に対して92.84%,すべてのデータセットを組み合わせれば94.98%の精度が得られた。
モデルの性能は5倍のクロスバリデーションと7つのメトリクス(精度、精度、リコール、F1スコア、CohenのKappa、MCC、AUC)で徹底的に評価されている。
さらに、透明性と解釈可能性を高めるために、LIMEやSHAPといった説明可能なAIメソッドが組み込まれている。
関連論文リスト
- Leveraging Transfer Learning and Mobile-enabled Convolutional Neural Networks for Improved Arabic Handwritten Character Recognition [3.344045288963461]
この研究は、アラビア文字認識(AHCR)を強化するために、トランスファーラーニング(TL)とモバイル対応畳み込みニューラルネットワーク(MbNets)の統合を検討する。
本研究は, フル微調整, 部分微調整, スクラッチからのトレーニングという, 軽量な4つのMbNetを用いた3つのTL戦略を評価する。
AHCD,HIJJA,IFHCDBの3つのベンチマークデータセットで実験を行った。
論文 参考訳(メタデータ) (2025-09-05T11:28:53Z) - Efficient Federated Learning with Heterogeneous Data and Adaptive Dropout [62.73150122809138]
Federated Learning(FL)は、複数のエッジデバイスを使用したグローバルモデルの協調トレーニングを可能にする、有望な分散機械学習アプローチである。
動的不均一モデルアグリゲーション(FedDH)と適応ドロップアウト(FedAD)の2つの新しい手法を備えたFedDHAD FLフレームワークを提案する。
これら2つの手法を組み合わせることで、FedDHADは精度(最大6.7%)、効率(最大2.02倍高速)、コスト(最大15.0%小型)で最先端のソリューションを大幅に上回っている。
論文 参考訳(メタデータ) (2025-07-14T16:19:00Z) - Financial Fraud Detection Using Explainable AI and Stacking Ensemble Methods [0.6642919568083927]
本稿では,XGBoost,LightGBM,CatBoostという,勾配促進モデルの積み重ねアンサンブルを組み合わせた不正検出フレームワークを提案する。
XAI技術は、モデルの決定の透明性と解釈可能性を高めるために使用される。
論文 参考訳(メタデータ) (2025-05-15T07:53:02Z) - Data-Driven Approximation of Binary-State Network Reliability Function: Algorithm Selection and Reliability Thresholds for Large-Scale Systems [0.08158530638728499]
本研究は,3つの信頼性体制(0.0-1.0),高信頼性(0.9-1.0),超高信頼性(0.99-1.0)にわたる20の機械学習手法を評価する。
本研究では,円弧の信頼性が0.9以下である大規模ネットワークが,ほぼ均一なシステムの信頼性を示し,計算の単純化を実現していることを示す。
論文 参考訳(メタデータ) (2025-03-16T13:51:59Z) - CARE Transformer: Mobile-Friendly Linear Visual Transformer via Decoupled Dual Interaction [77.8576094863446]
本稿では,新しいdetextbfCoupled dutextbfAl-interactive lineatextbfR atttextbfEntion (CARE) 機構を提案する。
まず,非対称な特徴分離戦略を提案し,非対称的に学習プロセスを局所帰納バイアスと長距離依存に分解する。
分離学習方式を採用し,特徴間の相補性を完全に活用することにより,高い効率性と精度を両立させることができる。
論文 参考訳(メタデータ) (2024-11-25T07:56:13Z) - SeiT++: Masked Token Modeling Improves Storage-efficient Training [36.95646819348317]
近年のDeep Neural Network(DNN)モデルでは,コンピュータビジョンタスクのパフォーマンスが大幅に向上している。
高度に一般化可能で高性能なビジョンモデルを実現するには、拡張データセットが必要である。
SeiTによる最近のブレークスルーは、Vector-Quantized (VQ)特徴ベクトル(トークン)を視覚分類のためのネットワーク入力として使用することを提案した。
本稿では,自己指導型事前学習のためのMasked Token Modeling (MTM)を統合し,SeyTを拡張した。
論文 参考訳(メタデータ) (2023-12-15T04:11:34Z) - Scaling Data Generation in Vision-and-Language Navigation [116.95534559103788]
本稿では,学習のための大規模データ生成に有効なパラダイムを提案する。
我々は、HM3DとGibsonのデータセットから1200以上のフォトリアリスティック環境を適用し、490万の命令軌道対を合成する。
我々の大規模データセットのおかげで、既存のエージェントの性能は(以前のSoTAでは+11%絶対)、単純な模倣学習によってR2Rテストの分割で80%の単ラン成功率で大幅に向上できる。
論文 参考訳(メタデータ) (2023-07-28T16:03:28Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。