論文の概要: Real-Time Currency Detection and Voice Feedback for Visually Impaired Individuals
- arxiv url: http://arxiv.org/abs/2510.20267v1
- Date: Thu, 23 Oct 2025 06:48:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:17.455525
- Title: Real-Time Currency Detection and Voice Feedback for Visually Impaired Individuals
- Title(参考訳): 視覚障害者のリアルタイム周波数検出と音声フィードバック
- Authors: Saraf Anzum Shreya, MD. Abu Ismail Siddique, Sharaf Tasnim,
- Abstract要約: 本稿では,視覚障害者を支援するリアルタイム通貨検出システムを提案する。
提案モデルは、USドル(USD)、ユーロ(EUR)、バングラデシュ高(BDT)の3種類の通貨を表す30種類の紙幣と硬貨を含むデータセットに基づいて訓練される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Technologies like smartphones have become an essential in our daily lives. It has made accessible to everyone including visually impaired individuals. With the use of smartphone cameras, image capturing and processing have become more convenient. With the use of smartphones and machine learning, the life of visually impaired can be made a little easier. Daily tasks such as handling money without relying on someone can be troublesome for them. For that purpose this paper presents a real-time currency detection system designed to assist visually impaired individuals. The proposed model is trained on a dataset containing 30 classes of notes and coins, representing 3 types of currency: US dollar (USD), Euro (EUR), and Bangladeshi taka (BDT). Our approach uses a YOLOv8 nano model with a custom detection head featuring deep convolutional layers and Squeeze-and-Excitation blocks to enhance feature extraction and detection accuracy. Our model has achieved a higher accuracy of 97.73%, recall of 95.23%, f1-score of 95.85% and a mean Average Precision at IoU=0.5 (mAP50(B)) of 97.21\%. Using the voice feedback after the detection would help the visually impaired to identify the currency. This paper aims to create a practical and efficient currency detection system to empower visually impaired individuals independent in handling money.
- Abstract(参考訳): スマートフォンのようなテクノロジーは、私たちの日常生活に欠かせないものになっている。
視覚障害のある人を含め、誰でもアクセス可能になった。
スマートフォンカメラを利用することで、画像のキャプチャと処理がより便利になった。
スマートフォンと機械学習を使用することで、視覚障害者の生活を少し簡単にすることができる。
誰かを頼らずにお金を扱うような日々のタスクは、彼らにとって厄介なことです。
そこで本研究では,視覚障害者を支援するリアルタイム通貨検出システムを提案する。
提案モデルは、USドル(USD)、ユーロ(EUR)、バングラデシュ高(BDT)の3種類の通貨を表す30種類の紙幣と硬貨を含むデータセットに基づいて訓練される。
提案手法では,深い畳み込み層とSqueeze-and-Excitationブロックを備えたカスタム検出ヘッドを備えたYOLOv8ナノモデルを用いて特徴抽出と検出精度を向上させる。
我々のモデルは97.73%の精度、95.23%のリコール、95.85%のf1スコア、IoU=0.5(mAP50(B))の平均精度97.21\%を達成した。
検出後の音声フィードバックを使用することで、視覚障害者が通貨を識別するのに役立ちます。
本稿では,視覚障害者の金銭処理を独立して行うための,実用的で効率的な通貨検出システムを構築することを目的とする。
関連論文リスト
- Development of a Neural Network Model for Currency Detection to aid visually impaired people in Nigeria [0.0]
我々は3,468イメージのカスタムデータセットを構築し、SSDニューラルネットワークモデルのトレーニングに使用しました。
提案システムはナイジェリアの現金を正確に識別し、商業取引を合理化する。
論文 参考訳(メタデータ) (2025-08-25T13:27:27Z) - BD Currency Detection: A CNN Based Approach with Mobile App Integration [1.2535250082638645]
本研究では,畳み込みニューラルネットワーク(CNN)を用いた高度な通貨認識システムを提案する。
50,334の画像からなるデータセットを収集,前処理し,高性能分類に最適化されたCNNモデルをトレーニングするために使用した。
訓練されたモデルは98.5%の精度を達成し、従来の通貨認識手法を抜いた。
論文 参考訳(メタデータ) (2025-02-25T07:13:43Z) - Money Recognition for the Visually Impaired: A Case Study on Sri Lankan Banknotes [0.0]
本研究では,スリランカ通貨紙幣の識別にユーザフレンドリーなスタンドアローンシステムを提案する。
スリランカの通貨紙幣の画像のカスタム作成データセットは、EfficientDetモデルを微調整するために使用された。
このモデルは検証データセットで0.9847 APを達成し、現実世界のシナリオでは極めてよく機能した。
論文 参考訳(メタデータ) (2025-02-20T05:07:46Z) - Uncertainty Estimation for 3D Object Detection via Evidential Learning [63.61283174146648]
本稿では,3次元検出器における鳥の視線表示における明らかな学習損失を利用して,3次元物体検出の不確かさを定量化するためのフレームワークを提案する。
本研究では,これらの不確実性評価の有効性と重要性を,分布外シーンの特定,局所化の不十分な物体の発見,および(偽陰性)検出の欠如について示す。
論文 参考訳(メタデータ) (2024-10-31T13:13:32Z) - Real-time Yemeni Currency Detection [0.49109372384514843]
銀行券の認識は、視覚障害者が直面する大きな問題である。
本稿では,視覚障害者のためのリアルタイムイエメン通貨検出システムを提案する。
論文 参考訳(メタデータ) (2024-06-18T19:57:15Z) - Efficient Verification-Based Face Identification [50.616875565173274]
効率の良いニューラルモデルで顔認証を行う際の問題点を$f$で検討する。
我々のモデルは、23kパラメータと5M浮動小数点演算(FLOPS)しか必要としない、かなり小さな$f$に導かれる。
我々は、6つの顔認証データセットを用いて、我々の手法が最先端のモデルよりも同等か優れていることを示す。
論文 参考訳(メタデータ) (2023-12-20T18:08:02Z) - Banknote Recognition for Visually Impaired People (Case of Ethiopian
note) [0.0]
我々は、データセットで98.9%の分類精度を達成したモデルで、AndroidとIOS互換のモバイルアプリを開発した。
このアプリケーションは、エチオピアの作業言語であるアムハラ語でスキャンされた通貨の種類を示す音声統合機能を備えている。
論文 参考訳(メタデータ) (2022-08-25T19:46:34Z) - Play it by Ear: Learning Skills amidst Occlusion through Audio-Visual
Imitation Learning [62.83590925557013]
我々は視覚と音声の入力から、部分的に観察された操作タスクのセットを学習する。
提案システムは,遠隔操作による実演とオンラインファインタニングを併用することで,これらの課題を学習する。
模擬課題の集合において、我々のシステムは音声を使うことの恩恵を受けており、オンライン介入を用いることで、オフライン模倣学習の成功率を20%向上できることがわかった。
論文 参考訳(メタデータ) (2022-05-30T04:52:58Z) - One-Shot Object Affordance Detection in the Wild [76.46484684007706]
Affordance Detectionは、画像内のオブジェクトの潜在的なアクション可能性を特定することを指す。
我々は、人間の行動目的を推定し、それを転送して、すべての候補画像から共通価格を検出するワンショットアフォーダンス検出ネットワーク(OSAD-Net)を考案する。
複雑なシーンと豊富なアノテーションによって、当社のPADv2データセットは、アベイランス検出メソッドをベンチマークするためのテストベッドとして使用することができます。
論文 参考訳(メタデータ) (2021-08-08T14:53:10Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。