論文の概要: Real-Time Pill Identification for the Visually Impaired Using Deep Learning
- arxiv url: http://arxiv.org/abs/2405.05983v1
- Date: Wed, 8 May 2024 03:18:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-13 17:45:54.524405
- Title: Real-Time Pill Identification for the Visually Impaired Using Deep Learning
- Title(参考訳): ディープラーニングを用いた視覚障害者のリアルタイムピラー同定
- Authors: Bo Dang, Wenchao Zhao, Yufeng Li, Danqing Ma, Qixuan Yu, Elly Yijun Zhu,
- Abstract要約: 本稿では,視覚障害者と視覚障害者をリアルタイムに識別する深層学習型モバイルアプリケーションの開発と実装について検討する。
本アプリケーションは,モバイルデバイス上でのリアルタイム画像処理により,さまざまな薬種を正確に認識し,区別することを目的としている。
- 参考スコア(独自算出の注目度): 31.747327310138314
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The prevalence of mobile technology offers unique opportunities for addressing healthcare challenges, especially for individuals with visual impairments. This paper explores the development and implementation of a deep learning-based mobile application designed to assist blind and visually impaired individuals in real-time pill identification. Utilizing the YOLO framework, the application aims to accurately recognize and differentiate between various pill types through real-time image processing on mobile devices. The system incorporates Text-to- Speech (TTS) to provide immediate auditory feedback, enhancing usability and independence for visually impaired users. Our study evaluates the application's effectiveness in terms of detection accuracy and user experience, highlighting its potential to improve medication management and safety among the visually impaired community. Keywords-Deep Learning; YOLO Framework; Mobile Application; Visual Impairment; Pill Identification; Healthcare
- Abstract(参考訳): モバイル技術の普及は、特に視覚障害のある個人にとって、医療上の課題に対処するためのユニークな機会を提供する。
本稿では,視覚障害者と視覚障害者をリアルタイムに識別する深層学習型モバイルアプリケーションの開発と実装について検討する。
YOLOフレームワークを利用することで、モバイルデバイス上でのリアルタイム画像処理により、さまざまなピルタイプを正確に認識し、区別することを目的としている。
このシステムは、テキスト・トゥ・スピーチ(TTS)を組み込んで、即座に聴覚フィードバックを提供し、視覚障害者のユーザビリティと独立性を向上する。
本研究は, 視覚障害者コミュニティにおける薬剤管理と安全性向上の可能性を明らかにするとともに, 検出精度とユーザエクスペリエンスの観点から, アプリケーションの有効性を評価した。
キーワード深層学習; YOLOフレームワーク; モバイルアプリケーション; 視覚障害; ピル識別; ヘルスケア
関連論文リスト
- Small Object Detection for Indoor Assistance to the Blind using YOLO NAS Small and Super Gradients [0.0]
本稿では,小物体検出の課題に対処して,視覚障害者に対する屋内支援のための新しいアプローチを提案する。
軽量で効率的なオブジェクト検出モデルであるYOLO NAS Smallアーキテクチャを,Super Gradientsトレーニングフレームワークを用いて最適化する手法を提案する。
論文 参考訳(メタデータ) (2024-08-28T05:38:20Z) - Understanding How Blind Users Handle Object Recognition Errors: Strategies and Challenges [10.565823004989817]
本稿では,視覚障害者と物体認識システムとのインタラクションの理解を目的とした,誤りの特定と回避を目的とした研究について述べる。
視覚障害者12名を対象に,視覚障害者12名を対象に調査を行った。
我々は、カメラベースの補助技術やオブジェクト認識システムにおいて、エラーを特定するためのユーザエクスペリエンス、課題、戦略に関する洞察を得た。
論文 参考訳(メタデータ) (2024-08-06T17:09:56Z) - Enhancing Adverse Drug Event Detection with Multimodal Dataset: Corpus Creation and Model Development [12.258245804049114]
有害薬物イベント(ADEs)の採掘は、患者の安全性を高めるために薬物移動において重要な役割を担っている。
従来のADE検出方法は信頼性が高いが遅く、大規模な操作に容易に適応できない。
以前のADE鉱業研究は、視覚的な手がかりを見越して、テキストベースの方法論に焦点を当ててきた。
我々は、ADE関連テキスト情報を視覚支援と組み合わせたMMADE(MultiModal Adverse Drug Event)検出データセットを提案する。
論文 参考訳(メタデータ) (2024-05-24T17:58:42Z) - Self-Explainable Affordance Learning with Embodied Caption [63.88435741872204]
具体的キャプションを具現化したSelf-Explainable Affordance Learning (SEA)を紹介する。
SEAは、ロボットが意図を明確に表現し、説明可能な視覚言語キャプションと視覚能力学習のギャップを埋めることを可能にする。
本稿では, 簡便かつ効率的な方法で, 空き地と自己説明を効果的に組み合わせた新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-04-08T15:22:38Z) - Improve accessibility for Low Vision and Blind people using Machine Learning and Computer Vision [0.0]
このプロジェクトでは、視覚障害者のアクセシビリティ向上に機械学習とコンピュータビジョンを活用する方法について検討する。
このプロジェクトでは、視覚障害者が音声や触覚のフィードバックを受信することで、空間内でのオリエントを支援するモバイルアプリケーションの構築に集中する。
論文 参考訳(メタデータ) (2024-03-24T21:19:17Z) - MLIP: Enhancing Medical Visual Representation with Divergence Encoder
and Knowledge-guided Contrastive Learning [48.97640824497327]
本稿では、画像テキストのコントラスト学習を通じて、言語情報を視覚領域に統合するための案内信号として、ドメイン固有の医療知識を活用する新しいフレームワークを提案する。
我々のモデルには、設計した分散エンコーダによるグローバルコントラスト学習、局所トークン・知識・パッチアライメントコントラスト学習、知識誘導型カテゴリレベルのコントラスト学習、エキスパートナレッジによるコントラスト学習が含まれる。
特に、MLIPは、限られた注釈付きデータであっても最先端の手法を超越し、医療表現学習の進歩におけるマルチモーダル事前学習の可能性を強調している。
論文 参考訳(メタデータ) (2024-02-03T05:48:50Z) - Empowering Visually Impaired Individuals: A Novel Use of Apple Live
Photos and Android Motion Photos [3.66237529322911]
われわれは、Apple Live PhotosとAndroid Motion Photosの技術の使用を提唱している。
以上の結果から,Live PhotosとMotion Photosは,共通の視覚支援タスクにおいて,単フレーム画像よりも優れていた。
論文 参考訳(メタデータ) (2023-09-14T20:46:35Z) - Align, Reason and Learn: Enhancing Medical Vision-and-Language
Pre-training with Knowledge [68.90835997085557]
本稿では,3つの視点から構造化された医療知識を高めるための体系的かつ効果的なアプローチを提案する。
まず、視覚エンコーダと言語エンコーダの表現を知識を通して整列する。
次に,多モード融合モデルに知識を注入し,入力画像とテキストの補足として知識を用いた推論を可能にする。
第3に、知識によって引き起こされるプレテキストタスクを設計することで、画像やテキストの最も重要な情報に重点を置くよう、モデルを指導する。
論文 参考訳(メタデータ) (2022-09-15T08:00:01Z) - Counterfactual Attention Learning for Fine-Grained Visual Categorization
and Re-identification [101.49122450005869]
本稿では,因果推論に基づくより効果的な注意力学習法を提案する。
具体的には,学習した視覚的注意がネットワーク予測に与える影響を分析する。
本手法は,広範囲の粒度認識タスクにおいて評価する。
論文 参考訳(メタデータ) (2021-08-19T14:53:40Z) - Learning Language and Multimodal Privacy-Preserving Markers of Mood from
Mobile Data [74.60507696087966]
精神状態は、先進医療に共通する国でも診断されていない。
人間の行動を監視するための有望なデータソースのひとつは、日々のスマートフォンの利用だ。
本研究では,自殺行動のリスクが高い青少年集団の移動行動のデータセットを用いて,日常生活の行動マーカーについて検討した。
論文 参考訳(メタデータ) (2021-06-24T17:46:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。