論文の概要: Leveraging Deep Learning with Multi-Head Attention for Accurate Extraction of Medicine from Handwritten Prescriptions
- arxiv url: http://arxiv.org/abs/2412.18199v1
- Date: Tue, 24 Dec 2024 06:09:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-25 15:55:49.905506
- Title: Leveraging Deep Learning with Multi-Head Attention for Accurate Extraction of Medicine from Handwritten Prescriptions
- Title(参考訳): 多面的注意による深層学習の活用による手書き処方文からの医薬の正確な抽出
- Authors: Usman Ali, Sahil Ranmbail, Muhammad Nadeem, Hamid Ishfaq, Muhammad Umer Ramzan, Waqas Ali,
- Abstract要約: 本稿では,Mask R-CNN と Transformer-based Optical Character Recognition (TrOCR) を組み合わせた医薬名抽出手法を提案する。
提案手法は標準ベンチマークで1.4%の文字誤り率(CER)を達成した。
- 参考スコア(独自算出の注目度): 1.5430108139561782
- License:
- Abstract: Extracting medication names from handwritten doctor prescriptions is challenging due to the wide variability in handwriting styles and prescription formats. This paper presents a robust method for extracting medicine names using a combination of Mask R-CNN and Transformer-based Optical Character Recognition (TrOCR) with Multi-Head Attention and Positional Embeddings. A novel dataset, featuring diverse handwritten prescriptions from various regions of Pakistan, was utilized to fine-tune the model on different handwriting styles. The Mask R-CNN model segments the prescription images to focus on the medicinal sections, while the TrOCR model, enhanced by Multi-Head Attention and Positional Embeddings, transcribes the isolated text. The transcribed text is then matched against a pre-existing database for accurate identification. The proposed approach achieved a character error rate (CER) of 1.4% on standard benchmarks, highlighting its potential as a reliable and efficient tool for automating medicine name extraction.
- Abstract(参考訳): 手書きの医師処方から薬名を抽出することは、手書きのスタイルや処方の形式が多岐にわたるため困難である。
本稿では,Mask R-CNN と Transformer-based Optical Character Recognition (TrOCR) を組み合わせた医薬名抽出手法を提案する。
パキスタン各地の様々な手書き処方薬を特徴とする新しいデータセットを用いて、異なる手書きスタイルでモデルを微調整した。
Mask R-CNNモデルは処方画像をセグメント化して薬品セクションにフォーカスし、TrOCRモデルはマルチヘッドアテンションと位置埋め込みによって強化され、孤立したテキストを転写する。
転写されたテキストは、既存のデータベースと一致して正確な識別を行う。
提案手法は標準ベンチマークで1.4%の文字誤り率(CER)を達成した。
関連論文リスト
- MIRAGE: Multimodal Identification and Recognition of Annotations in Indian General Prescriptions [1.1650821883155187]
エレクトロニック・メディカル・レコード(EMR)が利用可能であるにもかかわらず、インドの病院は依然として手書きの医療記録に依存している。
手書きのレコードはユニークな課題であり、治療薬とその推奨パターンを認識するために、トレーニングモデルに特別なデータを必要とする。
本手法は薬剤名と服用量を82%の精度で抽出する。
論文 参考訳(メタデータ) (2024-10-13T05:19:09Z) - MedTrinity-25M: A Large-scale Multimodal Dataset with Multigranular Annotations for Medicine [53.01393667775077]
本稿では,医療用大規模マルチモーダルデータセットであるMedTrinity-25Mを紹介する。
10のモダリティで2500万枚以上の画像をカバーしており、65以上の疾患に対する多彩なアノテーションがある。
画像テキストペアの可用性によって制限された既存のアプローチとは異なり、私たちは最初の自動パイプラインを開発しました。
論文 参考訳(メタデータ) (2024-08-06T02:09:35Z) - Pseudo-Prompt Generating in Pre-trained Vision-Language Models for Multi-Label Medical Image Classification [3.1029532920699934]
自然言語処理(NLP)におけるテキスト生成による新しいプロンプト生成手法を提案する。
提案手法はPsPG (Pseudo-Prompt Generating) と呼ばれ,マルチモーダル特徴の事前知識を活かした手法である。
RNNベースのデコーダを特徴とするPSPGは、クラス調整された埋め込みベクター、すなわち擬似プロンプトを自動生成する。
論文 参考訳(メタデータ) (2024-05-10T13:27:32Z) - Weakly supervised information extraction from inscrutable handwritten
document images [14.260994345711385]
弱いラベル付きデータのみを用いて手書き処方薬から医薬名を抽出する複雑な問題に焦点をあてる。
我々はまず、興味のある領域、すなわち医学的ラインを単に弱いラベルから識別することで、この問題を解決する。
市販の最先端手法と比較して, 処方薬から抽出した医薬品名では, 2.5倍の精度が得られた。
論文 参考訳(メタデータ) (2023-06-12T02:22:30Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - A Few Shot Multi-Representation Approach for N-gram Spotting in
Historical Manuscripts [1.2930503923129213]
少数の文字列(N-gram)のスポッティングのための数ショット学習パラダイムを提案する。
我々は,重要なn-gramの認識が語彙依存の軽減につながることを示した。
論文 参考訳(メタデータ) (2022-09-21T15:35:02Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - Letter-level Online Writer Identification [86.13203975836556]
我々は文字レベルのオンラインライタIDという新たな問題に焦点をあてる。
主な課題は、しばしば異なるスタイルで手紙を書くことである。
我々はこの問題をオンライン書記スタイルのばらつき(Var-O-Styles)と呼ぶ。
論文 参考訳(メタデータ) (2021-12-06T07:21:53Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - Weakly Supervised Medication Regimen Extraction from Medical
Conversations [1.4583375893645079]
まず、注釈付き医師と患者との会話のユニークなデータセットを記述し、その後、スパン抽出を行うことができる弱教師付きモデルアーキテクチャを提案する。
本稿では,新しい変圧器を用いた注目スコア機能(TAScore)を提案する。
提案されたTAScoreとFusedmaxプロジェクションの組み合わせは、最も長い共通サブストリングF1の10ポイント増加を実現している。
論文 参考訳(メタデータ) (2020-10-11T18:53:03Z) - Blind Face Restoration via Deep Multi-scale Component Dictionaries [75.02640809505277]
劣化した観測の復元過程をガイドするディープフェイス辞書ネットワーク(DFDNet)を提案する。
DFDNetは高品質な画像から知覚的に重要な顔成分のディープ辞書を生成する。
コンポーネントAdaINは、入力機能と辞書機能の間のスタイルの多様性を取り除くために利用される。
論文 参考訳(メタデータ) (2020-08-02T07:02:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。