論文の概要: Named Entity Recognition in Unstructured Medical Text Documents
- arxiv url: http://arxiv.org/abs/2110.15732v1
- Date: Fri, 15 Oct 2021 03:03:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-07 15:27:59.835016
- Title: Named Entity Recognition in Unstructured Medical Text Documents
- Title(参考訳): 非構造化医用文書における名前付きエンティティ認識
- Authors: Cole Pearson, Naeem Seliya, Rushit Dave
- Abstract要約: 本研究は、医師が作成したIMEレポートから、名前付きエンティティ認識(NER)を用いて、PII情報を識別・エンコードすることを目的とする。
2つの自然言語処理プラットフォームであるOpenNLPとspurCyのNERツールキットを適用し,その精度,リコール,f測定性能を比較した。
両プラットフォームは, 脱識別時に高い性能(f- measures > 0.9)を達成し, 70-30の試験データ分割でトレーニングした SpaCy モデルが最も高性能であることが確認された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Physicians provide expert opinion to legal courts on the medical state of
patients, including determining if a patient is likely to have permanent or
non-permanent injuries or ailments. An independent medical examination (IME)
report summarizes a physicians medical opinion about a patients health status
based on the physicians expertise. IME reports contain private and sensitive
information (Personally Identifiable Information or PII) that needs to be
removed or randomly encoded before further research work can be conducted. In
our study the IME is an orthopedic surgeon from a private practice in the
United States. The goal of this research is to perform named entity recognition
(NER) to identify and subsequently remove/encode PII information from IME
reports prepared by the physician. We apply the NER toolkits of OpenNLP and
spaCy, two freely available natural language processing platforms, and compare
their precision, recall, and f-measure performance at identifying five
categories of PII across trials of randomly selected IME reports using each
models common default parameters. We find that both platforms achieve high
performance (f-measure > 0.9) at de-identification and that a spaCy model
trained with a 70-30 train-test data split is most performant.
- Abstract(参考訳): 医師は、患者が永久的または非永続的な怪我または病気になる可能性があるかどうかを判断するなど、患者の医療状態に関する法律裁判所に専門家の意見を提供する。
ime(independent medical examination)レポートは、医師の専門知識に基づいて、患者の健康状態に関する医師の医療意見を要約する。
IMEレポートには、さらなる研究が行われる前に削除またはランダムにエンコードする必要がある個人的かつ機密性の高い情報(Personally Identible Information, PII)が含まれている。
本研究は,米国における個人診療の整形外科である。
本研究の目的は、医師が作成したIMEレポートから、名前付きエンティティ認識(NER)を用いてPII情報を識別・エンコードすることである。
我々は,OpenNLP と spaCy の NER ツールキットを2つの自由な自然言語処理プラットフォームに適用し,各モデル共通デフォルトパラメータを用いたランダムに選択された IME レポートの試行において,PII の5つのカテゴリを識別する精度,リコール,f 測定性能を比較した。
両プラットフォームとも非識別で高い性能(f-measure > 0.9)を達成し,70~30の列車テストデータスプリットでトレーニングしたspacyモデルが最もパフォーマンスが高いことがわかった。
関連論文リスト
- MediTOD: An English Dialogue Dataset for Medical History Taking with Comprehensive Annotations [23.437292621092823]
本研究は,医学史研究のための英語における医師と患者との対話のデータセットであるMedictoDを紹介する。
医療領域に合わせたアンケートに基づくラベリング手法を考案する。
そして、医療専門家は高品質の包括的なアノテーションでデータセットを作成する。
論文 参考訳(メタデータ) (2024-10-18T06:38:22Z) - Adapting LLMs for the Medical Domain in Portuguese: A Study on Fine-Tuning and Model Evaluation [1.922611370494431]
本研究は,ポルトガル語における医療エージェントとしての大規模言語モデル(LLM)の性能を評価する。
InternLM2モデルは、当初医療データに関するトレーニングを受けており、全体的なパフォーマンスが最高であった。
ChatBodeから派生したDrBodeモデルは、取得した医療知識を壊滅的に忘れる現象を示した。
論文 参考訳(メタデータ) (2024-09-30T19:10:03Z) - RuleAlign: Making Large Language Models Better Physicians with Diagnostic Rule Alignment [54.91736546490813]
本稿では,大規模言語モデルと特定の診断規則との整合性を考慮したルールアラインフレームワークを提案する。
患者と医師間の規則に基づくコミュニケーションを含む医療対話データセットを開発した。
実験の結果,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-08-22T17:44:40Z) - FEDMEKI: A Benchmark for Scaling Medical Foundation Models via Federated Knowledge Injection [83.54960238236548]
FEDMEKIはデータのプライバシーを守るだけでなく、医療基盤モデルの能力を高める。
FEDMEKIは、医療ファンデーションモデルに対して、直接データを公開することなく、幅広い医療知識から学ぶことを可能にする。
論文 参考訳(メタデータ) (2024-08-17T15:18:56Z) - Extrinsically-Focused Evaluation of Omissions in Medical Summarization [9.847304366680772]
大規模言語モデル(LLM)は、医療などの安全クリティカルなアプリケーションにおいて有望であるが、パフォーマンスを定量化する能力は低下している。
MED-OMITは患者の医療記録の要約を評価するための指標として提案される。
論文 参考訳(メタデータ) (2023-11-14T16:46:15Z) - FaMeSumm: Investigating and Improving Faithfulness of Medical
Summarization [20.7585913214759]
現在の要約モデルは、しばしば医療入力テキストに対して不誠実な出力を生成する。
FaMeSummは、医学的知識に基づいて訓練済みの言語モデルを微調整することで、忠実性を改善するためのフレームワークである。
論文 参考訳(メタデータ) (2023-11-03T23:25:53Z) - Retrieval-Augmented and Knowledge-Grounded Language Models for Faithful Clinical Medicine [68.7814360102644]
本稿では,Re$3$Writer法を提案する。
本手法が患者の退院指示生成に有効であることを示す。
論文 参考訳(メタデータ) (2022-10-23T16:34:39Z) - Towards more patient friendly clinical notes through language models and
ontologies [57.51898902864543]
本稿では,単語の単純化と言語モデリングに基づく医療用テキストの自動作成手法を提案する。
我々は,公開医療文のデータセットペアと,臨床医による簡易化版を用いている。
本手法は,医学フォーラムデータに基づく言語モデルを用いて,文法と本来の意味の両方を保存しながら,より単純な文を生成する。
論文 参考訳(メタデータ) (2021-12-23T16:11:19Z) - Semi-Supervised Variational Reasoning for Medical Dialogue Generation [70.838542865384]
医療対話生成には,患者の状態と医師の行動の2つの重要な特徴がある。
医療対話生成のためのエンドツーエンドの変分推論手法を提案する。
行動分類器と2つの推論検出器から構成される医師政策ネットワークは、拡張推論能力のために提案される。
論文 参考訳(メタデータ) (2021-05-13T04:14:35Z) - BiteNet: Bidirectional Temporal Encoder Network to Predict Medical
Outcomes [53.163089893876645]
本稿では,患者の医療旅行におけるコンテキスト依存と時間的関係を捉える,新たな自己注意機構を提案する。
エンド・ツー・エンドの双方向時間エンコーダネットワーク(BiteNet)が患者の旅路の表現を学習する。
実世界のEHRデータセットを用いた2つの教師付き予測と2つの教師なしクラスタリングタスクにおける手法の有効性を評価した。
論文 参考訳(メタデータ) (2020-09-24T00:42:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。