論文の概要: Automated Detection of Clinical Entities in Lung and Breast Cancer Reports Using NLP Techniques
- arxiv url: http://arxiv.org/abs/2505.09794v1
- Date: Wed, 14 May 2025 20:44:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 22:29:06.102454
- Title: Automated Detection of Clinical Entities in Lung and Breast Cancer Reports Using NLP Techniques
- Title(参考訳): 肺癌および乳癌におけるNLP法による臨床組織の自動検出
- Authors: J. Moreno-Casanova, J. M. Auñón, A. Mártinez-Pérez, M. E. Pérez-Martínez, M. E. Gas-López,
- Abstract要約: 我々は,その頻度が高く,公衆衛生に重大な影響を及ぼすため,肺癌と乳癌に注目する。
データ抽出の精度と効率を向上させるため、GMVのNLPツールuQueryを利用する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Research projects, including those focused on cancer, rely on the manual extraction of information from clinical reports. This process is time-consuming and prone to errors, limiting the efficiency of data-driven approaches in healthcare. To address these challenges, Natural Language Processing (NLP) offers an alternative for automating the extraction of relevant data from electronic health records (EHRs). In this study, we focus on lung and breast cancer due to their high incidence and the significant impact they have on public health. Early detection and effective data management in both types of cancer are crucial for improving patient outcomes. To enhance the accuracy and efficiency of data extraction, we utilized GMV's NLP tool uQuery, which excels at identifying relevant entities in clinical texts and converting them into standardized formats such as SNOMED and OMOP. uQuery not only detects and classifies entities but also associates them with contextual information, including negated entities, temporal aspects, and patient-related details. In this work, we explore the use of NLP techniques, specifically Named Entity Recognition (NER), to automatically identify and extract key clinical information from EHRs related to these two cancers. A dataset from Health Research Institute Hospital La Fe (IIS La Fe), comprising 200 annotated breast cancer and 400 lung cancer reports, was used, with eight clinical entities manually labeled using the Doccano platform. To perform NER, we fine-tuned the bsc-bio-ehr-en3 model, a RoBERTa-based biomedical linguistic model pre-trained in Spanish. Fine-tuning was performed using the Transformers architecture, enabling accurate recognition of clinical entities in these cancer types. Our results demonstrate strong overall performance, particularly in identifying entities like MET and PAT, although challenges remain with less frequent entities like EVOL.
- Abstract(参考訳): がんに焦点を当てたプロジェクトを含む研究プロジェクトは、臨床報告から手動で情報を抽出することに依存している。
このプロセスは時間がかかり、エラーを起こしやすいため、医療におけるデータ駆動アプローチの効率が制限される。
これらの課題に対処するため、自然言語処理(NLP)は、電子健康記録(EHR)から関連するデータの抽出を自動化する代替手段を提供する。
本研究では,その頻度が高く,公衆衛生への影響が大きい肺がんと乳癌に焦点を当てた。
両方の種類のがんの早期発見と効果的なデータ管理は、患者の予後を改善するために不可欠である。
データ抽出の精度と効率を向上させるため,GMV の NLP ツール uQuery を用いて臨床テキスト中の関連エンティティを抽出し,SNOMED や OMOP などの標準化フォーマットに変換する。
uQueryはエンティティを検出して分類するだけでなく、否定されたエンティティ、時間的側面、患者に関連する詳細など、コンテキスト情報と関連付ける。
本研究では,NLP技術,特に名前付きエンティティ認識(NER)を用いて,これらの2つのがんに関連するEHRから重要な臨床情報を自動同定し抽出する方法について検討する。
乳がん200例と肺がん400例の報告を含むHealth Research Institute Hospital La Fe (IIS La Fe) のデータセットを使用し、ドッカノプラットフォームを使用して8つの臨床的実体を手動でラベル付けした。
NERを実現するために、スペイン語で事前訓練されたRoBERTaベースの生物医学言語モデルであるbsc-bio-ehr-en3モデルを微調整した。
微調整はTransformersアーキテクチャを用いて行われ、これらのがんタイプの臨床的実体の正確な認識を可能にした。
私たちの結果は、特にMETやPATのようなエンティティを識別する上で、全体的なパフォーマンスを強く示していますが、EVOLのような頻度の低いエンティティでは課題が残っています。
関連論文リスト
- Natural Language Processing for Analyzing Electronic Health Records and Clinical Notes in Cancer Research: A Review [1.3966247773236926]
本総説は, がん研究における自然言語処理(NLP)の応用を電子健康記録(EHR)と臨床ノートを用いて分析することを目的とする。
データ抽出には、研究の特徴、がんの種類、NLP方法論、データセット情報、パフォーマンス指標、課題、今後の方向性が含まれていた。
論文 参考訳(メタデータ) (2024-10-29T16:17:07Z) - Boosting Medical Image-based Cancer Detection via Text-guided Supervision from Reports [68.39938936308023]
本研究では, 高精度ながん検出を実現するための新しいテキスト誘導学習法を提案する。
本手法は,大規模プレトレーニングVLMによる臨床知識の活用により,一般化能力の向上が期待できる。
論文 参考訳(メタデータ) (2024-05-23T07:03:38Z) - Classifying Cancer Stage with Open-Source Clinical Large Language Models [0.35998666903987897]
オープンソースの臨床大言語モデル(LLMs)は、実世界の病理報告から病理組織学的腫瘍-リンパ節転移(pTNM)のステージング情報を抽出することができる。
以上より, LLMは腫瘍 (T) 分類においてサブパーパフォーマンスを示すが, プロンプト戦略の適切な適用により, 転移 (M) では同等の性能を示し, Node (N) 分類では性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-04-02T02:30:47Z) - Personalised Drug Identifier for Cancer Treatment with Transformers
using Auxiliary Information [5.2992434144875515]
がんは、臨床と経済の負担が増大しているため、依然としてグローバルな課題である。
ゲノムプロファイリングは 臨床診断パネルの一部になりつつある
このようなパネルを効果的に活用するには、厳密な薬物反応予測(英語版)モデルが必要である。
現在シンガポールの国立大学病院で実施されており,臨床試験で評価されている治療推薦システム(TRS)の設計について紹介する。
論文 参考訳(メタデータ) (2024-02-16T10:29:25Z) - A new algorithm for Subgroup Set Discovery based on Information Gain [58.720142291102135]
Information Gained Subgroup Discovery (IGSD)は、パターン発見のための新しいSDアルゴリズムである。
IGSDと最先端の2つのSDアルゴリズム(FSSDとSSD++)を比較した。
IGSDはFSSDやSSD++よりもOR値が優れており、パターンとターゲットへの依存度が高い。
論文 参考訳(メタデータ) (2023-07-26T21:42:34Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z) - Does Synthetic Data Generation of LLMs Help Clinical Text Mining? [51.205078179427645]
臨床テキストマイニングにおけるOpenAIのChatGPTの可能性を検討する。
本稿では,高品質な合成データを大量に生成する新たな学習パラダイムを提案する。
提案手法により,下流タスクの性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-03-08T03:56:31Z) - A Marker-based Neural Network System for Extracting Social Determinants
of Health [12.6970199179668]
健康の社会的決定因子(SDoH)は、患者の医療の質と格差を左右する。
多くのSDoHアイテムは、電子健康記録の構造化形式でコード化されていない。
我々は,臨床ノートから自動的にSDoH情報を抽出する,名前付きエンティティ認識(NER),関係分類(RC),テキスト分類手法を含む多段階パイプラインを探索する。
論文 参考訳(メタデータ) (2022-12-24T18:40:23Z) - Intelligent Sight and Sound: A Chronic Cancer Pain Dataset [74.77784420691937]
本稿では,Intelligent Sight and Sound (ISS) 臨床試験の一環として収集された,最初の慢性ガン痛データセットを紹介する。
これまで収集されたデータは29の患者、509のスマートフォンビデオ、189,999のフレーム、そして自己報告された感情と活動の痛みのスコアから成っている。
静的画像とマルチモーダルデータを用いて、自己報告された痛みレベルを予測する。
論文 参考訳(メタデータ) (2022-04-07T22:14:37Z) - Lung Cancer Lesion Detection in Histopathology Images Using Graph-Based
Sparse PCA Network [93.22587316229954]
ヘマトキシリンとエオシン(H&E)で染色した組織学的肺スライドにおける癌病変の自動検出のためのグラフベーススパース成分分析(GS-PCA)ネットワークを提案する。
我々は,SVM K-rasG12D肺がんモデルから得られたH&Eスライダーの精度・リコール率,Fスコア,谷本係数,レシーバ演算子特性(ROC)の曲線下領域を用いて,提案アルゴリズムの性能評価を行った。
論文 参考訳(メタデータ) (2021-10-27T19:28:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。