論文の概要: Cancer Diagnosis Categorization in Electronic Health Records Using Large Language Models and BioBERT: Model Performance Evaluation Study
- arxiv url: http://arxiv.org/abs/2510.12813v1
- Date: Wed, 08 Oct 2025 16:50:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.317766
- Title: Cancer Diagnosis Categorization in Electronic Health Records Using Large Language Models and BioBERT: Model Performance Evaluation Study
- Title(参考訳): 大規模言語モデルとBioBERTを用いた電子健康記録におけるがん診断分類 : モデル性能評価研究
- Authors: Soheil Hashtarkhani, Rezaur Rashid, Christopher L Brett, Lokesh Chinthala, Fekede Asefa Kumsa, Janet A Zink, Robert L Davis, David L Schwartz, Arash Shaban-Nejad,
- Abstract要約: がん患者3456例のICD (International Classification of Diseases, 436free-text entrys) について, 762例の診断を行った。
モデルは、診断を14の既定のカテゴリに分類する能力で試験された。
GPT-3.5、Gemini、Llamaは両方のフォーマットで全体的なパフォーマンスを低下させた。
- 参考スコア(独自算出の注目度): 0.1625256372381793
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Electronic health records contain inconsistently structured or free-text data, requiring efficient preprocessing to enable predictive health care models. Although artificial intelligence-driven natural language processing tools show promise for automating diagnosis classification, their comparative performance and clinical reliability require systematic evaluation. The aim of this study is to evaluate the performance of 4 large language models (GPT-3.5, GPT-4o, Llama 3.2, and Gemini 1.5) and BioBERT in classifying cancer diagnoses from structured and unstructured electronic health records data. We analyzed 762 unique diagnoses (326 International Classification of Diseases (ICD) code descriptions, 436free-text entries) from 3456 records of patients with cancer. Models were tested on their ability to categorize diagnoses into 14predefined categories. Two oncology experts validated classifications. BioBERT achieved the highest weighted macro F1-score for ICD codes (84.2) and matched GPT-4o in ICD code accuracy (90.8). For free-text diagnoses, GPT-4o outperformed BioBERT in weighted macro F1-score (71.8 vs 61.5) and achieved slightly higher accuracy (81.9 vs 81.6). GPT-3.5, Gemini, and Llama showed lower overall performance on both formats. Common misclassification patterns included confusion between metastasis and central nervous system tumors, as well as errors involving ambiguous or overlapping clinical terminology. Although current performance levels appear sufficient for administrative and research use, reliable clinical applications will require standardized documentation practices alongside robust human oversight for high-stakes decision-making.
- Abstract(参考訳): 電子的な健康記録には、一貫性のない構造化または自由テキストのデータが含まれており、予測医療モデルを可能にするために効率的な事前処理が必要である。
人工知能による自然言語処理ツールは診断分類の自動化を約束するが、それらの比較性能と臨床信頼性は体系的な評価を必要とする。
本研究の目的は,4つの大規模言語モデル (GPT-3.5, GPT-4o, Llama 3.2, Gemini 1.5) とBioBERT (BioBERT) を用いて, 構造的および非構造的電子健康記録データから癌診断の分類を行うことである。
がん患者3456例のICD (International Classification of Diseases, 436free-text entrys) の762例について検討した。
モデルは、診断を14の既定のカテゴリに分類する能力で試験された。
2人の腫瘍学の専門家が分類を検証した。
BioBERTはICD符号の最大重み付きマクロF1スコア(84.2)を達成し、ICD符号の精度90.8でGPT-4oと一致した。
フリーテキスト診断では、GPT-4oは重み付きマクロF1スコア(71.8対61.5)でBioBERTより優れ、精度は81.9対81.6)が若干高かった。
GPT-3.5、Gemini、Llamaは両方のフォーマットで全体的なパフォーマンスを低下させた。
一般的な誤分類パターンには、転移と中枢神経系腫瘍の混同、曖昧性または重複する臨床用語の誤りが含まれていた。
現在のパフォーマンスレベルは、管理や研究に十分であるように見えるが、信頼できる臨床応用には、高い意思決定のための堅牢な人間の監督とともに、標準化されたドキュメントの実践が必要である。
関連論文リスト
- EchoBench: Benchmarking Sycophancy in Medical Large Vision-Language Models [82.43729208063468]
医療用LVLM(Large Vision-Language Models)の最近のベンチマークでは、信頼性と安全性を見越して、リーダボードの精度を強調している。
ユーザが提供した情報を非批判的に反響させる傾向のモデルについて検討する。
医療用LVLMの梅毒を系統的に評価するベンチマークであるEchoBenchを紹介する。
論文 参考訳(メタデータ) (2025-09-24T14:09:55Z) - An Agentic System for Rare Disease Diagnosis with Traceable Reasoning [69.46279475491164]
大型言語モデル(LLM)を用いた最初のまれな疾患診断エージェントシステムであるDeepRareを紹介する。
DeepRareは、まれな疾患の診断仮説を分類し、それぞれに透明な推論の連鎖が伴う。
このシステムは2,919の疾患に対して異常な診断性能を示し、1013の疾患に対して100%の精度を達成している。
論文 参考訳(メタデータ) (2025-06-25T13:42:26Z) - MedHELM: Holistic Evaluation of Large Language Models for Medical Tasks [47.486705282473984]
大規模言語モデル(LLM)は、医学試験においてほぼ完璧なスコアを得る。
これらの評価は、実際の臨床実践の複雑さと多様性を不十分に反映している。
MedHELMは,医療業務におけるLCMの性能を評価するための評価フレームワークである。
論文 参考訳(メタデータ) (2025-05-26T22:55:49Z) - Can Reasoning LLMs Enhance Clinical Document Classification? [7.026393789313748]
大規模言語モデル(LLM)は、このタスクの正確性と効率性において有望な改善を提供する。
本研究では,8つのLDMの性能と一貫性を評価する。4つの推論(Qwen QWQ, Deepseek Reasoner, GPT o3 Mini, Gemini 2.0 Flash Thinking)と4つの非推論(Llama 3.3, GPT 4o Mini, Gemini 2.0 Flash, Deepseek Chat)。
その結果、推論モデルは精度71%(68%)とF1スコア(67%(60%))で非推論モデルを上回った。
論文 参考訳(メタデータ) (2025-04-10T18:00:27Z) - SemioLLM: Evaluating Large Language Models for Diagnostic Reasoning from Unstructured Clinical Narratives in Epilepsy [45.2233252981348]
臨床知識を符号化するための言語モデル(LLM)が示されている。
6つの最先端モデルをベンチマークする評価フレームワークであるSemioLLMを提案する。
ほとんどのLSMは、脳内の発作発生領域の確率的予測を正確かつ確実に生成できることを示す。
論文 参考訳(メタデータ) (2024-07-03T11:02:12Z) - CORAL: Expert-Curated medical Oncology Reports to Advance Language Model
Inference [2.1067045507411195]
大規模言語モデル(LLM)は、最近、様々な医学自然言語処理タスクにおいて印象的なパフォーマンスを示した。
そこで我々は, 患者の特徴, 腫瘍の特徴, 検査, 治療, 時間性などを含む, テキストオンコロジー情報に注釈を付けるための詳細なスキーマを開発した。
GPT-4モデルでは、BLEUスコアが平均0.73、ROUGEスコアが平均0.72、F1スコアが0.51、複雑なタスクが平均68%であった。
論文 参考訳(メタデータ) (2023-08-07T18:03:10Z) - Automated speech- and text-based classification of neuropsychiatric
conditions in a multidiagnostic setting [2.0972270756982536]
音声パターンは神経精神疾患の診断マーカーとして認識されている。
我々は,機械学習モデルと高度なトランスフォーマーモデルの性能を,二進分類と多進分類の両方で検証した。
以上の結果から,二項分類で訓練したモデルは,臨床と非臨床の集団間の一般的な差異のマーカーに依存することが示唆された。
論文 参考訳(メタデータ) (2023-01-13T08:24:21Z) - Natural language processing of MIMIC-III clinical notes for identifying
diagnosis and procedures with neural networks [0.0]
臨床ノートを医療コードにマッピングできる自然言語処理モデルの性能について報告する。
当科では, 最多の救急部臨床ノートデータセットMIMIC IIIに最先端の深層学習法UMMFiTを適用した。
我々のモデルは80.3%と80.5%の精度で上位10の診断と手順を予測できたが、上位50のICD-9符号は70.7%と63.9%の精度で予測された。
論文 参考訳(メタデータ) (2019-12-28T04:05:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。