論文の概要: Evaluating Hierarchical Clinical Document Classification Using Reasoning-Based LLMs
- arxiv url: http://arxiv.org/abs/2507.03001v1
- Date: Wed, 02 Jul 2025 00:53:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.517916
- Title: Evaluating Hierarchical Clinical Document Classification Using Reasoning-Based LLMs
- Title(参考訳): Reasoning-based LLMを用いた階層的臨床文書分類の評価
- Authors: Akram Mustafa, Usman Naseem, Mostafa Rahimi Azghadi,
- Abstract要約: 本研究は,大規模言語モデル(LLM)が病院退院サマリーからICD-10コードをどのように分類できるかを評価する。
推論ベースのモデルは一般的に非推論モデルよりも優れており、ジェミニ2.5 Proは全体として最高のパフォーマンスを示した。
- 参考スコア(独自算出の注目度): 7.026393789313748
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study evaluates how well large language models (LLMs) can classify ICD-10 codes from hospital discharge summaries, a critical but error-prone task in healthcare. Using 1,500 summaries from the MIMIC-IV dataset and focusing on the 10 most frequent ICD-10 codes, the study tested 11 LLMs, including models with and without structured reasoning capabilities. Medical terms were extracted using a clinical NLP tool (cTAKES), and models were prompted in a consistent, coder-like format. None of the models achieved an F1 score above 57%, with performance dropping as code specificity increased. Reasoning-based models generally outperformed non-reasoning ones, with Gemini 2.5 Pro performing best overall. Some codes, such as those related to chronic heart disease, were classified more accurately than others. The findings suggest that while LLMs can assist human coders, they are not yet reliable enough for full automation. Future work should explore hybrid methods, domain-specific model training, and the use of structured clinical data.
- Abstract(参考訳): 本研究では,大規模言語モデル(LLM)が病院退院サマリーからICD-10コードをどのように分類できるかを評価する。
MIMIC-IVデータセットから1,500のサマリーを抽出し、最も頻繁な10個のICD-10コードに焦点をあてて、構造化推論能力のあるモデルを含む11個のLCMを試験した。
医療用語は臨床用NLPツール(cTAKES)を用いて抽出され、モデルが一貫したコーダライクな形式で誘導された。
いずれのモデルもF1スコアは57%を超えなかった。
推論ベースのモデルは一般的に非推論モデルよりも優れており、ジェミニ2.5 Proは全体として最高のパフォーマンスを示した。
慢性心疾患などいくつかの法典は、他の法典よりも正確に分類された。
この結果は、LLMは人間のコーダーを補助できるが、完全な自動化には十分ではないことを示唆している。
今後は、ハイブリッド手法、ドメイン固有モデルトレーニング、構造化された臨床データの利用について検討する。
関連論文リスト
- In-Context Learning for Label-Efficient Cancer Image Classification in Oncology [1.741659712094955]
In-context Learning (ICL) は、ドメイン固有の診断タスクに対するモデル再トレーニングの実用的な代替手段である。
視覚言語モデル(VLM)-Paligemma, CLIP, ALIGN, GPT-4o の評価を行った。
ICLは、サイズが小さいにもかかわらず競争力の向上を示し、計算に制約のある臨床環境への展開の可能性を示した。
論文 参考訳(メタデータ) (2025-05-08T20:49:01Z) - Can GPT-3.5 Generate and Code Discharge Summaries? [45.633849969788315]
ICD-10のコード記述リストに基づいて,9,606個の放電サマリーを生成し,符号化した。
ニューラルネットワークモデルはベースラインと拡張データに基づいて訓練された。
マイクロF1スコアとマクロF1スコアを全コードセット、生成コードおよびそれらの家族について報告する。
論文 参考訳(メタデータ) (2024-01-24T15:10:13Z) - Automated clinical coding using off-the-shelf large language models [10.365958121087305]
診断用ICD符号を患者病院入院に割り当てる作業は、典型的には、熟練した人間のコーダーによって行われる。
自動ICD符号化への取り組みは、教師付きディープラーニングモデルによって支配されている。
本研究では,既製の事前学習型大規模言語モデルを活用し,実用的ソリューションを開発する。
論文 参考訳(メタデータ) (2023-10-10T11:56:48Z) - Automated Medical Coding on MIMIC-III and MIMIC-IV: A Critical Review
and Replicability Study [60.56194508762205]
我々は、最先端の医療自動化機械学習モデルを再現し、比較し、分析する。
その結果, 弱い構成, サンプル化の不十分さ, 評価の不十分さなどにより, いくつかのモデルの性能が低下していることが判明した。
再生モデルを用いたMIMIC-IVデータセットの総合評価を行った。
論文 参考訳(メタデータ) (2023-04-21T11:54:44Z) - Do We Still Need Clinical Language Models? [15.023633270864675]
比較的小さな専門的な臨床モデルでは、コンテキスト内学習のアプローチが大幅に優れていることを示す。
physioNet Credentialed Health Dataライセンスとデータ使用契約の下で使用されるコードとモデルをリリースします。
論文 参考訳(メタデータ) (2023-02-16T05:08:34Z) - ICDBigBird: A Contextual Embedding Model for ICD Code Classification [71.58299917476195]
文脈単語埋め込みモデルは、複数のNLPタスクにおいて最先端の結果を得た。
ICDBigBirdは、Graph Convolutional Network(GCN)を統合するBigBirdベースのモデルである。
ICD分類作業におけるBigBirdモデルの有効性を実世界の臨床データセットで実証した。
論文 参考訳(メタデータ) (2022-04-21T20:59:56Z) - Collaborative residual learners for automatic icd10 prediction using
prescribed medications [45.82374977939355]
本稿では,処方用データのみを用いたicd10符号の自動予測のための協調残差学習モデルを提案する。
平均精度0.71および0.57のマルチラベル分類精度、F1スコア0.57および0.38の0.73および0.44の精度を取得し、患者および外来データセットの主診断をそれぞれ予測します。
論文 参考訳(メタデータ) (2020-12-16T07:07:27Z) - Ensemble model for pre-discharge icd10 coding prediction [45.82374977939355]
正確なコード予測のための複数の臨床データソースを組み込んだアンサンブルモデルを提案する。
平均精度は0.73および0.58、F1スコアは0.56および0.35、患者および外来データセットの主診断予測では0.71および0.4のマルチラベル分類精度を得る。
論文 参考訳(メタデータ) (2020-12-16T07:02:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。