論文の概要: Zero-Shot ATC Coding with Large Language Models for Clinical Assessments
- arxiv url: http://arxiv.org/abs/2412.07743v1
- Date: Tue, 10 Dec 2024 18:43:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 14:37:36.216709
- Title: Zero-Shot ATC Coding with Large Language Models for Clinical Assessments
- Title(参考訳): 大言語モデルを用いたゼロショットATC符号化による臨床評価
- Authors: Zijian Chen, John-Michael Gamble, Micaela Jantzi, John P. Hirdes, Jimmy Lin,
- Abstract要約: 解剖学的治療化学符号を処方記録に手動で割り当てることは重大なボトルネックである。
ローカル展開可能な大規模言語モデル(LLM)を用いた実践的アプローチを開発する。
GPT-4oを精度天井とし,プライバシに敏感なデプロイメントに適したオープンソースのLlamaモデルの開発に注力する。
- 参考スコア(独自算出の注目度): 40.72273945475456
- License:
- Abstract: Manual assignment of Anatomical Therapeutic Chemical (ATC) codes to prescription records is a significant bottleneck in healthcare research and operations at Ontario Health and InterRAI Canada, requiring extensive expert time and effort. To automate this process while maintaining data privacy, we develop a practical approach using locally deployable large language models (LLMs). Inspired by recent advances in automatic International Classification of Diseases (ICD) coding, our method frames ATC coding as a hierarchical information extraction task, guiding LLMs through the ATC ontology level by level. We evaluate our approach using GPT-4o as an accuracy ceiling and focus development on open-source Llama models suitable for privacy-sensitive deployment. Testing across Health Canada drug product data, the RABBITS benchmark, and real clinical notes from Ontario Health, our method achieves 78% exact match accuracy with GPT-4o and 60% with Llama 3.1 70B. We investigate knowledge grounding through drug definitions, finding modest improvements in accuracy. Further, we show that fine-tuned Llama 3.1 8B matches zero-shot Llama 3.1 70B accuracy, suggesting that effective ATC coding is feasible with smaller models. Our results demonstrate the feasibility of automatic ATC coding in privacy-sensitive healthcare environments, providing a foundation for future deployments.
- Abstract(参考訳): 解剖学的治療化学(ATC)符号を処方記録に手動で割り当てることは、オンタリオ・ヘルスとインターレージ・カナダにおける医療研究と運用において重要なボトルネックであり、広範囲の専門的な時間と努力を必要とする。
データプライバシを維持しながらこのプロセスを自動化するために,ローカルにデプロイ可能な大規模言語モデル(LLM)を用いた実践的アプローチを開発した。
近年の国際疾患分類 (ICD) コーディングの進歩に触発されて, 階層的情報抽出タスクとしてのATC符号化を, ATCオントロジーレベルをレベル別に導いた。
GPT-4oを精度天井とし,プライバシに敏感なデプロイメントに適したオープンソースのLlamaモデルの開発に注力する。
カナダ保健省の医薬品製品データ、RABBITSベンチマーク、およびオンタリオ州保健省の実際の臨床ノートを調べたところ、GPT-4oと正確なマッチング精度は78%、Llama 3.1 70Bでは60%であった。
薬物定義を基礎とした知識の調査を行い,精度の質的な改善を見いだした。
さらに、微調整Llama 3.1 8BはゼロショットLlama 3.1 70Bの精度と一致し、より小さなモデルで効果的なATC符号化が可能であることが示唆された。
本結果は,プライバシに敏感な医療環境におけるATC自動コーディングの実現可能性を示し,今後の展開の基盤を提供する。
関連論文リスト
- Practical Design and Benchmarking of Generative AI Applications for Surgical Billing and Coding [27.93881956637585]
医療請求とコーディングのための生成AIツールを開発するための戦略を提案する。
本研究は、ドメイン固有データに基づいて微調整された小さなモデルが、より大規模な消費者モデルと同等に機能することを示す。
論文 参考訳(メタデータ) (2025-01-07T17:11:12Z) - Unlocking Historical Clinical Trial Data with ALIGN: A Compositional Large Language Model System for Medical Coding [44.01429184037945]
自動ゼロショット医療符号化のための新しい合成LLMシステムであるALIGNを紹介する。
我々は、ALIGNを解剖学的治療化学(ATC)と医学史用語に調和させ、MedDRA(Medicical Dictionary for Regulatory Activity)コードに評価した。
論文 参考訳(メタデータ) (2024-11-20T09:59:12Z) - Novel Development of LLM Driven mCODE Data Model for Improved Clinical Trial Matching to Enable Standardization and Interoperability in Oncology Research [0.15346678870160887]
がんの費用は2023年だけで2080億ドルを超える。
腫瘍学における臨床試験および臨床医療に関する伝統的な手法は、しばしば手作業、時間、データ駆動アプローチの欠如である。
本稿では,がん領域の標準化,相互運用,交換を効率化するための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2024-10-18T17:31:35Z) - Step-DPO: Step-wise Preference Optimization for Long-chain Reasoning of LLMs [54.05511925104712]
本稿では,Step-DPOと呼ばれるシンプルで効果的でデータ効率のよい手法を提案する。
Step-DPOは、個々の推論ステップを、論理的に回答を評価するのではなく、優先最適化の単位として扱う。
以上の結果から,70B パラメータ以上のモデルでは,10K の選好データペアと500 Step-DPO トレーニングステップ以下では,MATH の精度が約3%向上する可能性が示唆された。
論文 参考訳(メタデータ) (2024-06-26T17:43:06Z) - Zero-Shot ECG Classification with Multimodal Learning and Test-time Clinical Knowledge Enhancement [10.611952462532908]
マルチモーダルECG表現学習(MERL)は、テキストプロンプトでゼロショットECG分類を行うことができる。
本稿では,外部の専門知識データベースを利用した臨床知識向上技術(CKEPE)アプローチを提案する。
MERLは、ゼロショット分類における平均75.2%のAUCスコアを(トレーニングデータなしで)達成し、10%の注釈付きトレーニングデータを持つ線形プローブeSSLメソッドよりも3.2%高い。
論文 参考訳(メタデータ) (2024-03-11T12:28:55Z) - Cloud-based Federated Learning Framework for MRI Segmentation [0.10878040851637999]
本稿では,農村医療施設における脳組織セグメンテーションに適した新しい枠組みを提案する。
このフレームワークは、田園部医療施設にローカルに展開する改良モデル(RM)と密接な強化学習環境を採用している。
我々は,限られたデータセットでネットワークをトレーニングし,大幅な性能向上を観察することで,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-03-01T03:39:17Z) - MedAlign: A Clinician-Generated Dataset for Instruction Following with
Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。
医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。
我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文 参考訳(メタデータ) (2023-08-27T12:24:39Z) - Active learning for medical code assignment [55.99831806138029]
臨床領域における多ラベルテキスト分類におけるアクティブラーニング(AL)の有効性を示す。
MIMIC-IIIデータセットにICD-9コードを自動的に割り当てるために、よく知られたALメソッドのセットを適用します。
その結果、有益なインスタンスの選択は、大幅に減少したトレーニングセットで満足のいく分類を提供する。
論文 参考訳(メタデータ) (2021-04-12T18:11:17Z) - ECG-DelNet: Delineation of Ambulatory Electrocardiograms with Mixed
Quality Labeling Using Neural Networks [69.25956542388653]
ディープラーニング(DL)アルゴリズムは、学術的、産業的にも重くなっている。
セグメンテーションフレームワークにECGの検出とデライン化を組み込むことにより、低解釈タスクにDLをうまく適用できることを実証する。
このモデルは、PhyloNetのQTデータベースを使用して、105個の増幅ECG記録から訓練された。
論文 参考訳(メタデータ) (2020-05-11T16:29:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。