論文の概要: Fine-Tuning In-House Large Language Models to Infer Differential Diagnosis from Radiology Reports
- arxiv url: http://arxiv.org/abs/2410.09234v1
- Date: Fri, 11 Oct 2024 20:16:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 15:33:30.239411
- Title: Fine-Tuning In-House Large Language Models to Infer Differential Diagnosis from Radiology Reports
- Title(参考訳): ラジオグラフィーによる鑑別診断のための家庭内インハウス大言語モデル
- Authors: Luoyao Chen, Revant Teotia, Antonio Verdone, Aidan Cardall, Lakshay Tyagi, Yiqiu Shen, Sumit Chopra,
- Abstract要約: 本研究は, 放射線学報告と鑑別診断に適した社内LPMの開発パイプラインを提案する。
GPT-4と同等の92.1%のF1スコアが得られた。
- 参考スコア(独自算出の注目度): 1.5972172622800358
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Radiology reports summarize key findings and differential diagnoses derived from medical imaging examinations. The extraction of differential diagnoses is crucial for downstream tasks, including patient management and treatment planning. However, the unstructured nature of these reports, characterized by diverse linguistic styles and inconsistent formatting, presents significant challenges. Although proprietary large language models (LLMs) such as GPT-4 can effectively retrieve clinical information, their use is limited in practice by high costs and concerns over the privacy of protected health information (PHI). This study introduces a pipeline for developing in-house LLMs tailored to identify differential diagnoses from radiology reports. We first utilize GPT-4 to create 31,056 labeled reports, then fine-tune open source LLM using this dataset. Evaluated on a set of 1,067 reports annotated by clinicians, the proposed model achieves an average F1 score of 92.1\%, which is on par with GPT-4 (90.8\%). Through this study, we provide a methodology for constructing in-house LLMs that: match the performance of GPT, reduce dependence on expensive proprietary models, and enhance the privacy and security of PHI.
- Abstract(参考訳): 医学的画像検査から得られた重要な所見と鑑別診断を概説した。
患者管理や治療計画などの下流業務において, 鑑別診断の抽出が重要である。
しかし、これらのレポートの非構造化の性質は、多様な言語スタイルと一貫性のないフォーマットによって特徴づけられ、重大な課題を呈している。
GPT-4のようなプロプライエタリな大規模言語モデル(LLM)は、臨床情報を効果的に取得することができるが、それらの使用は、保護された健康情報(PHI)のプライバシーに関する高コストと懸念により、実際には制限されている。
本研究は, 放射線学報告と鑑別診断に適した社内LPMの開発パイプラインを提案する。
まず GPT-4 を用いて 31,056 のラベル付きレポートを作成し,そのデータセットを用いてオープンソース LLM を微調整する。
GPT-4 (90.8\%)と同等のF1スコアを平均92.1\%とする。
本研究では,GPTの性能に適合し,高価なプロプライエタリモデルへの依存を低減し,PHIのプライバシとセキュリティを向上する,社内LCMを構築するための方法論を提案する。
関連論文リスト
- Leveraging Multimodal Models for Enhanced Neuroimaging Diagnostics in Alzheimer's Disease [0.7696359453385685]
本稿では,OASIS-4データセットからの構造化データに基づいて,GPT-4o-miniを用いた総合診断レポートを生成する。
学習と検証のための基礎的真実として合成レポートを用いて,データセットの画像から直接神経学的レポートを生成した。
提案法はBLEU-4スコアが0.1827、ROUGE-Lスコアが0.3719、METEORスコアが0.4163であり、臨床的に関連性があり正確な診断報告を生成する可能性を示した。
論文 参考訳(メタデータ) (2024-11-12T15:28:06Z) - BURExtract-Llama: An LLM for Clinical Concept Extraction in Breast Ultrasound Reports [9.739220217225435]
本研究は,放射線学報告から臨床情報を抽出する社内LCMを開発するためのパイプラインを提案する。
まず、GPT-4を使用して小さなラベル付きデータセットを作成し、それからその上にLlama3-8Bモデルを微調整します。
本研究は, GPT-4の性能だけでなく, コスト削減やデータプライバシの向上などを実現する社内LCMの実現可能性を示すものである。
論文 参考訳(メタデータ) (2024-08-21T04:33:05Z) - Assessing and Enhancing Large Language Models in Rare Disease Question-answering [64.32570472692187]
本稿では,レアな疾患の診断におけるLarge Language Models (LLMs) の性能を評価するために,レアな疾患問合せデータセット(ReDis-QA)を導入する。
ReDis-QAデータセットでは1360の高品質な質問応答ペアを収集し,205の稀な疾患をカバーした。
その後、いくつかのオープンソースのLCMをベンチマークし、希少疾患の診断がこれらのモデルにとって重要な課題であることを示した。
実験の結果,ReCOPは,ReDis-QAデータセット上でのLCMの精度を平均8%向上できることがわかった。
論文 参考訳(メタデータ) (2024-08-15T21:09:09Z) - Classifying Cancer Stage with Open-Source Clinical Large Language Models [0.35998666903987897]
オープンソースの臨床大言語モデル(LLMs)は、実世界の病理報告から病理組織学的腫瘍-リンパ節転移(pTNM)のステージング情報を抽出することができる。
以上より, LLMは腫瘍 (T) 分類においてサブパーパフォーマンスを示すが, プロンプト戦略の適切な適用により, 転移 (M) では同等の性能を示し, Node (N) 分類では性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-04-02T02:30:47Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - Leveraging Professional Radiologists' Expertise to Enhance LLMs'
Evaluation for Radiology Reports [22.599250713630333]
提案手法は,Large Language Models (LLMs) を用いた専門的放射線技師の専門知識を相乗化する。
我々のアプローチは、LLM評価を放射線学の基準と整合させ、人間とAIが生成したレポートの詳細な比較を可能にする。
実験の結果, 詳細な GPT-4 (5-shot) モデルでは0.48 のスコアが得られ, METEOR のスコアは0.19 を上回った。
論文 参考訳(メタデータ) (2024-01-29T21:24:43Z) - Distilling Large Language Models for Matching Patients to Clinical
Trials [3.4068841624198942]
近年の大規模言語モデル(LLMs)の成功は、医療分野における彼らの採用の道を開いた。
本研究は,患者と臨床の整合性に対するプロプライエタリ (GPT-3.5, GPT-4) とオープンソース LLM (LLAMA 7B, 13B, 70B) の併用性について,最初の系統的検討を行った。
この制限された合成データセットを微調整したオープンソースのLLMは、プロプライエタリなデータセットと同等の性能を示した。
論文 参考訳(メタデータ) (2023-12-15T17:11:07Z) - ChatRadio-Valuer: A Chat Large Language Model for Generalizable
Radiology Report Generation Based on Multi-institution and Multi-system Data [115.0747462486285]
ChatRadio-Valuerは、一般化可能な表現を学習する自動放射線学レポート生成のための調整されたモデルである。
本研究で利用した臨床データセットは,textbf332,673の顕著な総計を含む。
ChatRadio-Valuerは、最先端のモデル、特にChatGPT(GPT-3.5-Turbo)やGPT-4などより一貫して優れている。
論文 参考訳(メタデータ) (2023-10-08T17:23:17Z) - Improving Multiple Sclerosis Lesion Segmentation Across Clinical Sites:
A Federated Learning Approach with Noise-Resilient Training [75.40980802817349]
深層学習モデルは、自動的にMS病変を分節する約束を示しているが、正確な注釈付きデータの不足は、この分野の進歩を妨げている。
我々は,MS病変の不均衡分布とファジィ境界を考慮したDecoupled Hard Label Correction(DHLC)戦略を導入する。
また,集約型中央モデルを利用したCELC(Centrally Enhanced Label Correction)戦略も導入した。
論文 参考訳(メタデータ) (2023-08-31T00:36:10Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z) - Development and validation of a natural language processing algorithm to
pseudonymize documents in the context of a clinical data warehouse [53.797797404164946]
この研究は、この領域でツールやリソースを共有する際に直面する困難を浮き彫りにしている。
臨床文献のコーパスを12種類に分類した。
私たちは、ディープラーニングモデルと手動ルールの結果をマージして、ハイブリッドシステムを構築します。
論文 参考訳(メタデータ) (2023-03-23T17:17:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。