Fugu-MT 論文翻訳(概要): Fine-Tuning In-House Large Language Models to Infer Differential Diagnosis from Radiology Reports

論文の概要: Fine-Tuning In-House Large Language Models to Infer Differential Diagnosis from Radiology Reports

arxiv url: http://arxiv.org/abs/2410.09234v1
Date: Fri, 11 Oct 2024 20:16:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-30 15:33:30.239411
Title: Fine-Tuning In-House Large Language Models to Infer Differential Diagnosis from Radiology Reports
Title（参考訳）: ラジオグラフィーによる鑑別診断のための家庭内インハウス大言語モデル
Authors: Luoyao Chen, Revant Teotia, Antonio Verdone, Aidan Cardall, Lakshay Tyagi, Yiqiu Shen, Sumit Chopra,
Abstract要約: 本研究は, 放射線学報告と鑑別診断に適した社内LPMの開発パイプラインを提案する。 GPT-4と同等の92.1%のF1スコアが得られた。
参考スコア（独自算出の注目度）: 1.5972172622800358
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Radiology reports summarize key findings and differential diagnoses derived from medical imaging examinations. The extraction of differential diagnoses is crucial for downstream tasks, including patient management and treatment planning. However, the unstructured nature of these reports, characterized by diverse linguistic styles and inconsistent formatting, presents significant challenges. Although proprietary large language models (LLMs) such as GPT-4 can effectively retrieve clinical information, their use is limited in practice by high costs and concerns over the privacy of protected health information (PHI). This study introduces a pipeline for developing in-house LLMs tailored to identify differential diagnoses from radiology reports. We first utilize GPT-4 to create 31,056 labeled reports, then fine-tune open source LLM using this dataset. Evaluated on a set of 1,067 reports annotated by clinicians, the proposed model achieves an average F1 score of 92.1\%, which is on par with GPT-4 (90.8\%). Through this study, we provide a methodology for constructing in-house LLMs that: match the performance of GPT, reduce dependence on expensive proprietary models, and enhance the privacy and security of PHI.
Abstract（参考訳）: 医学的画像検査から得られた重要な所見と鑑別診断を概説した。患者管理や治療計画などの下流業務において, 鑑別診断の抽出が重要である。しかし、これらのレポートの非構造化の性質は、多様な言語スタイルと一貫性のないフォーマットによって特徴づけられ、重大な課題を呈している。 GPT-4のようなプロプライエタリな大規模言語モデル(LLM)は、臨床情報を効果的に取得することができるが、それらの使用は、保護された健康情報(PHI)のプライバシーに関する高コストと懸念により、実際には制限されている。本研究は, 放射線学報告と鑑別診断に適した社内LPMの開発パイプラインを提案する。まず GPT-4 を用いて 31,056 のラベル付きレポートを作成し,そのデータセットを用いてオープンソース LLM を微調整する。 GPT-4 (90.8\%)と同等のF1スコアを平均92.1\%とする。本研究では,GPTの性能に適合し,高価なプロプライエタリモデルへの依存を低減し,PHIのプライバシとセキュリティを向上する,社内LCMを構築するための方法論を提案する。

関連論文リスト

A Federated and Parameter-Efficient Framework for Large Language Model Training in Medicine [59.78991974851707]
大規模言語モデル(LLM)は、質問応答や診断など、医療ベンチマークにおいて強力なパフォーマンスを示している。ほとんどの医療用LDMは、異種システムの一般化性と安全性の制限に直面している単一の機関のデータに基づいて訓練されている。本稿では, LLMを医療応用に適用するためのモデルに依存しない, パラメータ効率のよいフェデレーション学習フレームワークを提案する。
論文参考訳（メタデータ） (2026-01-29T18:48:21Z)
CaseReportBench: An LLM Benchmark Dataset for Dense Information Extraction in Clinical Case Reports [4.477840500181267]
IEMに着目したケースレポートの高密度情報抽出のためのエキスパートアノテートデータセットであるCaseReportBenchを紹介する。我々は、カテゴリ固有のプロンプトやサブヘッダーによるデータ統合のような新しいアプローチを導入し、様々なモデルとプロンプト戦略を評価する。臨床評価の結果,LSMは症例報告から臨床的に関連性のある詳細を抽出し,稀な疾患の診断と管理を支援することが示唆された。
論文参考訳（メタデータ） (2025-05-22T20:21:32Z)
MedCaseReasoning: Evaluating and learning diagnostic reasoning from clinical case reports [49.00805568780791]
MedCaseReasoningはLarge Language Models(LLM)を評価するための最初のオープンアクセスデータセットである。データセットには14,489の診断的質問・回答ケースが含まれており、それぞれに詳細な推論文がペアリングされている。我々は,MedCaseReasoning上での最先端の推論LPMを評価し,診断と推論に重大な欠点を見出した。
論文参考訳（メタデータ） (2025-05-16T22:34:36Z)
Paging Dr. GPT: Extracting Information from Clinical Notes to Enhance Patient Predictions [0.25165775267615204]
GPT-4o-mini (ChatGPT) による患者に対する簡単な臨床質問に対する回答が患者レベルの死亡予測にどう役立つかを検討する。 MIMIC-IV Noteデータセットにおける14,011件の初診データや心血管集中治療ユニットのデータを用いて,GPT応答をロジスティック回帰モデルにおける入力特徴として用いた透明なフレームワークを実装した。
論文参考訳（メタデータ） (2025-04-14T17:41:45Z)
Leveraging Multimodal Models for Enhanced Neuroimaging Diagnostics in Alzheimer's Disease [0.7696359453385685]
本稿では,OASIS-4データセットからの構造化データに基づいて,GPT-4o-miniを用いた総合診断レポートを生成する。学習と検証のための基礎的真実として合成レポートを用いて,データセットの画像から直接神経学的レポートを生成した。提案法はBLEU-4スコアが0.1827、ROUGE-Lスコアが0.3719、METEORスコアが0.4163であり、臨床的に関連性があり正確な診断報告を生成する可能性を示した。
論文参考訳（メタデータ） (2024-11-12T15:28:06Z)
BURExtract-Llama: An LLM for Clinical Concept Extraction in Breast Ultrasound Reports [9.739220217225435]
本研究は,放射線学報告から臨床情報を抽出する社内LCMを開発するためのパイプラインを提案する。まず、GPT-4を使用して小さなラベル付きデータセットを作成し、それからその上にLlama3-8Bモデルを微調整します。本研究は, GPT-4の性能だけでなく, コスト削減やデータプライバシの向上などを実現する社内LCMの実現可能性を示すものである。
論文参考訳（メタデータ） (2024-08-21T04:33:05Z)
Assessing and Enhancing Large Language Models in Rare Disease Question-answering [64.32570472692187]
本稿では,レアな疾患の診断におけるLarge Language Models (LLMs) の性能を評価するために,レアな疾患問合せデータセット(ReDis-QA)を導入する。 ReDis-QAデータセットでは1360の高品質な質問応答ペアを収集し,205の稀な疾患をカバーした。その後、いくつかのオープンソースのLCMをベンチマークし、希少疾患の診断がこれらのモデルにとって重要な課題であることを示した。実験の結果,ReCOPは,ReDis-QAデータセット上でのLCMの精度を平均8%向上できることがわかった。
論文参考訳（メタデータ） (2024-08-15T21:09:09Z)
MGH Radiology Llama: A Llama 3 70B Model for Radiology [50.42811030970618]
本稿では,高度な放射線学に焦点を当てた大規模言語モデルMGH Radiology Llamaを提案する。 Llama 3 70Bモデルを使用して開発され、Radiology-GPTやRadiology-Llama2といった従来のドメイン固有モデルをベースにしている。従来の指標とGPT-4に基づく評価の両方を取り入れた評価では,汎用LLMよりも高い性能を示す。
論文参考訳（メタデータ） (2024-08-13T01:30:03Z)
Classifying Cancer Stage with Open-Source Clinical Large Language Models [0.35998666903987897]
オープンソースの臨床大言語モデル(LLMs)は、実世界の病理報告から病理組織学的腫瘍-リンパ節転移(pTNM)のステージング情報を抽出することができる。以上より, LLMは腫瘍 (T) 分類においてサブパーパフォーマンスを示すが, プロンプト戦略の適切な適用により, 転移 (M) では同等の性能を示し, Node (N) 分類では性能が向上することが示唆された。
論文参考訳（メタデータ） (2024-04-02T02:30:47Z)
Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。評価のために,GPT-4に基づく実測値CheXpromptを提案する。 LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文参考訳（メタデータ） (2024-03-12T18:12:02Z)
Leveraging Professional Radiologists' Expertise to Enhance LLMs' Evaluation for Radiology Reports [22.599250713630333]
提案手法は,Large Language Models (LLMs) を用いた専門的放射線技師の専門知識を相乗化する。我々のアプローチは、LLM評価を放射線学の基準と整合させ、人間とAIが生成したレポートの詳細な比較を可能にする。実験の結果, 詳細な GPT-4 (5-shot) モデルでは0.48 のスコアが得られ, METEOR のスコアは0.19 を上回った。
論文参考訳（メタデータ） (2024-01-29T21:24:43Z)
Distilling Large Language Models for Matching Patients to Clinical Trials [3.4068841624198942]
近年の大規模言語モデル(LLMs)の成功は、医療分野における彼らの採用の道を開いた。本研究は,患者と臨床の整合性に対するプロプライエタリ (GPT-3.5, GPT-4) とオープンソース LLM (LLAMA 7B, 13B, 70B) の併用性について,最初の系統的検討を行った。この制限された合成データセットを微調整したオープンソースのLLMは、プロプライエタリなデータセットと同等の性能を示した。
論文参考訳（メタデータ） (2023-12-15T17:11:07Z)
ChatRadio-Valuer: A Chat Large Language Model for Generalizable Radiology Report Generation Based on Multi-institution and Multi-system Data [115.0747462486285]
ChatRadio-Valuerは、一般化可能な表現を学習する自動放射線学レポート生成のための調整されたモデルである。本研究で利用した臨床データセットは,textbf332,673の顕著な総計を含む。 ChatRadio-Valuerは、最先端のモデル、特にChatGPT(GPT-3.5-Turbo)やGPT-4などより一貫して優れている。
論文参考訳（メタデータ） (2023-10-08T17:23:17Z)
Improving Multiple Sclerosis Lesion Segmentation Across Clinical Sites: A Federated Learning Approach with Noise-Resilient Training [75.40980802817349]
深層学習モデルは、自動的にMS病変を分節する約束を示しているが、正確な注釈付きデータの不足は、この分野の進歩を妨げている。我々は,MS病変の不均衡分布とファジィ境界を考慮したDecoupled Hard Label Correction(DHLC)戦略を導入する。また,集約型中央モデルを利用したCELC(Centrally Enhanced Label Correction)戦略も導入した。
論文参考訳（メタデータ） (2023-08-31T00:36:10Z)
Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文参考訳（メタデータ） (2023-05-30T22:05:11Z)
Development and validation of a natural language processing algorithm to pseudonymize documents in the context of a clinical data warehouse [53.797797404164946]
この研究は、この領域でツールやリソースを共有する際に直面する困難を浮き彫りにしている。臨床文献のコーパスを12種類に分類した。私たちは、ディープラーニングモデルと手動ルールの結果をマージして、ハイブリッドシステムを構築します。
論文参考訳（メタデータ） (2023-03-23T17:17:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。