論文の概要: Leveraging Fine-Tuned Large Language Models for Interpretable Pancreatic Cystic Lesion Feature Extraction and Risk Categorization
- arxiv url: http://arxiv.org/abs/2507.19973v1
- Date: Sat, 26 Jul 2025 15:02:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:56.565657
- Title: Leveraging Fine-Tuned Large Language Models for Interpretable Pancreatic Cystic Lesion Feature Extraction and Risk Categorization
- Title(参考訳): 細管大言語モデルを用いた膵嚢胞性病変の特徴抽出とリスク分類
- Authors: Ebrahim Rasromani, Stella K. Kang, Yanqi Xu, Beisong Liu, Garvit Luhadia, Wan Fung Chui, Felicia L. Pasadyn, Yu Chih Hung, Julie Y. An, Edwin Mathieu, Zehui Gu, Carlos Fernandez-Granda, Ammar A. Javed, Greg D. Sacks, Tamas Gonda, Chenchan Huang, Yiqiu Shen,
- Abstract要約: 放射線検査より膵嚢胞性病変(PCL)の特徴を手動で抽出した。
MRI/CTレポートからPCL特徴を自動的に抽出する大規模言語モデル(LLM)の開発と評価を行う。
- 参考スコア(独自算出の注目度): 9.840625513935343
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Background: Manual extraction of pancreatic cystic lesion (PCL) features from radiology reports is labor-intensive, limiting large-scale studies needed to advance PCL research. Purpose: To develop and evaluate large language models (LLMs) that automatically extract PCL features from MRI/CT reports and assign risk categories based on guidelines. Materials and Methods: We curated a training dataset of 6,000 abdominal MRI/CT reports (2005-2024) from 5,134 patients that described PCLs. Labels were generated by GPT-4o using chain-of-thought (CoT) prompting to extract PCL and main pancreatic duct features. Two open-source LLMs were fine-tuned using QLoRA on GPT-4o-generated CoT data. Features were mapped to risk categories per institutional guideline based on the 2017 ACR White Paper. Evaluation was performed on 285 held-out human-annotated reports. Model outputs for 100 cases were independently reviewed by three radiologists. Feature extraction was evaluated using exact match accuracy, risk categorization with macro-averaged F1 score, and radiologist-model agreement with Fleiss' Kappa. Results: CoT fine-tuning improved feature extraction accuracy for LLaMA (80% to 97%) and DeepSeek (79% to 98%), matching GPT-4o (97%). Risk categorization F1 scores also improved (LLaMA: 0.95; DeepSeek: 0.94), closely matching GPT-4o (0.97), with no statistically significant differences. Radiologist inter-reader agreement was high (Fleiss' Kappa = 0.888) and showed no statistically significant difference with the addition of DeepSeek-FT-CoT (Fleiss' Kappa = 0.893) or GPT-CoT (Fleiss' Kappa = 0.897), indicating that both models achieved agreement levels on par with radiologists. Conclusion: Fine-tuned open-source LLMs with CoT supervision enable accurate, interpretable, and efficient phenotyping for large-scale PCL research, achieving performance comparable to GPT-4o.
- Abstract(参考訳): 背景: 放射線学的所見から膵嚢胞病変(PCL)の特徴を手動で抽出することは, PCL研究の進展に必要な大規模研究を制限し, 労働集約的である。
目的:MRI/CTレポートからPCL特徴を自動的に抽出し,ガイドラインに基づいてリスクカテゴリを割り当てる大規模言語モデル(LLM)の開発と評価を行う。
対象と方法: PCLを記載した5,134例の腹部MRI/CT 6000例 (2005-2024) のトレーニングデータセットを収集した。
ラベルはGPT-4oで生成し,PCLおよび主膵管の特徴を抽出した。
GPT-4o 生成 CoT データに QLoRA を用いて2つのオープンソース LLM を微調整した。
特徴は、2017年のACRホワイトペーパーに基づいて、機関のガイドラインごとのリスクカテゴリにマップされた。
285件の人手による報告で評価を行った。
100例のモデルアウトプットは3人の放射線技師によって独立にレビューされた。
特徴抽出は, 正確な一致精度, マクロ平均F1スコアによるリスク分類, およびFleiss' Kappaとの放射線学モデルによる一致を用いて評価した。
結果: CoTファインチューニングにより, LLaMA (80%~97%) とDeepSeek (79%~98%) の特徴抽出精度が向上し, GPT-4o (97%) と一致した。
リスク分類F1のスコアも改善された(LLaMA: 0.95; DeepSeek: 0.94)。
放射線学者間の合意は高く(Fleiss' Kappa = 0.888)、DeepSeek-FT-CoT (Fleiss' Kappa = 0.893) や GPT-CoT (Fleiss' Kappa = 0.897) と統計的に有意な差は見られなかった。
結論: CoT を監督するオープンソース LLM は,大規模PCL 研究において高精度,解釈可能,効率的な表現型化を実現し,GPT-4o に匹敵する性能を実現している。
関連論文リスト
- Handcrafted vs. Deep Radiomics vs. Fusion vs. Deep Learning: A Comprehensive Review of Machine Learning -Based Cancer Outcome Prediction in PET and SPECT Imaging [0.7573820776203027]
この体系的なレビューは、2020年から2025年にかけて発行された226の研究を分析し、結果予測のためにPETまたはSPECTイメージングに機械学習を適用した。
PETベースの研究は、一般的にSPECTを用いた場合よりも優れており、おそらくは空間分解能と感度が高いためである。
一般的な制限としては、階級不均衡の不十分な扱い、データ不足、人口の多様性の低さがあった。
論文 参考訳(メタデータ) (2025-07-21T21:03:12Z) - Evaluating Large Language Models for Zero-Shot Disease Labeling in CT Radiology Reports Across Organ Systems [1.1373722549440357]
胸部,腹部,骨盤CTの多自由度ラベル付けのためのルールベースアルゴリズム(RBA),RadBERT,および3つの軽量オープンウェイトLCMを比較した。
コーエンのKappaとマイクロ/マクロ平均F1スコアを用いて評価した。
論文 参考訳(メタデータ) (2025-06-03T18:00:08Z) - ECTIL: Label-efficient Computational Tumour Infiltrating Lymphocyte (TIL) assessment in breast cancer: Multicentre validation in 2,340 patients with breast cancer [17.91294880294883]
腫瘍浸潤リンパ球のレベル(TILs)は、(三重複陰性)乳癌の予後因子である。
現在の計算的TILアセスメント(CTA)モデルは、多くの詳細なアノテーションに依存している。
我々は,100倍少ない病理学アノテーションで10分で学習できる,根本的にシンプルなディープラーニングベースモデルを提案する。
論文 参考訳(メタデータ) (2025-01-24T10:28:05Z) - Deep Radiomics Detection of Clinically Significant Prostate Cancer on Multicenter MRI: Initial Comparison to PI-RADS Assessment [0.0]
本研究は,2010年から2020年の間に取得した4つのデータセットから615例(平均年齢63.1+/-7歳)のバイパラメトリック(T2WおよびDW)前立腺MRI配列を分析した。
深部放射線学の機械学習モデルは, 病変レベルではなく, csPCa検出において, PI-RADSアセスメントに匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-10-21T17:41:58Z) - CIMIL-CRC: a clinically-informed multiple instance learning framework for patient-level colorectal cancer molecular subtypes classification from H\&E stained images [42.771819949806655]
CIMIL-CRCは、事前学習した特徴抽出モデルと主成分分析(PCA)を効率よく組み合わせ、全てのパッチから情報を集約することで、MSI/MSS MIL問題を解決するフレームワークである。
我々は,TCGA-CRC-DXコホートを用いたモデル開発のための5倍のクロスバリデーション実験装置を用いて,曲線下平均面積(AUC)を用いてCIMIL-CRC法の評価を行った。
論文 参考訳(メタデータ) (2024-01-29T12:56:11Z) - Attention-based Saliency Maps Improve Interpretability of Pneumothorax
Classification [52.77024349608834]
視覚変換器(ViT)の胸部X線撮影(CXR)分類性能と注意ベース唾液の解釈可能性について検討する。
ViTは、CheXpert、Chest X-Ray 14、MIMIC CXR、VinBigDataの4つの公開データセットを用いて、肺疾患分類のために微調整された。
ViTsは最先端のCNNと比べてCXR分類AUCに匹敵するものであった。
論文 参考訳(メタデータ) (2023-03-03T12:05:41Z) - Learning to diagnose cirrhosis from radiological and histological labels
with joint self and weakly-supervised pretraining strategies [62.840338941861134]
そこで本稿では, 放射線学者が注釈付けした大規模データセットからの転写学習を活用して, 小さい付加データセットで利用できる組織学的スコアを予測することを提案する。
我々は,肝硬変の予測を改善するために,異なる事前訓練法,すなわち弱い指導法と自己指導法を比較した。
この方法は、METAVIRスコアのベースライン分類を上回り、AUCが0.84、バランスの取れた精度が0.75に達する。
論文 参考訳(メタデータ) (2023-02-16T17:06:23Z) - DeepCOVID-Fuse: A Multi-modality Deep Learning Model Fusing Chest
X-Radiographs and Clinical Variables to Predict COVID-19 Risk Levels [8.593516170110203]
DeepCOVID-Fuseは、新型コロナウイルス患者のリスクレベルを予測するディープラーニング融合モデルである。
CXRと臨床変数で訓練されたDeepCOVID-Fuseの精度は0.658であり、AUCは0.842である。
論文 参考訳(メタデータ) (2023-01-20T20:54:25Z) - WSSS4LUAD: Grand Challenge on Weakly-supervised Tissue Semantic
Segmentation for Lung Adenocarcinoma [51.50991881342181]
この課題には10,091個のパッチレベルのアノテーションと1300万以上のラベル付きピクセルが含まれる。
第一位チームは0.8413mIoUを達成した(腫瘍:0.8389、ストーマ:0.7931、正常:0.8919)。
論文 参考訳(メタデータ) (2022-04-13T15:27:05Z) - Machine Learning Automatically Detects COVID-19 using Chest CTs in a
Large Multicenter Cohort [43.99203831722203]
16施設2096例の胸部CT検査を行った。
新型コロナウイルスの分類のためのメートル法に基づくアプローチは、解釈可能な特徴を使用した。
深層学習に基づく分類器は,CT減衰から抽出した3D特徴と空域不透明度の確率分布を区別した。
論文 参考訳(メタデータ) (2020-06-09T00:40:35Z) - Automated Quantification of CT Patterns Associated with COVID-19 from
Chest CT [48.785596536318884]
提案法は,非造影胸部CTを入力として,病変,肺,葉を3次元に分割する。
この方法では、肺の重症度と葉の関与度を2つの組み合わせて測定し、COVID-19の異常度と高不透明度の存在度を定量化する。
このアルゴリズムの評価は、カナダ、ヨーロッパ、米国からの200人の参加者(感染者100人、健康管理100人)のCTで報告されている。
論文 参考訳(メタデータ) (2020-04-02T21:49:14Z) - Machine-Learning-Based Multiple Abnormality Prediction with Large-Scale
Chest Computed Tomography Volumes [64.21642241351857]
19,993症例から36,316巻の胸部CTデータセットを収集,解析した。
自由テキストラジオグラフィーレポートから異常ラベルを自動的に抽出するルールベース手法を開発した。
胸部CTボリュームの多臓器・多臓器分類モデルも開発した。
論文 参考訳(メタデータ) (2020-02-12T00:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。