論文の概要: General-Purpose vs. Domain-Adapted Large Language Models for Extraction of Structured Data from Chest Radiology Reports
- arxiv url: http://arxiv.org/abs/2311.17213v3
- Date: Tue, 9 Apr 2024 13:46:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 19:57:00.036461
- Title: General-Purpose vs. Domain-Adapted Large Language Models for Extraction of Structured Data from Chest Radiology Reports
- Title(参考訳): 胸部X線写真からの構造化データの抽出のための汎用対ドメイン適応大言語モデル
- Authors: Ali H. Dhanaliwala, Rikhiya Ghosh, Sanjeev Kumar Karn, Poikavila Ullaskrishnan, Oladimeji Farri, Dorin Comaniciu, Charles E. Kahn,
- Abstract要約: ドメイン適応言語モデル(RadLing)と汎用LLM(GPT-4)を用いたシステムの比較
3人の放射線学者が1399の胸部XRレポート(900のトレーニング、499のテスト)の振り返りデータセットに注釈を付け、44の関連CDEにマッピングした。
RadLingのドメイン適応型埋め込みは特徴抽出において改善され、軽量マッパーはCDEの割り当てにおいてf1スコアが向上した。
- 参考スコア(独自算出の注目度): 5.953255276042551
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Radiologists produce unstructured data that can be valuable for clinical care when consumed by information systems. However, variability in style limits usage. Study compares system using domain-adapted language model (RadLing) and general-purpose LLM (GPT-4) in extracting relevant features from chest radiology reports and standardizing them to common data elements (CDEs). Three radiologists annotated a retrospective dataset of 1399 chest XR reports (900 training, 499 test) and mapped to 44 pre-selected relevant CDEs. GPT-4 system was prompted with report, feature set, value set, and dynamic few-shots to extract values and map to CDEs. Output key:value pairs were compared to reference standard at both stages and an identical match was considered TP. F1 score for extraction was 97% for RadLing-based system and 78% for GPT-4 system. F1 score for mapping was 98% for RadLing and 94% for GPT-4; difference was statistically significant (P<.001). RadLing's domain-adapted embeddings were better in feature extraction and its light-weight mapper had better f1 score in CDE assignment. RadLing system also demonstrated higher capabilities in differentiating between absent (99% vs 64%) and unspecified (99% vs 89%). RadLing system's domain-adapted embeddings helped improve performance of GPT-4 system to 92% by giving more relevant few-shot prompts. RadLing system offers operational advantages including local deployment and reduced runtime costs.
- Abstract(参考訳): 放射線学者は、情報システムによって消費されるときに臨床医療に有用な、構造化されていないデータを生成する。
しかし、スタイルの可変性は使用を制限する。
胸部X線写真から関連する特徴を抽出し,それらを共通データ要素(CDE)に標準化するために,ドメイン適応言語モデル(RadLing)と汎用LLM(GPT-4)を用いたシステムの比較を行った。
3人の放射線学者が1399の胸部XRレポート(900のトレーニング、499のテスト)の振り返りデータセットに注釈を付け、44の関連CDEにマッピングした。
GPT-4システムは、レポート、特徴セット、値セット、動的数ショットで、値を抽出し、CDEにマップする。
出力キー:値ペアを基準基準と比較し,同じ一致をTPとした。
抽出用F1スコアはRadLing系97%, GPT-4系78%であった。
マッピングのF1スコアはRadLingが98%,GPT-4が94%,統計学的に有意差(P<.001。
RadLingのドメイン適応型埋め込みは特徴抽出において改善され、軽量マッパーはCDEの割り当てにおいてf1スコアが向上した。
RadLingシステムはまた、欠失(99%対64%)と未特定(99%対89%)を区別する高い能力を示した。
RadLingシステムのドメイン適応型埋め込みは、より関連性の高いショットプロンプトを提供することで、GPT-4システムの性能を92%向上させた。
RadLingシステムは、ローカルデプロイメントやランタイムコストの削減など、運用上のアドバンテージを提供する。
関連論文リスト
- ChatSchema: A pipeline of extracting structured information with Large Multimodal Models based on schema [13.06247238452398]
チャットは,非構造化データから情報を抽出し,構造化するための有効な方法である。
我々は北京大学第一病院から100件の医療報告を分析し,2,945対の鍵値のペアを用いた地上真実データセットを構築した。
論文 参考訳(メタデータ) (2024-07-26T13:05:24Z) - How Well Do Multi-modal LLMs Interpret CT Scans? An Auto-Evaluation Framework for Analyses [14.884877292068351]
本研究ではGPTRadScore'という新しい評価フレームワークを紹介する。
GPT-4 with Vision (GPT-4V)、Gemini Pro Vision、LLaVA-Med、RadFMといったマルチモーダルLCMの、将来的な発見のための記述を生成する能力を評価する。
GPT-4に基づく分解手法を用いて、GPTRadScoreは生成した記述をゴールドスタンダードのレポート文と比較し、その精度を身体部分、位置、発見の種類で分析する。
論文 参考訳(メタデータ) (2024-03-08T21:16:28Z) - Is Open-Source There Yet? A Comparative Study on Commercial and
Open-Source LLMs in Their Ability to Label Chest X-Ray Reports [0.8553482972179836]
GPT-4はゼロショットレポートラベリングにおいてオープンソースモデルよりも優れているが、少数ショットプロンプトの実装はGPT-4と同等のオープンソースモデルをもたらす可能性がある。
このことは、オープンソースモデルは、放射線学レポート分類のタスクにおいて、GPT-4に代わるパフォーマンスとプライバシ保護の代替となる可能性があることを示している。
論文 参考訳(メタデータ) (2024-02-19T17:23:10Z) - Exploring the Boundaries of GPT-4 in Radiology [46.30976153809968]
GPT-4は、複雑なコンテキストにおいて、時折エラーしか発生しない十分なレベルの放射線学知識を持っている。
結果の要約では、GPT-4の出力は、既存の手書きのインプレッションと総合的に比較できる。
論文 参考訳(メタデータ) (2023-10-23T05:13:03Z) - Text Classification via Large Language Models [63.1874290788797]
テキスト分類に関わる複雑な言語現象に対処するために、Clue And Reasoning Prompting (CARP)を導入する。
注目すべきは、CARPが5つの広く使用されているテキスト分類ベンチマークのうち4つで新しいSOTAパフォーマンスを得ることだ。
さらに重要なのは、CARPが低リソースとドメイン適応のセットアップで素晴らしい能力を提供します。
論文 参考訳(メタデータ) (2023-05-15T06:24:45Z) - Attention-based Saliency Maps Improve Interpretability of Pneumothorax
Classification [52.77024349608834]
視覚変換器(ViT)の胸部X線撮影(CXR)分類性能と注意ベース唾液の解釈可能性について検討する。
ViTは、CheXpert、Chest X-Ray 14、MIMIC CXR、VinBigDataの4つの公開データセットを用いて、肺疾患分類のために微調整された。
ViTsは最先端のCNNと比べてCXR分類AUCに匹敵するものであった。
論文 参考訳(メタデータ) (2023-03-03T12:05:41Z) - Exploiting prompt learning with pre-trained language models for
Alzheimer's Disease detection [70.86672569101536]
アルツハイマー病(AD)の早期診断は予防ケアの促進とさらなる進行の遅らせに不可欠である。
本稿では,AD分類誤差をトレーニング対象関数として一貫して用いたPLMの高速微調整法について検討する。
論文 参考訳(メタデータ) (2022-10-29T09:18:41Z) - Exploring traditional machine learning for identification of
pathological auscultations [0.39577682622066246]
各種機械学習シナリオにおいて,45例のデジタル6チャンネル聴取を行った。
目的は,正常な肺と異常な肺の音を区別することであった。
監視されていないモデルよりも一貫した優位性を示した。
論文 参考訳(メタデータ) (2022-09-01T18:03:21Z) - Chest x-ray automated triage: a semiologic approach designed for
clinical implementation, exploiting different types of labels through a
combination of four Deep Learning architectures [83.48996461770017]
本研究では,異なる畳み込みアーキテクチャの後期融合に基づく深層学習手法を提案する。
公開胸部x線画像と機関アーカイブを組み合わせたトレーニングデータセットを4つ構築した。
4つの異なるディープラーニングアーキテクチャをトレーニングし、それらのアウトプットとレイトフュージョン戦略を組み合わせることで、統一されたツールを得ました。
論文 参考訳(メタデータ) (2020-12-23T14:38:35Z) - A multicenter study on radiomic features from T$_2$-weighted images of a
customized MR pelvic phantom setting the basis for robust radiomic models in
clinics [47.187609203210705]
骨盤ファントムの2Dおよび3D T$$-weightedイメージを3つのスキャナーで取得した。
放射線学的特徴の再現性と再配置を評価した。
論文 参考訳(メタデータ) (2020-05-14T09:24:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。