論文の概要: CXR-LLaVA: Multimodal Large Language Model for Interpreting Chest X-ray
Images
- arxiv url: http://arxiv.org/abs/2310.18341v2
- Date: Tue, 31 Oct 2023 21:08:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 16:25:20.956358
- Title: CXR-LLaVA: Multimodal Large Language Model for Interpreting Chest X-ray
Images
- Title(参考訳): CXR-LLaVA:胸部X線画像の多モード大言語モデル
- Authors: Seowoo Lee, Jiwon Youn, Mansu Kim, Soon Ho Yoon
- Abstract要約: 本研究では,胸部X線画像(CXR-LLaVA)を解釈するためのオープンソースのマルチモーダル大言語モデルの構築を目的とする。
トレーニングでは659,287件のCXR,241,951件のCXRを収集した。
テストセットでは,パラメータに基づいてモデルの性能が変動することが確認された。
- 参考スコア(独自算出の注目度): 1.1743167854433303
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Purpose: Recent advancements in large language models (LLMs) have expanded
their capabilities in a multimodal fashion, potentially replicating the image
interpretation of human radiologists. This study aimed to develop open-source
multimodal large language model for interpreting chest X-ray images
(CXR-LLaVA). We also examined the effect of prompt engineering and model
parameters such as temperature and nucleus sampling.
Materials and Methods: For training, we collected 659,287 publicly available
CXRs: 417,336 CXRs had labels for certain radiographic abnormalities (dataset
1); 241,951 CXRs provided free-text radiology reports (dataset 2). After
pre-training the Resnet50 as an image encoder, the contrastive language-image
pre-training was used to align CXRs and corresponding radiographic
abnormalities. Then, the Large Language Model Meta AI-2 was fine-tuned using
dataset 2, which were refined using GPT-4, with generating various question
answering scenarios. The code can be found at
https://github.com/ECOFRI/CXR_LLaVA.
Results: In the test set, we observed that the model's performance fluctuated
based on its parameters. On average, it achieved F1 score of 0.34 for five
pathologic findings (atelectasis, cardiomegaly, consolidation, edema, and
pleural effusion), which was improved to 0.46 through prompt engineering. In
the independent set, the model achieved an average F1 score of 0.30 for the
same pathologic findings. Notably, for the pediatric chest radiograph dataset,
which was unseen during training, the model differentiated abnormal radiographs
with an F1 score ranging from 0.84 to 0.85.
Conclusion: CXR-LLaVA demonstrates promising potential in CXR interpretation.
Both prompt engineering and model parameter adjustments can play pivotal roles
in interpreting CXRs.
- Abstract(参考訳): 目的: 大規模言語モデル(LLM)の最近の進歩は, 人間の放射線技師のイメージ解釈を再現し, マルチモーダルな手法でその能力を拡大している。
本研究の目的は,胸部X線画像(CXR-LLaVA)を解釈するためのオープンソースのマルチモーダル大言語モデルを開発することである。
また, 温度, 核サンプリングなどのモデルパラメータと迅速な工学効果についても検討した。
417,336 cxrsには特定の放射線異常のラベル(データセット1)があり、241,951 cxrsはフリーテキストの放射線診断レポート(データセット2)を提供している。
Resnet50を画像エンコーダとして事前トレーニングした後、コントラスト言語画像事前トレーニングを使用してCXRと対応する放射線異常を調整した。
そして、大規模言語モデルメタAI-2をデータセット2を用いて微調整し、GPT-4を用いて洗練し、様々な質問応答シナリオを生成する。
コードはhttps://github.com/ECOFRI/CXR_LLaVAで見ることができる。
結果: テストセットでは, モデルの性能がパラメータに基づいて変動していることがわかった。
平均して5つの病理所見(電気泳動, カルジオメガリー, 圧密, 浮腫, 胸水)について, f1 スコア 0.34 を達成し, プロンプトエンジニアリングにより 0.46 に改善した。
独立したセットでは、同じ病理所見に対して平均F1スコアが0.30に達した。
特に,小児の胸部x線写真データセットでは,0.84から0.85のf1スコアで異常x線を識別した。
結論: CXR-LLaVAはCXR解釈において有望なポテンシャルを示す。
プロンプトエンジニアリングとモデルパラメータ調整の両方がCXRの解釈において重要な役割を果たす。
関連論文リスト
- Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - MAIRA-1: A specialised large multimodal model for radiology report generation [41.69727330319648]
胸部X線(CXR)から放射線学的レポートを生成するための放射線学固有のマルチモーダルモデルを提案する。
我々の研究は、学習済みの視覚エンコーダとアライメントすることで、大規模言語モデルにマルチモーダル機能を持たせることができるという考えに基づいている。
提案モデル(MAIRA-1)は,Vicuna-7Bに基づく微調整された大規模言語モデルと協調してCXR固有の画像エンコーダを利用して,最先端の品質のレポートを生成する。
論文 参考訳(メタデータ) (2023-11-22T19:45:40Z) - ChatRadio-Valuer: A Chat Large Language Model for Generalizable
Radiology Report Generation Based on Multi-institution and Multi-system Data [115.0747462486285]
ChatRadio-Valuerは、一般化可能な表現を学習する自動放射線学レポート生成のための調整されたモデルである。
本研究で利用した臨床データセットは,textbf332,673の顕著な総計を含む。
ChatRadio-Valuerは、最先端のモデル、特にChatGPT(GPT-3.5-Turbo)やGPT-4などより一貫して優れている。
論文 参考訳(メタデータ) (2023-10-08T17:23:17Z) - Radiology-Llama2: Best-in-Class Large Language Model for Radiology [71.27700230067168]
本稿では,ラジオロジーに特化した大規模言語モデルであるRadiology-Llama2を紹介する。
MIMIC-CXRとOpenIデータセットのROUGEメトリクスを用いた定量的評価は、Radiology-Llama2が最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2023-08-29T17:44:28Z) - Longitudinal Data and a Semantic Similarity Reward for Chest X-Ray Report Generation [7.586632627817609]
放射線学者は、解釈と報告を必要とする胸部X線(CXR)の量の増加のために、高いバーンアウト率に直面している。
提案するCXRレポートジェネレータは,ワークフローの要素を統合し,強化学習のための新たな報酬を導入する。
本研究の結果から, 提案モデルでは, 最新技術モデルよりも, 放射線学者の報告に適合した報告が生成されることがわかった。
論文 参考訳(メタデータ) (2023-07-19T05:41:14Z) - Medical Image Captioning via Generative Pretrained Transformers [57.308920993032274]
我々は、Show-Attend-Tell と GPT-3 という2つの言語モデルを組み合わせて、包括的で記述的な放射線学記録を生成する。
提案モデルは、Open-I、MIMIC-CXR、汎用MS-COCOの2つの医療データセットで検証される。
論文 参考訳(メタデータ) (2022-09-28T10:27:10Z) - Open-radiomics: A Collection of Standardized Datasets and a Technical
Protocol for Reproducible Radiomics Machine Learning Pipelines [0.0]
オープンラジオミクス、一連のラジオミクスデータセット、包括的なラジオミクスパイプラインを紹介する。
BraTS 2020オープンソースMR(Magnetic Resonance Imaging)データセットで実験が行われた。
binWidthや画像正規化とは異なり,腫瘍の亜領域と画像の配列はモデルの性能に大きく影響した。
論文 参考訳(メタデータ) (2022-07-29T16:37:46Z) - Event-based clinical findings extraction from radiology reports with
pre-trained language model [0.22940141855172028]
今回,臨床所見を付加した新しい放射線診断報告のコーパスを報告する。
金の標準コーパスには合計500点の注記CTレポートが含まれていた。
BERTを含む2つの最先端ディープラーニングアーキテクチャを用いて、トリガと引数のエンティティを抽出した。
論文 参考訳(メタデータ) (2021-12-27T05:03:10Z) - Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for
Thoracic Disease Identification [83.6017225363714]
ディープラーニングは、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。
胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。
本論文では、単一モデルにおける疾患同定性能を改善するために、複数対1の分布学習(MODL)とK-nearest neighbor smoothing(KNNS)手法を提案する。
論文 参考訳(メタデータ) (2021-02-26T02:29:30Z) - Chest x-ray automated triage: a semiologic approach designed for
clinical implementation, exploiting different types of labels through a
combination of four Deep Learning architectures [83.48996461770017]
本研究では,異なる畳み込みアーキテクチャの後期融合に基づく深層学習手法を提案する。
公開胸部x線画像と機関アーカイブを組み合わせたトレーニングデータセットを4つ構築した。
4つの異なるディープラーニングアーキテクチャをトレーニングし、それらのアウトプットとレイトフュージョン戦略を組み合わせることで、統一されたツールを得ました。
論文 参考訳(メタデータ) (2020-12-23T14:38:35Z) - Exploration of Interpretability Techniques for Deep COVID-19
Classification using Chest X-ray Images [10.01138352319106]
5種類のディープラーニングモデル(ResNet18、ResNet34、InceptionV3、InceptionResNetV2、DenseNet161)とそれらのEnsembleは、Chest X-Ray画像を用いて、新型コロナウイルス、肺炎、健康な被験者を分類するために使用されている。
新型コロナウイルスの分類における平均的なMicro-F1スコアは0.66から0.875の範囲で、ネットワークモデルのアンサンブルは0.89である。
論文 参考訳(メタデータ) (2020-06-03T22:55:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。