論文の概要: MedPromptX: Grounded Multimodal Prompting for Chest X-ray Diagnosis
- arxiv url: http://arxiv.org/abs/2403.15585v2
- Date: Tue, 26 Mar 2024 14:51:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 21:05:08.929024
- Title: MedPromptX: Grounded Multimodal Prompting for Chest X-ray Diagnosis
- Title(参考訳): MedPromptX:胸部X線診断のための接地型マルチモーダルプロンプト
- Authors: Mai A. Shaaban, Adnan Khan, Mohammad Yaqub,
- Abstract要約: 胸部X線像は急性および慢性の心肺疾患の予測に一般的に用いられている。
構造化された臨床データと統合する努力は、不完全な電子健康記録による課題に直面している。
本稿では,マルチモーダル大言語モデル (MLLM) , 少数ショットプロンプト (FP) , ビジュアルグラウンド (VG) を統合した最初のモデルである textbfMedPromptX を紹介する。
その結果、MedPromptXのSOTA性能を示し、ベースラインに比べてF1スコアが11%向上した。
- 参考スコア(独自算出の注目度): 1.2903829793534272
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chest X-ray images are commonly used for predicting acute and chronic cardiopulmonary conditions, but efforts to integrate them with structured clinical data face challenges due to incomplete electronic health records (EHR). This paper introduces \textbf{MedPromptX}, the first model to integrate multimodal large language models (MLLMs), few-shot prompting (FP) and visual grounding (VG) to combine imagery with EHR data for chest X-ray diagnosis. A pre-trained MLLM is utilized to complement the missing EHR information, providing a comprehensive understanding of patients' medical history. Additionally, FP reduces the necessity for extensive training of MLLMs while effectively tackling the issue of hallucination. Nevertheless, the process of determining the optimal number of few-shot examples and selecting high-quality candidates can be burdensome, yet it profoundly influences model performance. Hence, we propose a new technique that dynamically refines few-shot data for real-time adjustment to new patient scenarios. Moreover, VG aids in focusing the model's attention on relevant regions of interest in X-ray images, enhancing the identification of abnormalities. We release MedPromptX-VQA, a new in-context visual question answering dataset encompassing interleaved image and EHR data derived from MIMIC-IV and MIMIC-CXR databases. Results demonstrate the SOTA performance of MedPromptX, achieving an 11% improvement in F1-score compared to the baselines. Code and data are available at https://github.com/BioMedIA-MBZUAI/MedPromptX
- Abstract(参考訳): 胸部X線画像は、急性および慢性の心肺疾患の予測に一般的に用いられているが、構造化された臨床データと統合しようとする試みは、不完全な電子健康記録(EHR)による課題に直面している。
本稿では,マルチモーダル大言語モデル (MLLM) と少数ショットプロンプト (FP) と視覚的グラウンドディング (VG) を統合し,胸部X線診断のための画像とEHRデータを組み合わせた最初のモデルである \textbf{MedPromptX} を紹介する。
事前トレーニングされたMLLMは、欠落したEHR情報を補完するために使用され、患者の医療史を包括的に理解する。
さらに、FPは幻覚の問題を効果的に解決しつつ、MLLMの広範な訓練の必要性を減らす。
それでも、最適数を決定するプロセスや高品質な候補を選択するプロセスは重荷になりがちであるが、モデルの性能に大きな影響を及ぼす。
そこで我々は,新しい患者シナリオをリアルタイムに調整するために,少数のショットデータを動的に洗練する手法を提案する。
さらに、VGは、X線画像に対する関心領域にモデルの注意を集中させ、異常の同定を強化する。
MedPromptX-VQAは、MIMIC-IVとMIMIC-CXRデータベースから得られたインターリーブ画像とEHRデータを含む、新しいコンテキスト内ビジュアル質問応答データセットである。
その結果、MedPromptXのSOTA性能を示し、ベースラインに比べてF1スコアが11%向上した。
コードとデータはhttps://github.com/BioMedIA-MBZUAI/MedPromptXで公開されている。
関連論文リスト
- R2GenCSR: Retrieving Context Samples for Large Language Model based X-ray Medical Report Generation [7.4871243017824165]
本稿では,新しいコンテキスト誘導型効率的なX線医療報告生成フレームワークを提案する。
具体的には、線形複雑度を持つ視覚バックボーンとしてMambaを導入し、得られた性能は強力なTransformerモデルに匹敵する。
論文 参考訳(メタデータ) (2024-08-19T07:15:11Z) - D-Rax: Domain-specific Radiologic assistant leveraging multi-modal data and eXpert model predictions [8.50767187405446]
ドメイン固有の対話型無線支援ツールD-Raxを提案する。
我々は胸部X線(CXR)画像の会話解析を強化し,放射線学的報告を支援する。
オープン・エンド・会話とクローズド・会話の双方において,反応の統計的に有意な改善が認められた。
論文 参考訳(メタデータ) (2024-07-02T18:43:10Z) - MLVICX: Multi-Level Variance-Covariance Exploration for Chest X-ray Self-Supervised Representation Learning [6.4136876268620115]
MLVICXは、胸部X線画像からの埋め込みの形でリッチな表現をキャプチャするアプローチである。
自己教師付き胸部X線表現学習におけるMLVICXの性能を示す。
論文 参考訳(メタデータ) (2024-03-18T06:19:37Z) - DDPM based X-ray Image Synthesizer [0.0]
本稿では, 拡散確率モデル(DDPM)とUNetアーキテクチャを組み合わせたX線画像合成手法を提案する。
本手法では,Kaggleから得られた3000以上の肺炎X線画像を用いて訓練を行った。
その結果, 平均二乗誤差(MSE)が低い実写画像の生成に成功し, 提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-01-03T04:35:58Z) - Radiology Report Generation Using Transformers Conditioned with
Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。
提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文 参考訳(メタデータ) (2023-11-18T14:52:26Z) - ArSDM: Colonoscopy Images Synthesis with Adaptive Refinement Semantic
Diffusion Models [69.9178140563928]
大腸内視鏡検査は臨床診断や治療に不可欠である。
注釈付きデータの不足は、既存の手法の有効性と一般化を制限する。
本稿では, 下流作業に有用な大腸内視鏡画像を生成するために, 適応Refinement Semantic Diffusion Model (ArSDM)を提案する。
論文 参考訳(メタデータ) (2023-09-03T07:55:46Z) - XrayGPT: Chest Radiographs Summarization using Medical Vision-Language
Models [60.437091462613544]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。
胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。
自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文 参考訳(メタデータ) (2023-06-13T17:59:59Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Variational Knowledge Distillation for Disease Classification in Chest
X-Rays [102.04931207504173]
我々は,X線に基づく疾患分類のための新しい確率的推論フレームワークである反復的知識蒸留(VKD)を提案する。
提案手法の有効性を,X線画像とEHRを用いた3つの公開ベンチマークデータセットに示す。
論文 参考訳(メタデータ) (2021-03-19T14:13:56Z) - Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for
Thoracic Disease Identification [83.6017225363714]
ディープラーニングは、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。
胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。
本論文では、単一モデルにおける疾患同定性能を改善するために、複数対1の分布学習(MODL)とK-nearest neighbor smoothing(KNNS)手法を提案する。
論文 参考訳(メタデータ) (2021-02-26T02:29:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。