Fugu-MT 論文翻訳(概要): MedPromptX: Grounded Multimodal Prompting for Chest X-ray Diagnosis

論文の概要: MedPromptX: Grounded Multimodal Prompting for Chest X-ray Diagnosis

arxiv url: http://arxiv.org/abs/2403.15585v3
Date: Fri, 29 Mar 2024 00:44:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-01 17:43:20.216080
Title: MedPromptX: Grounded Multimodal Prompting for Chest X-ray Diagnosis
Title（参考訳）: MedPromptX:胸部X線診断のための接地型マルチモーダルプロンプト
Authors: Mai A. Shaaban, Adnan Khan, Mohammad Yaqub,
Abstract要約: 胸部X線像は急性および慢性の心肺疾患の予測に一般的に用いられている。構造化された臨床データと統合する努力は、不完全な電子健康記録による課題に直面している。本稿では,MedPromptXについて紹介する。MedPromptXはマルチモーダル大言語モデル(MLLM),少数ショットプロンプト(FP),視覚的グラウンドディング(VG)を統合した最初のモデルである。その結果、MedPromptXのSOTA性能を示し、ベースラインに比べてF1スコアが11%向上した。
参考スコア（独自算出の注目度）: 1.2903829793534272
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Chest X-ray images are commonly used for predicting acute and chronic cardiopulmonary conditions, but efforts to integrate them with structured clinical data face challenges due to incomplete electronic health records (EHR). This paper introduces MedPromptX, the first model to integrate multimodal large language models (MLLMs), few-shot prompting (FP) and visual grounding (VG) to combine imagery with EHR data for chest X-ray diagnosis. A pre-trained MLLM is utilized to complement the missing EHR information, providing a comprehensive understanding of patients' medical history. Additionally, FP reduces the necessity for extensive training of MLLMs while effectively tackling the issue of hallucination. Nevertheless, the process of determining the optimal number of few-shot examples and selecting high-quality candidates can be burdensome, yet it profoundly influences model performance. Hence, we propose a new technique that dynamically refines few-shot data for real-time adjustment to new patient scenarios. Moreover, VG aids in focusing the model's attention on relevant regions of interest in X-ray images, enhancing the identification of abnormalities. We release MedPromptX-VQA, a new in-context visual question answering dataset encompassing interleaved image and EHR data derived from MIMIC-IV and MIMIC-CXR databases. Results demonstrate the SOTA performance of MedPromptX, achieving an 11% improvement in F1-score compared to the baselines. Code and data are available at https://github.com/BioMedIA-MBZUAI/MedPromptX
Abstract（参考訳）: 胸部X線画像は、急性および慢性の心肺疾患の予測に一般的に用いられているが、構造化された臨床データと統合しようとする試みは、不完全な電子健康記録(EHR)による課題に直面している。本稿では,MedPromptXについて紹介する。MedPromptXはマルチモーダル大言語モデル (MLLM) と少数ショットプロンプト (FP) と視覚的グラウンドディング (VG) を統合し,胸部X線診断のための画像とERHデータを組み合わせた最初のモデルである。事前トレーニングされたMLLMは、欠落したEHR情報を補完するために使用され、患者の医療史を包括的に理解する。さらに、FPは幻覚の問題を効果的に解決しつつ、MLLMの広範な訓練の必要性を減らす。それでも、最適数を決定するプロセスや高品質な候補を選択するプロセスは重荷になりがちであるが、モデルの性能に大きな影響を及ぼす。そこで我々は,新しい患者シナリオをリアルタイムに調整するために,少数のショットデータを動的に洗練する手法を提案する。さらに、VGは、X線画像に対する関心領域にモデルの注意を集中させ、異常の同定を強化する。 MedPromptX-VQAは、MIMIC-IVとMIMIC-CXRデータベースから得られたインターリーブ画像とEHRデータを含む、新しいコンテキスト内ビジュアル質問応答データセットである。その結果、MedPromptXのSOTA性能を示し、ベースラインに比べてF1スコアが11%向上した。コードとデータはhttps://github.com/BioMedIA-MBZUAI/MedPromptXで公開されている。

関連論文リスト

Enhanced Contrastive Learning with Multi-view Longitudinal Data for Chest X-ray Report Generation [15.257119888131609]
胸部X線レポート生成を容易にするために,MLRGと呼ばれるマルチビュー縦断データを用いたコントラスト学習を提案する。具体的には、現在の多視点画像からの空間情報と、長手データからの時間情報を統合する多視点縦コントラスト学習手法を提案する。本稿では,患者固有の事前知識の欠如に対処するトークン化不在符号化手法を提案する。
論文参考訳（メタデータ） (2025-02-27T12:59:04Z)
MedFILIP: Medical Fine-grained Language-Image Pre-training [11.894318326422054]
既存の手法は、画像と疾患の関連性を正確に特徴づけるのに苦労している。 MedFILIPは対照的な学習を通じて医用画像固有の知識を導入する。単一ラベル,多ラベル,きめ細かな分類を行う場合,本モデルは最先端の性能を実現する。
論文参考訳（メタデータ） (2025-01-18T14:08:33Z)
MRGen: Segmentation Data Engine For Underrepresented MRI Modalities [59.61465292965639]
稀ながら臨床的に重要な画像モダリティのための医用画像分割モデルの訓練は、注釈付きデータの不足により困難である。本稿では、生成モデルを利用してトレーニングデータを合成し、未表現のモダリティに対するセグメンテーションモデルを訓練する。
論文参考訳（メタデータ） (2024-12-04T16:34:22Z)
GEMeX: A Large-Scale, Groundable, and Explainable Medical VQA Benchmark for Chest X-ray Diagnosis [44.76975131560712]
胸部X線診断(GEMeX)のための大規模・地中・説明可能な医用VQAベンチマークを導入する。 151,025の画像と1,605,575の質問により、GEMeXは現在最大の胸部X線VQAデータセットである。
論文参考訳（メタデータ） (2024-11-25T07:36:46Z)
R2GenCSR: Retrieving Context Samples for Large Language Model based X-ray Medical Report Generation [7.4871243017824165]
本稿では,新しいコンテキスト誘導型効率的なX線医療報告生成フレームワークを提案する。具体的には、線形複雑度を持つ視覚バックボーンとしてMambaを導入し、得られた性能は強力なTransformerモデルに匹敵する。
論文参考訳（メタデータ） (2024-08-19T07:15:11Z)
D-Rax: Domain-specific Radiologic assistant leveraging multi-modal data and eXpert model predictions [8.50767187405446]
ドメイン固有の対話型無線支援ツールD-Raxを提案する。我々は胸部X線(CXR)画像の会話解析を強化し,放射線学的報告を支援する。オープン・エンド・会話とクローズド・会話の双方において,反応の統計的に有意な改善が認められた。
論文参考訳（メタデータ） (2024-07-02T18:43:10Z)
MLVICX: Multi-Level Variance-Covariance Exploration for Chest X-ray Self-Supervised Representation Learning [6.4136876268620115]
MLVICXは、胸部X線画像からの埋め込みの形でリッチな表現をキャプチャするアプローチである。自己教師付き胸部X線表現学習におけるMLVICXの性能を示す。
論文参考訳（メタデータ） (2024-03-18T06:19:37Z)
DDPM based X-ray Image Synthesizer [0.0]
本稿では, 拡散確率モデル(DDPM)とUNetアーキテクチャを組み合わせたX線画像合成手法を提案する。本手法では,Kaggleから得られた3000以上の肺炎X線画像を用いて訓練を行った。その結果, 平均二乗誤差(MSE)が低い実写画像の生成に成功し, 提案手法の有効性が示された。
論文参考訳（メタデータ） (2024-01-03T04:35:58Z)
Radiology Report Generation Using Transformers Conditioned with Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文参考訳（メタデータ） (2023-11-18T14:52:26Z)
ArSDM: Colonoscopy Images Synthesis with Adaptive Refinement Semantic Diffusion Models [69.9178140563928]
大腸内視鏡検査は臨床診断や治療に不可欠である。注釈付きデータの不足は、既存の手法の有効性と一般化を制限する。本稿では, 下流作業に有用な大腸内視鏡画像を生成するために, 適応Refinement Semantic Diffusion Model (ArSDM)を提案する。
論文参考訳（メタデータ） (2023-09-03T07:55:46Z)
XrayGPT: Chest Radiographs Summarization using Medical Vision-Language Models [60.437091462613544]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文参考訳（メタデータ） (2023-06-13T17:59:59Z)
Vision-Language Modelling For Radiological Imaging and Reports In The Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文参考訳（メタデータ） (2023-03-30T18:20:00Z)
Variational Knowledge Distillation for Disease Classification in Chest X-Rays [102.04931207504173]
我々は,X線に基づく疾患分類のための新しい確率的推論フレームワークである反復的知識蒸留(VKD)を提案する。提案手法の有効性を,X線画像とEHRを用いた3つの公開ベンチマークデータセットに示す。
論文参考訳（メタデータ） (2021-03-19T14:13:56Z)
Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for Thoracic Disease Identification [83.6017225363714]
ディープラーニングは、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。本論文では、単一モデルにおける疾患同定性能を改善するために、複数対1の分布学習(MODL)とK-nearest neighbor smoothing(KNNS)手法を提案する。
論文参考訳（メタデータ） (2021-02-26T02:29:30Z)
Cross-Modal Information Maximization for Medical Imaging: CMIM [62.28852442561818]
病院では、同じ情報を異なるモダリティの下で利用できるようにする特定の情報システムにデータがサイロ化される。これは、テスト時に常に利用できないかもしれない同じ情報の複数のビューを列車で取得し、使用するためのユニークな機会を提供する。テスト時にモダリティの低下に耐性を持つマルチモーダル入力の優れた表現を学習することで、利用可能なデータを最大限活用する革新的なフレームワークを提案する。
論文参考訳（メタデータ） (2020-10-20T20:05:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。