論文の概要: MMXU: A Multi-Modal and Multi-X-ray Understanding Dataset for Disease Progression
- arxiv url: http://arxiv.org/abs/2502.11651v1
- Date: Mon, 17 Feb 2025 10:43:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:15:11.390690
- Title: MMXU: A Multi-Modal and Multi-X-ray Understanding Dataset for Disease Progression
- Title(参考訳): MMXU: 疾患進行のためのマルチモーダル・マルチX線理解データセット
- Authors: Linjie Mu, Zhongzhen Huang, Shengqian Qin, Yakun Zhu, Shaoting Zhang, Xiaofan Zhang,
- Abstract要約: MedVQAのための新しいデータセットであるMMXUを導入する。
シングルイメージの質問に主に対処する以前のデータセットとは異なり、MMXUは現在の患者データと歴史的な患者データの両方を取り入れたマルチイメージの質問を可能にする。
実験の結果,過去の記録の統合は診断精度を少なくとも20%向上させ,現在のLVLMと人的専門家のパフォーマンスのギャップを埋めることを示した。
- 参考スコア(独自算出の注目度): 9.739199023618042
- License:
- Abstract: Large vision-language models (LVLMs) have shown great promise in medical applications, particularly in visual question answering (MedVQA) and diagnosis from medical images. However, existing datasets and models often fail to consider critical aspects of medical diagnostics, such as the integration of historical records and the analysis of disease progression over time. In this paper, we introduce MMXU (Multimodal and MultiX-ray Understanding), a novel dataset for MedVQA that focuses on identifying changes in specific regions between two patient visits. Unlike previous datasets that primarily address single-image questions, MMXU enables multi-image questions, incorporating both current and historical patient data. We demonstrate the limitations of current LVLMs in identifying disease progression on MMXU-\textit{test}, even those that perform well on traditional benchmarks. To address this, we propose a MedRecord-Augmented Generation (MAG) approach, incorporating both global and regional historical records. Our experiments show that integrating historical records significantly enhances diagnostic accuracy by at least 20\%, bridging the gap between current LVLMs and human expert performance. Additionally, we fine-tune models with MAG on MMXU-\textit{dev}, which demonstrates notable improvements. We hope this work could illuminate the avenue of advancing the use of LVLMs in medical diagnostics by emphasizing the importance of historical context in interpreting medical images. Our dataset is released at \href{https://github.com/linjiemu/MMXU}{https://github.com/linjiemu/MMXU}.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)は医学的応用、特に視覚的質問応答(MedVQA)や医用画像からの診断において有望である。
しかし、既存のデータセットやモデルは、過去の記録の統合や時間経過に伴う疾患の進行の分析など、医療診断の重要な側面を考慮できないことが多い。
本稿では,MedVQAの新しいデータセットであるMMXU(Multimodal and MultiX-ray Understanding)を紹介する。
シングルイメージの質問に主に対処する以前のデータセットとは異なり、MMXUは現在の患者データと歴史的な患者データの両方を取り入れたマルチイメージの質問を可能にする。
MMXU-\textit{test} における疾患進行の同定における現在の LVLM の限界を実証する。
そこで本稿では,グローバルかつ地域的な歴史的記録を取り入れたMedRecord-Augmented Generation (MAG)アプローチを提案する。
実験の結果, 過去の記録の統合は診断精度を少なくとも20%向上させ, 現状のLVLMと人的専門家のパフォーマンスのギャップを埋めることが示唆された。
さらに、MMXU-\textit{dev} 上で MAG を用いて微調整を行い、顕著な改善を示す。
本研究は, 医用画像の解釈における歴史的文脈の重要性を強調することにより, LVLMの医療診断への活用を推し進める道のりを照らすことができると期待している。
我々のデータセットは \href{https://github.com/linjiemu/MMXU}{https://github.com/linjiemu/MMXU} で公開されています。
関連論文リスト
- Activating Associative Disease-Aware Vision Token Memory for LLM-Based X-ray Report Generation [54.631356899598956]
本稿では,専門医が医療報告を書く過程を効果的に模倣する,新しい連想型記憶強調X線レポート生成モデルを提案する。
我々は,病気関連トークンのメモリアソシエーションを確立するために,ビジュアルホップフィールドネットワークを使用し,レポートホップフィールドネットワークを用いてレポートメモリ情報を検索する。
論文 参考訳(メタデータ) (2025-01-07T01:19:48Z) - HC-LLM: Historical-Constrained Large Language Models for Radiology Report Generation [89.3260120072177]
本稿では,放射線学レポート生成のための歴史制約付き大規模言語モデル (HC-LLM) フレームワークを提案する。
胸部X線写真から経時的特徴と経時的特徴を抽出し,疾患の進行を捉える診断報告を行った。
特に,本手法は,テスト中の履歴データなしでも良好に動作し,他のマルチモーダル大規模モデルにも容易に適用可能である。
論文 参考訳(メタデータ) (2024-12-15T06:04:16Z) - Multimodal Medical Disease Classification with LLaMA II [0.14999444543328289]
臨床報告に関連付けられた2次元胸部X線によるOpenIのテキストイメージペアデータセットを用いて検討した。
我々の焦点は、医療データセットから抽出したテキストと視覚情報を融合するための融合手法である。
新たに導入されたマルチモーダルアーキテクチャは、少ない労力で他のマルチモーダルデータセットに適用することができ、さらなる研究に容易に適応することができる。
論文 参考訳(メタデータ) (2024-12-02T09:18:07Z) - RULE: Reliable Multimodal RAG for Factuality in Medical Vision Language Models [35.60385437194243]
現在の医療用大規模視覚言語モデル(Med-LVLM)は、しばしば現実の問題に遭遇する。
外部知識を利用するRAGは、これらのモデルの現実的精度を向上させることができるが、2つの大きな課題を提起する。
本稿では,2つのコンポーネントからなるRULEを提案する。まず,検索したコンテキストの選択を通じて事実性リスクを制御するための有効な戦略を提案する。
次に、検索したコンテキストへの過度な依存がエラーを引き起こしたサンプルに基づいて、選好データセットをキュレートしてモデルを微調整する。
論文 参考訳(メタデータ) (2024-07-06T16:45:07Z) - MedPromptX: Grounded Multimodal Prompting for Chest X-ray Diagnosis [1.2903829793534272]
胸部X線像は急性および慢性の心肺疾患の予測に一般的に用いられている。
構造化された臨床データと統合する努力は、不完全な電子健康記録による課題に直面している。
MedPromptXはマルチモーダル大言語モデル(MLLM)、少数ショットプロンプト(FP)、ビジュアルグラウンド(VG)を統合した最初の臨床診断支援システムである。
その結果、MedPromptXのSOTA性能を示し、ベースラインに比べてF1スコアが11%向上した。
論文 参考訳(メタデータ) (2024-03-22T19:19:51Z) - HyperFusion: A Hypernetwork Approach to Multimodal Integration of Tabular and Medical Imaging Data for Predictive Modeling [4.44283662576491]
EHRの値と測定値に画像処理を条件付け,臨床画像と表層データを融合させるハイパーネットワークに基づく新しいフレームワークを提案する。
このアプローチは、これらのモダリティに存在する相補的な情報を活用し、様々な医療応用の精度を高めることを目的としている。
論文 参考訳(メタデータ) (2024-03-20T05:50:04Z) - OmniMedVQA: A New Large-Scale Comprehensive Evaluation Benchmark for Medical LVLM [48.16696073640864]
我々は,新しい包括的ビジュアル質問回答(VQA)ベンチマークであるOmniMedVQAを紹介する。
このベンチマークのすべての画像は、本物の医療シナリオから得られたものです。
既存のLVLMはこれらの医療用VQA問題に効果的に取り組むのに苦労していることがわかった。
論文 参考訳(メタデータ) (2024-02-14T13:51:56Z) - Med-Flamingo: a Multimodal Medical Few-shot Learner [58.85676013818811]
医療領域に適応したマルチモーダル・数ショット学習者であるMed-Flamingoを提案する。
OpenFlamingo-9Bに基づいて、出版物や教科書からの医療画像テキストデータのペア化とインターリーブ化を継続する。
本研究は,医療用VQA(ジェネレーティブ医療用VQA)の最初の人間評価である。
論文 参考訳(メタデータ) (2023-07-27T20:36:02Z) - XrayGPT: Chest Radiographs Summarization using Medical Vision-Language
Models [60.437091462613544]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。
胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。
自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文 参考訳(メタデータ) (2023-06-13T17:59:59Z) - AlignTransformer: Hierarchical Alignment of Visual Regions and Disease
Tags for Medical Report Generation [50.21065317817769]
本稿では,Align Hierarchical Attention (AHA)とMulti-Grained Transformer (MGT)モジュールを含むAlign Transformerフレームワークを提案する。
パブリックなIU-XrayとMIMIC-CXRデータセットの実験は、AlignTransformerが2つのデータセットの最先端メソッドと競合する結果が得られることを示している。
論文 参考訳(メタデータ) (2022-03-18T13:43:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。