論文の概要: EHRXQA: A Multi-Modal Question Answering Dataset for Electronic Health
Records with Chest X-ray Images
- arxiv url: http://arxiv.org/abs/2310.18652v2
- Date: Mon, 25 Dec 2023 16:26:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 21:46:16.017601
- Title: EHRXQA: A Multi-Modal Question Answering Dataset for Electronic Health
Records with Chest X-ray Images
- Title(参考訳): EHRXQA:胸部X線画像を用いた電子健康記録用マルチモーダル質問回答データセット
- Authors: Seongsu Bae, Daeun Kyung, Jaehee Ryu, Eunbyeol Cho, Gyubok Lee, Sunjun
Kweon, Jungwoo Oh, Lei Ji, Eric I-Chao Chang, Tackeun Kim, Edward Choi
- Abstract要約: 構造化されたEHRと胸部X線画像を組み合わせた新しいマルチモーダル質問応答データセットであるEHRXQAを紹介する。
EHRにおけるマルチモーダルな質問の独特な課題に対処するため,外部VQA APIを備えたニューラルベース戦略を提案する。
- 参考スコア(独自算出の注目度): 13.782621514697002
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Electronic Health Records (EHRs), which contain patients' medical histories
in various multi-modal formats, often overlook the potential for joint
reasoning across imaging and table modalities underexplored in current EHR
Question Answering (QA) systems. In this paper, we introduce EHRXQA, a novel
multi-modal question answering dataset combining structured EHRs and chest
X-ray images. To develop our dataset, we first construct two uni-modal
resources: 1) The MIMIC-CXR-VQA dataset, our newly created medical visual
question answering (VQA) benchmark, specifically designed to augment the
imaging modality in EHR QA, and 2) EHRSQL (MIMIC-IV), a refashioned version of
a previously established table-based EHR QA dataset. By integrating these two
uni-modal resources, we successfully construct a multi-modal EHR QA dataset
that necessitates both uni-modal and cross-modal reasoning. To address the
unique challenges of multi-modal questions within EHRs, we propose a
NeuralSQL-based strategy equipped with an external VQA API. This pioneering
endeavor enhances engagement with multi-modal EHR sources and we believe that
our dataset can catalyze advances in real-world medical scenarios such as
clinical decision-making and research. EHRXQA is available at
https://github.com/baeseongsu/ehrxqa.
- Abstract(参考訳): 電子健康記録(ehrs)は、様々なマルチモーダル形式で患者の医療履歴を含んでいるが、現在のehr質問応答(qa)システムにおいて、画像とテーブルモダリティをまたいだ共同推論の可能性を見落としていることが多い。
本稿では,構造化EHRと胸部X線画像を組み合わせた新しいマルチモーダル質問応答データセットであるEHRXQAを紹介する。
データセットを開発するために、まず2つのユニモーダルリソースを構築します。
1)MIMIC-CXR-VQAデータセット、新たに作成した医用視覚質問応答(VQA)ベンチマーク、特にEHR QAにおける画像モダリティの向上を目的とした。
2) EHRSQL(MIMIC-IV)は、以前に確立されたテーブルベースのEHR QAデータセットのリファッショニング版である。
これら2つのユニモーダルリソースを統合することで、ユニモーダルおよびクロスモーダル推論の両方を必要とするマルチモーダル EHR QAデータセットの構築に成功した。
EHRにおけるマルチモーダル質問の独特な課題に対処するために,外部VQA APIを備えたNeuralSQLベースの戦略を提案する。
この先駆的な取り組みは、マルチモーダルなEHRソースとの関わりを強化し、我々のデータセットは、臨床意思決定や研究のような現実の医療シナリオにおける進歩を触媒できると考えている。
EHRXQAはhttps://github.com/baeseongsu/ehrxqa.comで入手できる。
関連論文リスト
- Benchmarking Multimodal Retrieval Augmented Generation with Dynamic VQA Dataset and Self-adaptive Planning Agent [102.31558123570437]
マルチモーダル大規模言語モデル(MLLM)に固有の「ハロシン化」問題を緩和する上で,mRAG(Multimodal Retrieval Augmented Generation)が重要な役割を果たしている。
マルチモーダル検索のための自己適応型計画エージェントOmniSearchを提案する。
論文 参考訳(メタデータ) (2024-11-05T09:27:21Z) - CT2C-QA: Multimodal Question Answering over Chinese Text, Table and Chart [26.54501344351476]
C$textT2$C-QAは中国の推論に基づくQAデータセットであり、テキスト、テーブル、チャートの広範なコレクションを含んでいる。
我々のデータセットは、実際のWebページをシミュレートし、マルチモーダルデータを用いてモデルを分析し、推論する能力の優れたテストとして役立ちます。
論文 参考訳(メタデータ) (2024-10-28T18:13:14Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - ViCLEVR: A Visual Reasoning Dataset and Hybrid Multimodal Fusion Model
for Visual Question Answering in Vietnamese [1.6340299456362617]
ベトナムにおける様々な視覚的推論能力を評価するための先駆的な収集であるViCLEVRデータセットを紹介した。
我々は、現代の視覚的推論システムの包括的な分析を行い、その強みと限界についての貴重な洞察を提供する。
PhoVITは、質問に基づいて画像中のオブジェクトを識別する総合的なマルチモーダル融合である。
論文 参考訳(メタデータ) (2023-10-27T10:44:50Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Towards Generalist Foundation Model for Radiology by Leveraging
Web-scale 2D&3D Medical Data [66.9359934608229]
この研究はRadFMと呼ばれるRadlogy Foundation Modelの開発を開始することを目的としている。
われわれの知る限りでは、これは2Dスキャンと3Dスキャンによる、最初の大規模で高品質な医療用ビジュアル言語データセットである。
本稿では,モダリティ認識,疾患診断,視覚的質問応答,レポート生成,合理的診断の5つのタスクからなる新しい評価ベンチマークRadBenchを提案する。
論文 参考訳(メタデータ) (2023-08-04T17:00:38Z) - PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering [56.25766322554655]
MedVQA(Medicical Visual Question Answering)は、診断精度と医療提供を向上する重要な機会を提供する。
本稿では,事前学習した視覚エンコーダの視覚情報を大規模言語モデルに整列させることにより,医用視覚理解のための生成モデルを提案する。
PMC-VQAで提案されたモデルをトレーニングし、VQA-RAD、SLAKE、Image-Clef 2019など、複数の公開ベンチマークで微調整する。
論文 参考訳(メタデータ) (2023-05-17T17:50:16Z) - Specialty-Oriented Generalist Medical AI for Chest CT Screening [14.31187762890342]
本稿では,肺がん検診および関連する課題に応用したM3FM(Maltimodal-multitask foundation model)を提案する。
M3FMは、最先端のシングルモーダルタスク特化モデルより一貫して優れている。
専門的な汎用的な医療AIモデルとして、M3FMは、他の医療分野における同様のブレークスルーの道を開く。
論文 参考訳(メタデータ) (2023-04-03T20:19:56Z) - Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文 参考訳(メタデータ) (2022-07-25T01:43:19Z) - DrugEHRQA: A Question Answering Dataset on Structured and Unstructured
Electronic Health Records For Medicine Related Queries [7.507210439502174]
本稿では, 質問応答データセット(DrugEHRQA)を開発した。
我々のデータセットには、70,000以上の質問応答対を含む、医薬品関連のクエリがある。
論文 参考訳(メタデータ) (2022-05-03T03:50:50Z) - Two heads are better than one: Enhancing medical representations by
pre-training over structured and unstructured electronic health records [23.379185792773875]
マルチモーダル EHR から代表的特徴を自動学習するために,UMM-PLM という,深層学習に基づく医用事前訓練言語モデルを提案する。
まず,各データソースから一助表現を別々に学習する一助情報表現モジュールを開発した。
異なるモジュラリティ間の相互作用をモデル化するために、クロスモーダルモジュールが導入された。
論文 参考訳(メタデータ) (2022-01-25T06:14:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。