Fugu-MT 論文翻訳(概要): EHRXQA: A Multi-Modal Question Answering Dataset for Electronic Health Records with Chest X-ray Images

論文の概要: EHRXQA: A Multi-Modal Question Answering Dataset for Electronic Health Records with Chest X-ray Images

arxiv url: http://arxiv.org/abs/2310.18652v2
Date: Mon, 25 Dec 2023 16:26:23 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-27 21:46:16.017601
Title: EHRXQA: A Multi-Modal Question Answering Dataset for Electronic Health Records with Chest X-ray Images
Title（参考訳）: EHRXQA:胸部X線画像を用いた電子健康記録用マルチモーダル質問回答データセット
Authors: Seongsu Bae, Daeun Kyung, Jaehee Ryu, Eunbyeol Cho, Gyubok Lee, Sunjun Kweon, Jungwoo Oh, Lei Ji, Eric I-Chao Chang, Tackeun Kim, Edward Choi
Abstract要約: 構造化されたEHRと胸部X線画像を組み合わせた新しいマルチモーダル質問応答データセットであるEHRXQAを紹介する。 EHRにおけるマルチモーダルな質問の独特な課題に対処するため,外部VQA APIを備えたニューラルベース戦略を提案する。
参考スコア（独自算出の注目度）: 13.782621514697002
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Electronic Health Records (EHRs), which contain patients' medical histories in various multi-modal formats, often overlook the potential for joint reasoning across imaging and table modalities underexplored in current EHR Question Answering (QA) systems. In this paper, we introduce EHRXQA, a novel multi-modal question answering dataset combining structured EHRs and chest X-ray images. To develop our dataset, we first construct two uni-modal resources: 1) The MIMIC-CXR-VQA dataset, our newly created medical visual question answering (VQA) benchmark, specifically designed to augment the imaging modality in EHR QA, and 2) EHRSQL (MIMIC-IV), a refashioned version of a previously established table-based EHR QA dataset. By integrating these two uni-modal resources, we successfully construct a multi-modal EHR QA dataset that necessitates both uni-modal and cross-modal reasoning. To address the unique challenges of multi-modal questions within EHRs, we propose a NeuralSQL-based strategy equipped with an external VQA API. This pioneering endeavor enhances engagement with multi-modal EHR sources and we believe that our dataset can catalyze advances in real-world medical scenarios such as clinical decision-making and research. EHRXQA is available at https://github.com/baeseongsu/ehrxqa.
Abstract（参考訳）: 電子健康記録(ehrs)は、様々なマルチモーダル形式で患者の医療履歴を含んでいるが、現在のehr質問応答(qa)システムにおいて、画像とテーブルモダリティをまたいだ共同推論の可能性を見落としていることが多い。本稿では,構造化EHRと胸部X線画像を組み合わせた新しいマルチモーダル質問応答データセットであるEHRXQAを紹介する。データセットを開発するために、まず2つのユニモーダルリソースを構築します。 1)MIMIC-CXR-VQAデータセット、新たに作成した医用視覚質問応答(VQA)ベンチマーク、特にEHR QAにおける画像モダリティの向上を目的とした。 2) EHRSQL(MIMIC-IV)は、以前に確立されたテーブルベースのEHR QAデータセットのリファッショニング版である。これら2つのユニモーダルリソースを統合することで、ユニモーダルおよびクロスモーダル推論の両方を必要とするマルチモーダル EHR QAデータセットの構築に成功した。 EHRにおけるマルチモーダル質問の独特な課題に対処するために,外部VQA APIを備えたNeuralSQLベースの戦略を提案する。この先駆的な取り組みは、マルチモーダルなEHRソースとの関わりを強化し、我々のデータセットは、臨床意思決定や研究のような現実の医療シナリオにおける進歩を触媒できると考えている。 EHRXQAはhttps://github.com/baeseongsu/ehrxqa.comで入手できる。

関連論文リスト

Lingshu: A Generalist Foundation Model for Unified Multimodal Medical Understanding and Reasoning [57.873833577058]
医療知識の豊富なマルチモーダルデータセットを構築した。次に医学専門のMLLMであるLingshuを紹介します。 Lingshuは、医療専門知識の組み込みとタスク解決能力の向上のために、マルチステージトレーニングを行っている。
論文参考訳（メタデータ） (2025-06-08T08:47:30Z)
XGeM: A Multi-Prompt Foundation Model for Multimodal Medical Data Generation [22.908801443059758]
XGeMは、医療データモダリティ間のフレキシブルな任意の合成をサポートするために設計されたマルチモーダル生成モデルである。 XGeMは、コントラスト学習を通じて共有潜在空間を構築し、新しいマルチプロンプトトレーニング戦略を導入する。我々は、XGeMが匿名化、クラス不均衡、データ不足といった重要な医療データ課題をどのようにサポートするかを示す。
論文参考訳（メタデータ） (2025-01-08T16:53:56Z)
Benchmarking Multimodal Retrieval Augmented Generation with Dynamic VQA Dataset and Self-adaptive Planning Agent [102.31558123570437]
マルチモーダル大規模言語モデル(MLLM)に固有の「ハロシン化」問題を緩和する上で,mRAG(Multimodal Retrieval Augmented Generation)が重要な役割を果たしている。マルチモーダル検索のための自己適応型計画エージェントOmniSearchを提案する。
論文参考訳（メタデータ） (2024-11-05T09:27:21Z)
CT2C-QA: Multimodal Question Answering over Chinese Text, Table and Chart [26.54501344351476]
C$textT2$C-QAは中国の推論に基づくQAデータセットであり、テキスト、テーブル、チャートの広範なコレクションを含んでいる。我々のデータセットは、実際のWebページをシミュレートし、マルチモーダルデータを用いてモデルを分析し、推論する能力の優れたテストとして役立ちます。
論文参考訳（メタデータ） (2024-10-28T18:13:14Z)
MedTrinity-25M: A Large-scale Multimodal Dataset with Multigranular Annotations for Medicine [53.01393667775077]
本稿では,医療用大規模マルチモーダルデータセットであるMedTrinity-25Mを紹介する。 65以上の疾患に対する多彩なアノテーションを備えた10のモダリティで、2500万以上の画像をカバーしている。画像テキストペアの可用性に制限がある既存のマルチモーダルデータセットとは異なり、我々は最初の自動パイプラインを開発した。
論文参考訳（メタデータ） (2024-08-06T02:09:35Z)
Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文参考訳（メタデータ） (2024-04-27T05:03:42Z)
ViCLEVR: A Visual Reasoning Dataset and Hybrid Multimodal Fusion Model for Visual Question Answering in Vietnamese [1.6340299456362617]
ベトナムにおける様々な視覚的推論能力を評価するための先駆的な収集であるViCLEVRデータセットを紹介した。我々は、現代の視覚的推論システムの包括的な分析を行い、その強みと限界についての貴重な洞察を提供する。 PhoVITは、質問に基づいて画像中のオブジェクトを識別する総合的なマルチモーダル融合である。
論文参考訳（メタデータ） (2023-10-27T10:44:50Z)
UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文参考訳（メタデータ） (2023-10-17T02:38:09Z)
Towards Generalist Foundation Model for Radiology by Leveraging Web-scale 2D&3D Medical Data [66.9359934608229]
この研究はRadFMと呼ばれるRadlogy Foundation Modelの開発を開始することを目的としている。われわれの知る限りでは、これは2Dスキャンと3Dスキャンによる、最初の大規模で高品質な医療用ビジュアル言語データセットである。本稿では,モダリティ認識,疾患診断,視覚的質問応答,レポート生成,合理的診断の5つのタスクからなる新しい評価ベンチマークRadBenchを提案する。
論文参考訳（メタデータ） (2023-08-04T17:00:38Z)
PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering [56.25766322554655]
MedVQA(Medicical Visual Question Answering)は、診断精度と医療提供を向上する重要な機会を提供する。本稿では,事前学習した視覚エンコーダの視覚情報を大規模言語モデルに整列させることにより,医用視覚理解のための生成モデルを提案する。 PMC-VQAで提案されたモデルをトレーニングし、VQA-RAD、SLAKE、Image-Clef 2019など、複数の公開ベンチマークで微調整する。
論文参考訳（メタデータ） (2023-05-17T17:50:16Z)
Specialty-Oriented Generalist Medical AI for Chest CT Screening [14.31187762890342]
本稿では,肺がん検診および関連する課題に応用したM3FM(Maltimodal-multitask foundation model)を提案する。 M3FMは、最先端のシングルモーダルタスク特化モデルより一貫して優れている。専門的な汎用的な医療AIモデルとして、M3FMは、他の医療分野における同様のブレークスルーの道を開く。
論文参考訳（メタデータ） (2023-04-03T20:19:56Z)
Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文参考訳（メタデータ） (2022-07-25T01:43:19Z)
DrugEHRQA: A Question Answering Dataset on Structured and Unstructured Electronic Health Records For Medicine Related Queries [7.507210439502174]
本稿では, 質問応答データセット(DrugEHRQA)を開発した。我々のデータセットには、70,000以上の質問応答対を含む、医薬品関連のクエリがある。
論文参考訳（メタデータ） (2022-05-03T03:50:50Z)
Two heads are better than one: Enhancing medical representations by pre-training over structured and unstructured electronic health records [23.379185792773875]
マルチモーダル EHR から代表的特徴を自動学習するために,UMM-PLM という,深層学習に基づく医用事前訓練言語モデルを提案する。まず,各データソースから一助表現を別々に学習する一助情報表現モジュールを開発した。異なるモジュラリティ間の相互作用をモデル化するために、クロスモーダルモジュールが導入された。
論文参考訳（メタデータ） (2022-01-25T06:14:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。