論文の概要: MEDBind: Unifying Language and Multimodal Medical Data Embeddings
- arxiv url: http://arxiv.org/abs/2403.12894v1
- Date: Tue, 19 Mar 2024 16:46:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 13:24:34.131590
- Title: MEDBind: Unifying Language and Multimodal Medical Data Embeddings
- Title(参考訳): MEDBind: 言語とマルチモーダルな医療データ埋め込みの統合
- Authors: Yuan Gao, Sangwook Kim, David E Austin, Chris McIntosh,
- Abstract要約: 我々は,CXR,ECG,医療用テキストにまたがる共同埋め込みを学習するMEDBind(Medical Electronic patient recorD)を提案する。
テキストデータを中央アンカーとして使用すると、MEDBindはトリモダリティバインディングを備え、トップK検索、ゼロショット、少数ショットベンチマークで競合的なパフォーマンスを提供する。
- 参考スコア(独自算出の注目度): 18.954939735299963
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Medical vision-language pretraining models (VLPM) have achieved remarkable progress in fusing chest X-rays (CXR) with clinical texts, introducing image-text data binding approaches that enable zero-shot learning and downstream clinical tasks. However, the current landscape lacks the holistic integration of additional medical modalities, such as electrocardiograms (ECG). We present MEDBind (Medical Electronic patient recorD), which learns joint embeddings across CXR, ECG, and medical text. Using text data as the central anchor, MEDBind features tri-modality binding, delivering competitive performance in top-K retrieval, zero-shot, and few-shot benchmarks against established VLPM, and the ability for CXR-to-ECG zero-shot classification and retrieval. This seamless integration is achieved through combination of contrastive loss on modality-text pairs with our proposed contrastive loss function, Edge-Modality Contrastive Loss, fostering a cohesive embedding space for CXR, ECG, and text. Finally, we demonstrate that MEDBind can improve downstream tasks by directly integrating CXR and ECG embeddings into a large-language model for multimodal prompt tuning.
- Abstract(参考訳): 医用視覚言語プレトレーニングモデル(VLPM)は、胸部X線(CXR)を臨床テキストと融合させ、ゼロショット学習と下流臨床タスクを可能にする画像テキストデータバインディングアプローチを導入し、顕著な進歩を遂げている。
しかし、現在の展望は、心電図(ECG)のような追加の医療モダリティの総合的な統合を欠いている。
我々は,CXR,ECG,医療用テキストにまたがる共同埋め込みを学習するMEDBind(Medical Electronic patient recorD)を提案する。
テキストデータを中心アンカーとして使用するMEDBindは、トリモダリティバインディング、トップK検索における競合性能、ゼロショット、確立したVLPMに対する少数ショットベンチマーク、CXR-to-ECGゼロショット分類と検索機能を備えている。
このシームレスな統合は、CXR, ECG, テキストの凝集性埋め込み空間を育むために、モダリティ-テキスト対のコントラッシブ・ロスと、提案したコントラッシブ・ロス関数、エッジ-モダリティ・コントラシブ・ロスとの組み合わせによって達成される。
最後に,MEDBind は CXR と ECG の埋め込みを直接,マルチモーダル・プロンプト・チューニングのための大規模モデルに統合することにより,下流タスクを改善することができることを示す。
関連論文リスト
- MoRE: Multi-Modal Contrastive Pre-training with Transformers on X-Rays, ECGs, and Diagnostic Report [4.340464264725625]
我々は,X線,心電図(ECG),放射線学・心臓医学報告を相乗的に組み合わせた,新しいマルチモーダルコントラスト事前学習フレームワークを提案する。
我々はLoRA-Peftを用いて、LLMにおけるトレーニング可能なパラメータを著しく削減し、視覚変換器(ViT)に最近の線形アテンション降下戦略を取り入れ、よりスムーズなアテンションを実現する。
我々の知る限り、我々はX線、心電図、放射線学・医学レポートをこの手法と組み合わせた統合モデルを提案している。
論文 参考訳(メタデータ) (2024-10-21T17:42:41Z) - C-MELT: Contrastive Enhanced Masked Auto-Encoders for ECG-Language Pre-Training [10.088785685439134]
本稿では,コントラッシブマスクを用いた自動エンコーダアーキテクチャを用いて,ECGとテキストデータを事前学習するフレームワークであるC-MELTを提案する。
C-MELTは、生成性の強さと識別能力の強化を一意に組み合わせて、堅牢なクロスモーダル表現を実現する。
論文 参考訳(メタデータ) (2024-10-03T01:24:09Z) - Multimodal Variational Autoencoder for Low-cost Cardiac Hemodynamics Instability Detection [8.500041312027596]
本稿では,低コスト胸部X線(CXR)と心電図(ECG)を事前トレーニングで統合する新しい変分オートエンコーダ(textCardioVAE_textX,G$)を提案する。
また,本モデルでは,臨床特徴に直接関連した予測の微妙な解釈が可能である。
論文 参考訳(メタデータ) (2024-03-20T15:06:49Z) - Zero-Shot ECG Classification with Multimodal Learning and Test-time Clinical Knowledge Enhancement [10.611952462532908]
マルチモーダルECG表現学習(MERL)は、テキストプロンプトでゼロショットECG分類を行うことができる。
本稿では,外部の専門知識データベースを利用した臨床知識向上技術(CKEPE)アプローチを提案する。
MERLは、ゼロショット分類における平均75.2%のAUCスコアを(トレーニングデータなしで)達成し、10%の注釈付きトレーニングデータを持つ線形プローブeSSLメソッドよりも3.2%高い。
論文 参考訳(メタデータ) (2024-03-11T12:28:55Z) - XAI for In-hospital Mortality Prediction via Multimodal ICU Data [57.73357047856416]
マルチモーダルICUデータを用いて病院内死亡率を予測するための,効率的で説明可能なAIソリューションを提案する。
我々は,臨床データから異種入力を受信し,意思決定を行うマルチモーダル・ラーニングを我々のフレームワークに導入する。
我々の枠組みは、医療研究において重要な要素の発見を容易にする他の臨床課題に容易に移行することができる。
論文 参考訳(メタデータ) (2023-12-29T14:28:04Z) - Radiology Report Generation Using Transformers Conditioned with
Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。
提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文 参考訳(メタデータ) (2023-11-18T14:52:26Z) - Connecting Multi-modal Contrastive Representations [50.26161419616139]
マルチモーダルコントラスト表現学習は、異なるモダリティを意味的に共有された空間に符号化することを目的としている。
本稿では,C-MCR(Connecting Multi-Modal Contrastive Representations)と呼ばれるペアデータなしでMCRを学習するための,新たな学習効率向上手法を提案する。
C-MCRは、オーディオ画像検索、オーディオ画像のソースローカライゼーション、および対実的なオーディオ画像認識タスクにおいて、最先端のオーディオ映像のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-05-22T09:44:39Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Cross-Modal Causal Intervention for Medical Report Generation [109.83549148448469]
医療報告生成(MRG)は、コンピュータ支援診断と治療指導に不可欠である。
視覚的および言語的バイアスによって引き起こされる画像テキストデータ内の素早い相関のため、病変領域を確実に記述した正確なレポートを生成することは困難である。
本稿では,視覚分解モジュール (VDM) と言語分解モジュール (LDM) からなるMRGのための新しい視覚言語因果干渉 (VLCI) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-16T07:23:55Z) - Federated Deep AUC Maximization for Heterogeneous Data with a Constant
Communication Complexity [77.78624443410216]
異種胸部データ検出のための改良型FDAMアルゴリズムを提案する。
本研究は,提案アルゴリズムの通信が機械数に強く依存し,精度レベルにも強く依存していることを示す。
FDAMアルゴリズムのベンチマークデータセットと、異なる組織の医療用胸部X線画像に対する効果を実験により実証した。
論文 参考訳(メタデータ) (2021-02-09T04:05:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。