論文の概要: Best of Both Worlds: Multimodal Contrastive Learning with Tabular and
Imaging Data
- arxiv url: http://arxiv.org/abs/2303.14080v2
- Date: Mon, 27 Mar 2023 14:24:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 11:38:42.206058
- Title: Best of Both Worlds: Multimodal Contrastive Learning with Tabular and
Imaging Data
- Title(参考訳): 両世界のベスト:表データと画像データを用いたマルチモーダルコントラスト学習
- Authors: Paul Hager, Martin J. Menten, Daniel Rueckert
- Abstract要約: 単調エンコーダを学習するための自己指導型コントラスト学習フレームワークを提案する。
我々のソリューションは、2つの主要なコントラスト学習戦略であるSimCLRとSCARFを組み合わせています。
DVMカー広告データセットを用いて,自然画像へのアプローチの一般化可能性を示す。
- 参考スコア(独自算出の注目度): 7.49320945341034
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical datasets and especially biobanks, often contain extensive tabular
data with rich clinical information in addition to images. In practice,
clinicians typically have less data, both in terms of diversity and scale, but
still wish to deploy deep learning solutions. Combined with increasing medical
dataset sizes and expensive annotation costs, the necessity for unsupervised
methods that can pretrain multimodally and predict unimodally has risen.
To address these needs, we propose the first self-supervised contrastive
learning framework that takes advantage of images and tabular data to train
unimodal encoders. Our solution combines SimCLR and SCARF, two leading
contrastive learning strategies, and is simple and effective. In our
experiments, we demonstrate the strength of our framework by predicting risks
of myocardial infarction and coronary artery disease (CAD) using cardiac MR
images and 120 clinical features from 40,000 UK Biobank subjects. Furthermore,
we show the generalizability of our approach to natural images using the DVM
car advertisement dataset.
We take advantage of the high interpretability of tabular data and through
attribution and ablation experiments find that morphometric tabular features,
describing size and shape, have outsized importance during the contrastive
learning process and improve the quality of the learned embeddings. Finally, we
introduce a novel form of supervised contrastive learning, label as a feature
(LaaF), by appending the ground truth label as a tabular feature during
multimodal pretraining, outperforming all supervised contrastive baselines.
- Abstract(参考訳): 医用データセット、特にバイオバンクは、画像に加えて豊富な臨床情報を含む広範な表型データを含むことが多い。
実際には、臨床医は多様性とスケールの両面でデータが少ないが、いまだにディープラーニングソリューションの展開を望んでいる。
医療データセットのサイズの増加と高価なアノテーションコストに加えて、マルチモーダルで事前訓練し、一様予測できる教師なしの方法の必要性が高まっている。
これらのニーズに対処するために,画像と表データを利用して非モーダルエンコーダを訓練する,自己指導型コントラスト学習フレームワークを提案する。
我々のソリューションはSimCLRとSCARFという2つの主要なコントラスト学習戦略を組み合わせており、シンプルで効果的です。
実験では,心mri画像と4万人の英国バイオバンク患者から120の臨床的特徴を用いて,心筋梗塞および冠動脈疾患(cad)のリスクを予測することにより,枠組みの強度を実証する。
さらに,DVMカー広告データセットを用いて,自然画像へのアプローチの一般化可能性を示す。
表データの高い解釈可能性を利用し,帰属実験およびアブレーション実験により,形態計測表の特徴は,大きさと形状を記述し,比較学習過程において重要度を大きくし,学習埋め込みの質を向上させることを見出した。
最後に,教師付きコントラスト学習の新たな形式であるlaaf( label as a feature)を導入し,マルチモーダル事前学習中に基底真理ラベルを表型特徴として付加し,教師付きコントラストベースラインを上回った。
関連論文リスト
- Barttender: An approachable & interpretable way to compare medical imaging and non-imaging data [0.13406576408866772]
Barttenderは、画像の有効性と、病気の予測のようなタスクの非画像データの比較にディープラーニングを使用する解釈可能なフレームワークである。
本フレームワークでは,局所的な(サンプルレベルの)説明やグローバルな(人口レベルの)説明だけでなく,パフォーマンス測定による実用性の違いを評価することができる。
論文 参考訳(メタデータ) (2024-11-19T18:22:25Z) - Predicting Stroke through Retinal Graphs and Multimodal Self-supervised Learning [0.46835339362676565]
脳卒中の早期発見は介入に不可欠であり、信頼できるモデルを必要とする。
臨床情報とともに効率的な網膜像表現法を提案し,心血管の健康状態の包括的把握を試みた。
論文 参考訳(メタデータ) (2024-11-08T14:40:56Z) - LoGra-Med: Long Context Multi-Graph Alignment for Medical Vision-Language Model [55.80651780294357]
最新の医療用マルチモーダル大規模言語モデル(med-MLLM)は、事前訓練において命令追従データを活用する。
LoGra-Medは新しいマルチグラフアライメントアルゴリズムで、画像のモダリティ、会話ベースの記述、拡張キャプション間でのトリプルト相関を強制する。
以上の結果から,LoGra-Medは医療用VQAの600K画像テキスト対に対してLAVA-Medと一致し,その10%でトレーニングした場合に有意に優れていた。
論文 参考訳(メタデータ) (2024-10-03T15:52:03Z) - ViKL: A Mammography Interpretation Framework via Multimodal Aggregation of Visual-knowledge-linguistic Features [54.37042005469384]
MVKLは,マルチビュー画像,詳細な表示,報告を含む最初のマルチモーダルマンモグラフィーデータセットである。
このデータセットに基づいて、教師なし事前学習のチャラリングタスクに焦点を当てる。
視覚,知識,言語機能を相乗化するフレームワークであるViKLを提案する。
論文 参考訳(メタデータ) (2024-09-24T05:01:23Z) - Contrast Everything: A Hierarchical Contrastive Framework for Medical
Time-Series [12.469204999759965]
COMETは、医療時系列のすべての固有のレベルにおいてデータのコンピテンシーを活用する革新的な階層的フレームワークである。
我々の綿密に設計されたモデルは、観察、サンプル、トライアル、患者レベルという4つの潜在的なレベルからデータ一貫性を体系的にキャプチャする。
心筋梗塞の心電図信号とアルツハイマー病とパーキンソン病の脳波信号を含む3つの多様なデータセットを用いて,COMETと6つのベースラインを比較した。
論文 参考訳(メタデータ) (2023-10-21T13:59:31Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - AMIGO: Sparse Multi-Modal Graph Transformer with Shared-Context
Processing for Representation Learning of Giga-pixel Images [53.29794593104923]
本稿では,スライド病理像全体に対する共有コンテキスト処理の新たな概念を提案する。
AMIGOは、組織内のセルラーグラフを使用して、患者に単一の表現を提供する。
我々のモデルは、データの20%以下で同じ性能を達成できる程度に、欠落した情報に対して強い堅牢性を示す。
論文 参考訳(メタデータ) (2023-03-01T23:37:45Z) - Metadata-enhanced contrastive learning from retinal optical coherence tomography images [7.932410831191909]
従来のコントラストフレームワークを新しいメタデータ強化戦略で拡張する。
本手法では,画像間のコントラスト関係の真のセットを近似するために,患者メタデータを広く活用する。
提案手法は、6つの画像レベル下流タスクのうち5つにおいて、標準コントラスト法と網膜画像基盤モデルの両方に優れる。
論文 参考訳(メタデータ) (2022-08-04T08:53:15Z) - DSAL: Deeply Supervised Active Learning from Strong and Weak Labelers
for Biomedical Image Segmentation [13.707848142719424]
アクティブ学習とセミスーパーバイザー学習戦略を組み合わせた深層アクティブセミスーパーバイザー学習フレームワークDSALを提案します。
DSALでは, 深層監視機構に基づく新たな基準が提案され, 高い不確実性を有する情報サンプルを選定する。
提案した基準を用いて,強ラベルと弱ラベルのサンプルを選択し,各アクティブな学習イテレーションにおいて,オラクルラベルと擬似ラベルを同時に生成する。
論文 参考訳(メタデータ) (2021-01-22T11:31:33Z) - Cross-Modal Information Maximization for Medical Imaging: CMIM [62.28852442561818]
病院では、同じ情報を異なるモダリティの下で利用できるようにする特定の情報システムにデータがサイロ化される。
これは、テスト時に常に利用できないかもしれない同じ情報の複数のビューを列車で取得し、使用するためのユニークな機会を提供する。
テスト時にモダリティの低下に耐性を持つマルチモーダル入力の優れた表現を学習することで、利用可能なデータを最大限活用する革新的なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T20:05:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。