論文の概要: Enhancing Representation in Radiography-Reports Foundation Model: A
Granular Alignment Algorithm Using Masked Contrastive Learning
- arxiv url: http://arxiv.org/abs/2309.05904v2
- Date: Mon, 18 Sep 2023 01:23:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 22:06:29.837380
- Title: Enhancing Representation in Radiography-Reports Foundation Model: A
Granular Alignment Algorithm Using Masked Contrastive Learning
- Title(参考訳): radiography-reports foundation modelにおける表現の強化 : masked contrastive learningを用いた粒状アライメントアルゴリズム
- Authors: Weijian Huang and Cheng Li and Hao Yang and Jiarun Liu and Shanshan
Wang
- Abstract要約: MaCoは、マスク付きコントラスト学習を探求し、様々な医療画像タスクに対して、きめ細かいアライメントとゼロショット学習を実現する、新しいマルチモーダル医療基盤モデルである。
6つの有名なオープンソースX線データセット上でMaCoを評価し, 実験結果から, 分類, セグメンテーション, ゼロショット位相グラウンドニングにおいて, 最先端の7つのアプローチよりも優れた結果を得た。
- 参考スコア(独自算出の注目度): 8.717599327516822
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, multi-modal vision-language foundation models have gained
significant attention in the medical field. While these models offer great
opportunities, they still face a number of challenges, such as the requirement
for fine-grained knowledge understanding in computer-aided diagnosis and
capability of utilizing very limited or no task-specific labeled data in
real-world clinical applications. In this study, we present MaCo, a novel
multi-modal medical foundation model that explores masked contrastive learning
to achieve granular alignment and zero-shot learning for a variety of medical
imaging tasks. MaCo incorporates a correlation weighting mechanism to adjust
the correlation between masked image patches and their corresponding reports,
thereby enhancing the representation learning capabilities. We evaluate MaCo on
six well-known open-source X-ray datasets, and the experimental results show it
outperforms seven state-of-the-art approaches for classification, segmentation,
and zero-shot phase grounding, demonstrating its great potential to promote a
wide range of medical image analysis tasks.
- Abstract(参考訳): 近年,医療分野では多モード視覚言語基盤モデルが注目されている。
これらのモデルは大きな機会を提供するが、コンピュータ支援診断におけるきめ細かい知識の理解の必要性や、実際の臨床応用におけるタスク固有のラベル付きデータの利用能力など、多くの課題に直面している。
本研究では,マルチモーダルな医療基盤モデルであるMaCoについて述べる。マスク付きコントラスト学習を用いて,様々な医用画像処理タスクに対して,微粒化とゼロショット学習を実現する。
MaCoには相関重み付け機構が組み込まれており、マスク画像パッチとその対応レポートの相関を調整し、表現学習能力を向上させる。
我々は,オープンソースのx線データセット6種についてmacoを評価し,その結果,分類,セグメンテーション,ゼロショット位相法における7つの最先端手法を上回っており,医療画像解析タスクを広範に促進する大きな可能性を示している。
関連論文リスト
- Less is more: Ensemble Learning for Retinal Disease Recognition Under
Limited Resources [12.119196313470887]
本稿では,限られた資源で網膜疾患を認識できる新しいアンサンブル学習機構を提案する。
このメカニズムは、複数の事前訓練されたモデルからの洞察を活用し、その知識を網膜CT画像に転送し適応させる。
論文 参考訳(メタデータ) (2024-02-15T06:58:25Z) - MLIP: Enhancing Medical Visual Representation with Divergence Encoder
and Knowledge-guided Contrastive Learning [48.97640824497327]
本稿では、画像テキストのコントラスト学習を通じて、言語情報を視覚領域に統合するための案内信号として、ドメイン固有の医療知識を活用する新しいフレームワークを提案する。
我々のモデルには、設計した分散エンコーダによるグローバルコントラスト学習、局所トークン・知識・パッチアライメントコントラスト学習、知識誘導型カテゴリレベルのコントラスト学習、エキスパートナレッジによるコントラスト学習が含まれる。
特に、MLIPは、限られた注釈付きデータであっても最先端の手法を超越し、医療表現学習の進歩におけるマルチモーダル事前学習の可能性を強調している。
論文 参考訳(メタデータ) (2024-02-03T05:48:50Z) - Enhancing Representation in Medical Vision-Language Foundation Models
via Multi-Scale Information Extraction Techniques [41.078761802053535]
本稿では,医療基盤モデルの性能向上のために,マルチスケール情報を効果的に活用する手法を提案する。
本研究では,6つのオープンソースデータセットに対する提案手法の有効性について検討した。
論文 参考訳(メタデータ) (2024-01-03T07:22:54Z) - Exploring Transfer Learning in Medical Image Segmentation using
Vision-Language Models [0.9324036842528547]
本稿では,VLSMの2次元医用画像への変換学習に関する最初のベンチマーク研究について述べる。
以上の結果から,VLSMは自然画像とテキストのペアで訓練され,ゼロショット設定で医療領域に合理的に移行することが示唆された。
しかし、微調整中の言語プロンプトのさらなる利点は限られているかもしれない。
論文 参考訳(メタデータ) (2023-08-15T11:28:21Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Ambiguous Medical Image Segmentation using Diffusion Models [60.378180265885945]
我々は,グループ洞察の分布を学習することで,複数の可算出力を生成する単一拡散モデルに基づくアプローチを提案する。
提案モデルでは,拡散の固有のサンプリングプロセスを利用してセグメンテーションマスクの分布を生成する。
その結果,提案手法は既存の最先端曖昧なセグメンテーションネットワークよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-04-10T17:58:22Z) - Generalized Multi-Task Learning from Substantially Unlabeled
Multi-Source Medical Image Data [11.061381376559053]
MultiMixは、病気の分類と解剖学的セグメンテーションを半教師付きで共同で学習する、新しいマルチタスク学習モデルである。
トレーニングセットにおける多ソースラベル付きデータの多量化実験により,MultiMixの有効性が確認された。
論文 参考訳(メタデータ) (2021-10-25T18:09:19Z) - Deep Co-Attention Network for Multi-View Subspace Learning [73.3450258002607]
マルチビューサブスペース学習のための深層コアテンションネットワークを提案する。
共通情報と相補情報の両方を敵意で抽出することを目的としている。
特に、新しいクロス再構成損失を使用し、ラベル情報を利用して潜在表現の構築を誘導する。
論文 参考訳(メタデータ) (2021-02-15T18:46:44Z) - Few-shot Medical Image Segmentation using a Global Correlation Network
with Discriminative Embedding [60.89561661441736]
医療画像分割のための新しい手法を提案する。
深層畳み込みネットワークを用いた数ショット画像セグメンタを構築します。
深層埋め込みの識別性を高め,同一クラスの特徴領域のクラスタリングを促進する。
論文 参考訳(メタデータ) (2020-12-10T04:01:07Z) - Medical Image Harmonization Using Deep Learning Based Canonical Mapping:
Toward Robust and Generalizable Learning in Imaging [4.396671464565882]
多様な取得条件のデータを共通参照領域に"調和"する新しいパラダイムを提案する。
我々は,MRIによる脳年齢予測と統合失調症の分類という,2つの問題に対して本手法を検証した。
論文 参考訳(メタデータ) (2020-10-11T22:01:37Z) - Weakly supervised multiple instance learning histopathological tumor
segmentation [51.085268272912415]
スライド画像全体のセグメント化のための弱教師付きフレームワークを提案する。
トレーニングモデルに複数のインスタンス学習スキームを利用する。
提案するフレームワークは,The Cancer Genome AtlasとPatchCamelyonデータセットのマルチロケーションとマルチ中心公開データに基づいて評価されている。
論文 参考訳(メタデータ) (2020-04-10T13:12:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。