論文の概要: Enhancing Representation in Radiography-Reports Foundation Model: A
Granular Alignment Algorithm Using Masked Contrastive Learning
- arxiv url: http://arxiv.org/abs/2309.05904v2
- Date: Mon, 18 Sep 2023 01:23:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 22:06:29.837380
- Title: Enhancing Representation in Radiography-Reports Foundation Model: A
Granular Alignment Algorithm Using Masked Contrastive Learning
- Title(参考訳): radiography-reports foundation modelにおける表現の強化 : masked contrastive learningを用いた粒状アライメントアルゴリズム
- Authors: Weijian Huang and Cheng Li and Hao Yang and Jiarun Liu and Shanshan
Wang
- Abstract要約: MaCoは、マスク付きコントラスト学習を探求し、様々な医療画像タスクに対して、きめ細かいアライメントとゼロショット学習を実現する、新しいマルチモーダル医療基盤モデルである。
6つの有名なオープンソースX線データセット上でMaCoを評価し, 実験結果から, 分類, セグメンテーション, ゼロショット位相グラウンドニングにおいて, 最先端の7つのアプローチよりも優れた結果を得た。
- 参考スコア(独自算出の注目度): 8.717599327516822
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, multi-modal vision-language foundation models have gained
significant attention in the medical field. While these models offer great
opportunities, they still face a number of challenges, such as the requirement
for fine-grained knowledge understanding in computer-aided diagnosis and
capability of utilizing very limited or no task-specific labeled data in
real-world clinical applications. In this study, we present MaCo, a novel
multi-modal medical foundation model that explores masked contrastive learning
to achieve granular alignment and zero-shot learning for a variety of medical
imaging tasks. MaCo incorporates a correlation weighting mechanism to adjust
the correlation between masked image patches and their corresponding reports,
thereby enhancing the representation learning capabilities. We evaluate MaCo on
six well-known open-source X-ray datasets, and the experimental results show it
outperforms seven state-of-the-art approaches for classification, segmentation,
and zero-shot phase grounding, demonstrating its great potential to promote a
wide range of medical image analysis tasks.
- Abstract(参考訳): 近年,医療分野では多モード視覚言語基盤モデルが注目されている。
これらのモデルは大きな機会を提供するが、コンピュータ支援診断におけるきめ細かい知識の理解の必要性や、実際の臨床応用におけるタスク固有のラベル付きデータの利用能力など、多くの課題に直面している。
本研究では,マルチモーダルな医療基盤モデルであるMaCoについて述べる。マスク付きコントラスト学習を用いて,様々な医用画像処理タスクに対して,微粒化とゼロショット学習を実現する。
MaCoには相関重み付け機構が組み込まれており、マスク画像パッチとその対応レポートの相関を調整し、表現学習能力を向上させる。
我々は,オープンソースのx線データセット6種についてmacoを評価し,その結果,分類,セグメンテーション,ゼロショット位相法における7つの最先端手法を上回っており,医療画像解析タスクを広範に促進する大きな可能性を示している。
関連論文リスト
- Towards a vision foundation model for comprehensive assessment of Cardiac MRI [11.838157772803282]
心臓磁気共鳴画像(CMR)評価のための視覚基礎モデルを提案する。
CMRワークフローに典型的な9つの臨床的タスクについて、教師付き方法でモデルを微調整する。
すべてのタスクにおいて、ラベル付きデータセットサイズの範囲で、精度と堅牢性が改善されたことを実証する。
論文 参考訳(メタデータ) (2024-10-02T15:32:01Z) - ViKL: A Mammography Interpretation Framework via Multimodal Aggregation of Visual-knowledge-linguistic Features [54.37042005469384]
MVKLは,マルチビュー画像,詳細な表示,報告を含む最初のマルチモーダルマンモグラフィーデータセットである。
このデータセットに基づいて、教師なし事前学習のチャラリングタスクに焦点を当てる。
視覚,知識,言語機能を相乗化するフレームワークであるViKLを提案する。
論文 参考訳(メタデータ) (2024-09-24T05:01:23Z) - COIN: Counterfactual inpainting for weakly supervised semantic segmentation for medical images [3.5418498524791766]
本研究は, 新規なカウンターファクト・インパインティング・アプローチ(COIN)の開発である。
COINは、予測された分類ラベルを生成モデルを用いて異常から正常に反転させる。
本手法の有効性は,エストニアのタルツ大学病院から取得したCT画像から,合成標的と実際の腎腫瘍を分離することによって実証される。
論文 参考訳(メタデータ) (2024-04-19T12:09:49Z) - Joint chest X-ray diagnosis and clinical visual attention prediction with multi-stage cooperative learning: enhancing interpretability [2.64700310378485]
胸部X線検査における関節疾患診断のための新しい深層学習フレームワークと対応する視力マップの予測について紹介する。
具体的には、DenseNet201バックボーンとResidualおよびSqueeze-and-Excitationブロックベースのエンコーダの両方を活用する、新しいデュアルエンコーダマルチタスクUNetを設計した。
実験の結果,提案手法は胸部X線診断や視力マップの精度に優れていた。
論文 参考訳(メタデータ) (2024-03-25T17:31:12Z) - Eye-gaze Guided Multi-modal Alignment for Medical Representation Learning [65.54680361074882]
アイゲイズガイドマルチモーダルアライメント(EGMA)フレームワークは、アイゲイズデータを利用して、医用視覚的特徴とテキスト的特徴のアライメントを改善する。
我々は4つの医療データセット上で画像分類と画像テキスト検索の下流タスクを行う。
論文 参考訳(メタデータ) (2024-03-19T03:59:14Z) - MLVICX: Multi-Level Variance-Covariance Exploration for Chest X-ray Self-Supervised Representation Learning [6.4136876268620115]
MLVICXは、胸部X線画像からの埋め込みの形でリッチな表現をキャプチャするアプローチである。
自己教師付き胸部X線表現学習におけるMLVICXの性能を示す。
論文 参考訳(メタデータ) (2024-03-18T06:19:37Z) - MUSCLE: Multi-task Self-supervised Continual Learning to Pre-train Deep
Models for X-ray Images of Multiple Body Parts [63.30352394004674]
MUSCLE(Multi-task Self-super-vised Continual Learning)は、医用画像処理タスクのための、新しい自己教師付き事前学習パイプラインである。
MUSCLEは、複数の身体部分から収集したX線を集約して表現学習を行い、よく設計された連続学習手順を採用する。
肺炎分類,骨格異常分類,肺セグメンテーション,結核(TB)検出など,9つの実世界のX線データセットを用いてMUSCLEを評価する。
論文 参考訳(メタデータ) (2023-10-03T12:19:19Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Explainable Deep Learning Methods in Medical Image Classification: A
Survey [0.0]
最先端のディープラーニングモデルは、異なるタイプの医療データの分類において、人間レベルの精度を達成した。
これらのモデルは、主に解釈可能性の欠如のために、臨床ではほとんど採用されていない。
ディープラーニングモデルのブラックボックス性は、これらのモデルの意思決定プロセスを説明するための戦略を考案する必要性を高めている。
論文 参考訳(メタデータ) (2022-05-10T09:28:14Z) - Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for
Thoracic Disease Identification [83.6017225363714]
ディープラーニングは、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。
胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。
本論文では、単一モデルにおける疾患同定性能を改善するために、複数対1の分布学習(MODL)とK-nearest neighbor smoothing(KNNS)手法を提案する。
論文 参考訳(メタデータ) (2021-02-26T02:29:30Z) - Weakly supervised multiple instance learning histopathological tumor
segmentation [51.085268272912415]
スライド画像全体のセグメント化のための弱教師付きフレームワークを提案する。
トレーニングモデルに複数のインスタンス学習スキームを利用する。
提案するフレームワークは,The Cancer Genome AtlasとPatchCamelyonデータセットのマルチロケーションとマルチ中心公開データに基づいて評価されている。
論文 参考訳(メタデータ) (2020-04-10T13:12:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。