論文の概要: Cross-Modal Clustering-Guided Negative Sampling for Self-Supervised Joint Learning from Medical Images and Reports
- arxiv url: http://arxiv.org/abs/2506.11674v1
- Date: Fri, 13 Jun 2025 11:08:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.761664
- Title: Cross-Modal Clustering-Guided Negative Sampling for Self-Supervised Joint Learning from Medical Images and Reports
- Title(参考訳): 医用画像からの自己監督型共同学習のためのクロスモーダルクラスタリング陰性サンプリングとその報告
- Authors: Libin Lan, Hongxing Li, Zunhui Xia, Juan Zhou, Xiaofei Zhu, Yongmei Li, Yudong Zhang, Xin Luo,
- Abstract要約: 本稿では,2次元のアイデアを用いたCross-Modal Cluster-Guided Negative Smpling (CM-CGNS)法を提案する。
まず、シングルモーダルドメインのローカルテキスト機能に使用されるk-meansクラスタリングを、クロスモーダルアテンションを通じてマルチモーダルドメインに拡張する。
第2に、マスクされた局所画像領域を再構成するために、クロスモーダルアテンションによって得られたローカルテキストと画像の特徴を利用する、CM-MIR(Cross-Modal Masked Image Reconstruction)モジュールを導入する。
- 参考スコア(独自算出の注目度): 11.734906190235066
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning medical visual representations directly from paired images and reports through multimodal self-supervised learning has emerged as a novel and efficient approach to digital diagnosis in recent years. However, existing models suffer from several severe limitations. 1) neglecting the selection of negative samples, resulting in the scarcity of hard negatives and the inclusion of false negatives; 2) focusing on global feature extraction, but overlooking the fine-grained local details that are crucial for medical image recognition tasks; and 3) contrastive learning primarily targets high-level features but ignoring low-level details which are essential for accurate medical analysis. Motivated by these critical issues, this paper presents a Cross-Modal Cluster-Guided Negative Sampling (CM-CGNS) method with two-fold ideas. First, it extends the k-means clustering used for local text features in the single-modal domain to the multimodal domain through cross-modal attention. This improvement increases the number of negative samples and boosts the model representation capability. Second, it introduces a Cross-Modal Masked Image Reconstruction (CM-MIR) module that leverages local text-to-image features obtained via cross-modal attention to reconstruct masked local image regions. This module significantly strengthens the model's cross-modal information interaction capabilities and retains low-level image features essential for downstream tasks. By well handling the aforementioned limitations, the proposed CM-CGNS can learn effective and robust medical visual representations suitable for various recognition tasks. Extensive experimental results on classification, detection, and segmentation tasks across five downstream datasets show that our method outperforms state-of-the-art approaches on multiple metrics, verifying its superior performance.
- Abstract(参考訳): 近年,デジタル診断への新規かつ効率的なアプローチとして,ペア画像から直接の医用視覚表現の学習やマルチモーダル・セルフ教師付き学習による報告が出現している。
しかし、既存のモデルはいくつかの厳しい制限に悩まされている。
1) 陰性サンプルの選択を怠り,硬性陰性が不足し,偽性陰性が混入する結果となる。
2)グローバルな特徴抽出に着目するが,医用画像認識作業に欠かせない局部的細部を見渡すこと
3) 対照的学習は主に高次特徴を対象とするが, 正確な医療分析に不可欠な低次細部を無視する。
これらの重要な問題に触発された本論文では,2次元のアイデアを用いたクロスモーダルクラスタガイド負サンプリング(CM-CGNS)手法を提案する。
まず、シングルモーダルドメインのローカルテキスト機能に使用されるk-meansクラスタリングを、クロスモーダルアテンションを通じてマルチモーダルドメインに拡張する。
この改善により、負のサンプルの数が増え、モデル表現能力が向上する。
第2に、マスクされた局所画像領域を再構成するために、クロスモーダルアテンションによって得られたローカルテキストと画像の特徴を利用する、CM-MIR(Cross-Modal Masked Image Reconstruction)モジュールを導入する。
このモジュールは、モデルのクロスモーダルな情報インタラクション機能を大幅に強化し、下流タスクに不可欠な低レベルの画像特性を保持します。
CM-CGNSは、上記の制約をうまく処理することにより、様々な認識タスクに適した効果的で堅牢な医用視覚表現を学習することができる。
5つの下流データセットにまたがる分類、検出、セグメンテーションタスクに関する大規模な実験結果から、本手法は複数のメトリクスに対する最先端のアプローチよりも優れており、その優れた性能が検証されている。
関連論文リスト
- PathSegDiff: Pathology Segmentation using Diffusion model representations [63.20694440934692]
そこで我々は,Latent Diffusion Models (LDMs) を事前学習した特徴抽出器として活用する,病理組織像分割の新しい手法であるPathSegDiffを提案する。
本手法は,H&E染色組織像から多彩な意味情報を抽出するために,自己教師型エンコーダによって誘導される病理特異的LCMを用いる。
本実験は,BCSSおよびGlaSデータセットにおける従来の手法よりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2025-04-09T14:58:21Z) - Cross-model Mutual Learning for Exemplar-based Medical Image Segmentation [25.874281336821685]
Exemplar-based Medical Image(CMEMS)のためのクロスモデル相互学習フレームワーク
外来医用画像のためのクロスモデル相互学習フレームワーク(CMEMS)について紹介する。
論文 参考訳(メタデータ) (2024-04-18T00:18:07Z) - Dual-scale Enhanced and Cross-generative Consistency Learning for Semi-supervised Medical Image Segmentation [49.57907601086494]
医用画像のセグメンテーションはコンピュータ支援診断において重要な役割を担っている。
半教師型医用画像(DEC-Seg)のための新しいDual-scale Enhanced and Cross-generative consistency learning frameworkを提案する。
論文 参考訳(メタデータ) (2023-12-26T12:56:31Z) - Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - Causality-Driven One-Shot Learning for Prostate Cancer Grading from MRI [1.049712834719005]
本稿では,画像中の弱い因果信号を学習し,活用する医用画像の自動分類手法を提案する。
我々のフレームワークは畳み込みニューラルネットワークのバックボーンと因果抽出モジュールで構成されている。
本研究は,特徴間の因果関係が,関連情報を識別するモデルの能力を高める上で重要な役割を担っていることを示す。
論文 参考訳(メタデータ) (2023-09-19T16:08:33Z) - CGAM: Click-Guided Attention Module for Interactive Pathology Image
Segmentation via Backpropagating Refinement [8.590026259176806]
腫瘍領域のセグメンテーションは、デジタル病理の定量的解析に欠かせない課題である。
最近のディープニューラルネットワークは、様々な画像分割タスクで最先端のパフォーマンスを示している。
本稿では,クリック型ユーザインタラクションによるディープニューラルネットワークの出力を改良する対話的セグメンテーション手法を提案する。
論文 参考訳(メタデータ) (2023-07-03T13:45:24Z) - Localized Region Contrast for Enhancing Self-Supervised Learning in
Medical Image Segmentation [27.82940072548603]
本稿では,地域コントラスト(LRC)を統合した新しいコントラスト学習フレームワークを提案する。
提案手法では,Felzenszwalbのアルゴリズムによるスーパーピクセルの同定と,新しいコントラッシブサンプリング損失を用いた局所コントラスト学習を行う。
論文 参考訳(メタデータ) (2023-04-06T22:43:13Z) - Mixed-UNet: Refined Class Activation Mapping for Weakly-Supervised
Semantic Segmentation with Multi-scale Inference [28.409679398886304]
我々は、デコードフェーズに2つの並列分岐を持つMixed-UNetという新しいモデルを開発する。
地域病院や公開データセットから収集したデータセットに対して,いくつかの一般的なディープラーニングに基づくセグメンテーションアプローチに対して,設計したMixed-UNetを評価した。
論文 参考訳(メタデータ) (2022-05-06T08:37:02Z) - Cross-Modality Brain Tumor Segmentation via Bidirectional
Global-to-Local Unsupervised Domain Adaptation [61.01704175938995]
本論文では,UDAスキームに基づくBiGL(Bidirectional Global-to-Local)適応フレームワークを提案する。
具体的には、脳腫瘍をセグメント化するために、双方向画像合成およびセグメンテーションモジュールを提案する。
提案手法は, 最先端の非教師なし領域適応法を大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-05-17T10:11:45Z) - Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for
Thoracic Disease Identification [83.6017225363714]
ディープラーニングは、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。
胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。
本論文では、単一モデルにおける疾患同定性能を改善するために、複数対1の分布学習(MODL)とK-nearest neighbor smoothing(KNNS)手法を提案する。
論文 参考訳(メタデータ) (2021-02-26T02:29:30Z) - Few-shot Medical Image Segmentation using a Global Correlation Network
with Discriminative Embedding [60.89561661441736]
医療画像分割のための新しい手法を提案する。
深層畳み込みネットワークを用いた数ショット画像セグメンタを構築します。
深層埋め込みの識別性を高め,同一クラスの特徴領域のクラスタリングを促進する。
論文 参考訳(メタデータ) (2020-12-10T04:01:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。