論文の概要: Multimodal Medical Image Classification via Synergistic Learning Pre-training
- arxiv url: http://arxiv.org/abs/2509.17492v1
- Date: Mon, 22 Sep 2025 08:21:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.293406
- Title: Multimodal Medical Image Classification via Synergistic Learning Pre-training
- Title(参考訳): 相乗学習事前学習によるマルチモーダル医用画像分類
- Authors: Qinghua Lin, Guang-Hai Liu, Zuoyong Li, Yang Li, Yuting Jiang, Xiang Wu,
- Abstract要約: マルチモーダルな半教師付き医用画像分類のための新しいフレームワークを提案する。
1つのモダリティを他のモダリティの強化サンプルとして扱うことにより、自己教師付き学習事前訓練を実装した。
微調整の段階では、異なるエンコーダを設定し、元のモダリティから特徴を抽出する。
- 参考スコア(独自算出の注目度): 20.818508328120974
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal pathological images are usually in clinical diagnosis, but computer vision-based multimodal image-assisted diagnosis faces challenges with modality fusion, especially in the absence of expert-annotated data. To achieve the modality fusion in multimodal images with label scarcity, we propose a novel ``pretraining + fine-tuning" framework for multimodal semi-supervised medical image classification. Specifically, we propose a synergistic learning pretraining framework of consistency, reconstructive, and aligned learning. By treating one modality as an augmented sample of another modality, we implement a self-supervised learning pre-train, enhancing the baseline model's feature representation capability. Then, we design a fine-tuning method for multimodal fusion. During the fine-tuning stage, we set different encoders to extract features from the original modalities and provide a multimodal fusion encoder for fusion modality. In addition, we propose a distribution shift method for multimodal fusion features, which alleviates the prediction uncertainty and overfitting risks caused by the lack of labeled samples. We conduct extensive experiments on the publicly available gastroscopy image datasets Kvasir and Kvasirv2. Quantitative and qualitative results demonstrate that the proposed method outperforms the current state-of-the-art classification methods. The code will be released at: https://github.com/LQH89757/MICS.
- Abstract(参考訳): マルチモーダル画像は通常、臨床診断において用いられるが、コンピュータビジョンに基づくマルチモーダル画像支援診断は、特に専門家による注釈データがない場合に、モダリティ融合の課題に直面している。
ラベル不足を伴うマルチモーダル画像のモダリティ融合を実現するために,マルチモーダル半教師付き医用画像分類のための「事前調整・微調整」フレームワークを提案する。
具体的には、一貫性、再構築、整合性学習のための相乗的学習事前学習フレームワークを提案する。
1つのモダリティを他のモダリティの強化サンプルとして扱うことで、ベースラインモデルの特徴表現能力を向上し、自己教師付き学習事前訓練を実装した。
そこで我々は,マルチモーダル核融合のための微調整法を設計した。
微調整の段階では、異なるエンコーダを設定して、元のモダリティから特徴を抽出し、融合モダリティのためのマルチモーダル融合エンコーダを提供する。
また,ラベル付きサンプルの欠如による予測の不確実性や過度に適合するリスクを軽減し,マルチモーダル核融合特性の分布シフト法を提案する。
Kvasir と Kvasirv2 のガストロスコープ画像データセットについて広範な実験を行った。
定量的および定性的な結果は,提案手法が現在最先端の分類法より優れていることを示す。
コードは、https://github.com/LQH89757/MICSでリリースされる。
関連論文リスト
- Edge-Enhanced Dilated Residual Attention Network for Multimodal Medical Image Fusion [13.029564509505676]
マルチモーダル・メディカル・イメージ・フュージョン(Multimodal Medical Image fusion)は、様々な画像モダリティからの相補的な情報を統一的な表現に結合する重要なタスクである。
深層学習手法は融合性能が著しく向上しているが、既存のCNNベースの手法では、微細なマルチスケールとエッジの特徴を捉えるには不十分である。
マルチスケール機能抽出のためのDilated Residual Attention Network Moduleを導入することで,これらの制約に対処する新しいCNNアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-11-18T18:11:53Z) - Deep Multimodal Collaborative Learning for Polyp Re-Identification [4.4028428688691905]
大腸内視鏡によるポリープ再同定は、大きなギャラリーの同じポリープと異なるカメラで撮影された異なるビューの画像とを一致させることを目的としている。
ImageNetデータセットでトレーニングされたCNNモデルを直接適用する従来のオブジェクトReIDの手法は、不満足な検索性能をもたらす。
本稿では,ポリプ再同定のためのDMCLという新しい多モーダル協調学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-12T04:05:19Z) - Application of Multimodal Fusion Deep Learning Model in Disease Recognition [14.655086303102575]
本稿では,従来の単一モーダル認識手法の欠点を克服する,革新的なマルチモーダル融合深層学習手法を提案する。
特徴抽出段階では、画像ベース、時間的、構造化されたデータソースから高度な特徴を抽出するために最先端のディープラーニングモデルを適用する。
その結果, マルチモーダル融合モデルにおいて, 複数の評価指標にまたがる大きな利点が示された。
論文 参考訳(メタデータ) (2024-05-22T23:09:49Z) - NeuroPictor: Refining fMRI-to-Image Reconstruction via Multi-individual Pretraining and Multi-level Modulation [55.51412454263856]
本稿では,fMRI信号を用いた拡散モデル生成過程を直接変調することを提案する。
様々な個人から約67,000 fMRI-imageペアのトレーニングを行うことで,fMRI-to-imageデコーディング能力に優れたモデルが得られた。
論文 参考訳(メタデータ) (2024-03-27T02:42:52Z) - Multi-modal Medical Neurological Image Fusion using Wavelet Pooled Edge
Preserving Autoencoder [3.3828292731430545]
本稿では,エッジ保存型高密度オートエンコーダネットワークに基づくマルチモーダル医用画像に対するエンドツーエンド非教師付き核融合モデルを提案する。
提案モデルでは,特徴マップのウェーブレット分解に基づくアテンションプールを用いて特徴抽出を改善する。
提案モデルでは,ソース画像の強度分布の把握を支援する様々な医用画像ペアを訓練する。
論文 参考訳(メタデータ) (2023-10-18T11:59:35Z) - Equivariant Multi-Modality Image Fusion [124.11300001864579]
エンドツーエンドの自己教師型学習のための同変多モードImAge融合パラダイムを提案する。
我々のアプローチは、自然画像応答が特定の変換に等しくなるという以前の知識に根ざしている。
実験により、EMMAは赤外線可視画像と医用画像に高品質な融合結果をもたらすことが確認された。
論文 参考訳(メタデータ) (2023-05-19T05:50:24Z) - Ambiguous Medical Image Segmentation using Diffusion Models [60.378180265885945]
我々は,グループ洞察の分布を学習することで,複数の可算出力を生成する単一拡散モデルに基づくアプローチを提案する。
提案モデルでは,拡散の固有のサンプリングプロセスを利用してセグメンテーションマスクの分布を生成する。
その結果,提案手法は既存の最先端曖昧なセグメンテーションネットワークよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-04-10T17:58:22Z) - DDFM: Denoising Diffusion Model for Multi-Modality Image Fusion [144.9653045465908]
拡散確率モデル(DDPM)に基づく新しい融合アルゴリズムを提案する。
近赤外可視画像融合と医用画像融合で有望な融合が得られた。
論文 参考訳(メタデータ) (2023-03-13T04:06:42Z) - Coupled Feature Learning for Multimodal Medical Image Fusion [42.23662451234756]
マルチモーダル画像融合は、取得した画像と異なるセンサーの関連情報を組み合わせることを目指しています。
本稿では,結合辞書学習に基づく新しいマルチモーダル画像融合法を提案する。
論文 参考訳(メタデータ) (2021-02-17T09:13:28Z) - Hi-Net: Hybrid-fusion Network for Multi-modal MR Image Synthesis [143.55901940771568]
マルチモーダルMR画像合成のためのHybrid-fusion Network(Hi-Net)を提案する。
当社のHi-Netでは,各モーダリティの表現を学習するために,モーダリティ特化ネットワークを用いている。
マルチモーダル合成ネットワークは、潜在表現と各モーダルの階層的特徴を密結合するように設計されている。
論文 参考訳(メタデータ) (2020-02-11T08:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。