論文の概要: SMFusion: Semantic-Preserving Fusion of Multimodal Medical Images for Enhanced Clinical Diagnosis
- arxiv url: http://arxiv.org/abs/2505.12251v1
- Date: Sun, 18 May 2025 06:15:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.12086
- Title: SMFusion: Semantic-Preserving Fusion of Multimodal Medical Images for Enhanced Clinical Diagnosis
- Title(参考訳): SMFusion:多モード医用画像のセマンティック保存融合による臨床診断の高度化
- Authors: Haozhe Xiang, Han Zhang, Yu Cheng, Xiongwen Quan, Wanwan Huang,
- Abstract要約: 医用先行知識を融合プロセスに組み込んだ,意味誘導型医用画像融合手法を提案する。
融合画像から診断報告を生成し,医療情報の保存性を評価する。
実験結果から, 定性評価と定量的評価の両方において, 提案手法が優れた性能を発揮することが示された。
- 参考スコア(独自算出の注目度): 11.356721356096564
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal medical image fusion plays a crucial role in medical diagnosis by integrating complementary information from different modalities to enhance image readability and clinical applicability. However, existing methods mainly follow computer vision standards for feature extraction and fusion strategy formulation, overlooking the rich semantic information inherent in medical images. To address this limitation, we propose a novel semantic-guided medical image fusion approach that, for the first time, incorporates medical prior knowledge into the fusion process. Specifically, we construct a publicly available multimodal medical image-text dataset, upon which text descriptions generated by BiomedGPT are encoded and semantically aligned with image features in a high-dimensional space via a semantic interaction alignment module. During this process, a cross attention based linear transformation automatically maps the relationship between textual and visual features to facilitate comprehensive learning. The aligned features are then embedded into a text-injection module for further feature-level fusion. Unlike traditional methods, we further generate diagnostic reports from the fused images to assess the preservation of medical information. Additionally, we design a medical semantic loss function to enhance the retention of textual cues from the source images. Experimental results on test datasets demonstrate that the proposed method achieves superior performance in both qualitative and quantitative evaluations while preserving more critical medical information.
- Abstract(参考訳): 画像の可読性と臨床応用性を高めるために, 異なるモダリティからの相補的な情報を統合することで, 医療診断において, マルチモーダル医用画像融合が重要な役割を担っている。
しかし,既存の手法は主に特徴抽出と融合戦略定式化のためのコンピュータビジョン標準に従っており,医用画像に固有のリッチな意味情報を見渡せる。
この限界に対処するために,医用先行知識を融合プロセスに組み込む新しい意味誘導型医用画像融合手法を提案する。
具体的には、BiomedGPTによって生成されたテキスト記述を、意味的相互作用アライメントモジュールを介して高次元空間における画像特徴に符号化し、意味的に整合させる、公開されているマルチモーダルな医用画像テキストデータセットを構築する。
この過程で、横断的注意に基づく線形変換は、テキストと視覚的特徴の関係を自動的にマッピングし、包括的な学習を容易にする。
整列された機能は、さらに機能レベルの融合のためにテキスト注入モジュールに埋め込まれる。
従来の方法とは異なり、融合画像から診断報告を生成し、医療情報の保存を評価する。
さらに,医用セマンティック・ロス関数を設計し,画像からのテキスト・キューの保持性を高める。
実験結果から, 本手法は, より重要な医療情報を保存しつつ, 質的, 定量的評価の両面で優れた性能を発揮することが示された。
関連論文リスト
- Fuse4Seg: Image-Level Fusion Based Multi-Modality Medical Image Segmentation [13.497613339200184]
現在の機能レベルの融合戦略は、セマンティックな不整合やミスアライメントを引き起こす傾向がある、と我々は主張する。
画像レベルでの融合に基づく新しい医用画像分割法Fuse4Segを提案する。
得られた融合画像は、すべてのモダリティからの情報を正確にアマルガメートするコヒーレントな表現である。
論文 参考訳(メタデータ) (2024-09-16T14:39:04Z) - Eye-gaze Guided Multi-modal Alignment for Medical Representation Learning [65.54680361074882]
アイゲイズガイドマルチモーダルアライメント(EGMA)フレームワークは、アイゲイズデータを利用して、医用視覚的特徴とテキスト的特徴のアライメントを改善する。
我々は4つの医療データセット上で画像分類と画像テキスト検索の下流タスクを行う。
論文 参考訳(メタデータ) (2024-03-19T03:59:14Z) - MLIP: Enhancing Medical Visual Representation with Divergence Encoder
and Knowledge-guided Contrastive Learning [48.97640824497327]
本稿では、画像テキストのコントラスト学習を通じて、言語情報を視覚領域に統合するための案内信号として、ドメイン固有の医療知識を活用する新しいフレームワークを提案する。
我々のモデルには、設計した分散エンコーダによるグローバルコントラスト学習、局所トークン・知識・パッチアライメントコントラスト学習、知識誘導型カテゴリレベルのコントラスト学習、エキスパートナレッジによるコントラスト学習が含まれる。
特に、MLIPは、限られた注釈付きデータであっても最先端の手法を超越し、医療表現学習の進歩におけるマルチモーダル事前学習の可能性を強調している。
論文 参考訳(メタデータ) (2024-02-03T05:48:50Z) - AliFuse: Aligning and Fusing Multi-modal Medical Data for Computer-Aided Diagnosis [1.64647940449869]
マルチモーダル医療データの整合と融合のためのトランスフォーマーベースのフレームワークであるAlifuseを提案する。
医用画像と非構造化および構造化された臨床記録を視覚と言語トークンに変換する。
Alifuseを使ってアルツハイマー病を分類し、5つのパブリックデータセットで最先端のパフォーマンスを達成し、8つのベースラインを上回ります。
論文 参考訳(メタデータ) (2024-01-02T07:28:21Z) - Radiology Report Generation Using Transformers Conditioned with
Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。
提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文 参考訳(メタデータ) (2023-11-18T14:52:26Z) - A New Multimodal Medical Image Fusion based on Laplacian Autoencoder
with Channel Attention [3.1531360678320897]
ディープラーニングモデルは、非常に堅牢で正確なパフォーマンスでエンドツーエンドの画像融合を実現した。
ほとんどのDLベースの融合モデルは、学習可能なパラメータや計算量を最小限に抑えるために、入力画像上でダウンサンプリングを行う。
本稿では,ラープラシア・ガウス統合とアテンションプールを融合したマルチモーダル医用画像融合モデルを提案する。
論文 参考訳(メタデータ) (2023-10-18T11:29:53Z) - Multi-task Paired Masking with Alignment Modeling for Medical
Vision-Language Pre-training [55.56609500764344]
本稿では,マルチタスク・ペアド・マスキング・アライメント(MPMA)に基づく統合フレームワークを提案する。
また, メモリ拡張クロスモーダルフュージョン (MA-CMF) モジュールを導入し, 視覚情報を完全統合し, レポート再構築を支援する。
論文 参考訳(メタデータ) (2023-05-13T13:53:48Z) - An Attention-based Multi-Scale Feature Learning Network for Multimodal
Medical Image Fusion [24.415389503712596]
マルチモーダル医療画像は、医師が診断する患者についての豊富な情報を提供する可能性がある。
画像融合技術は、マルチモーダル画像からの補完情報を単一の画像に合成することができる。
医用画像融合タスクのための新しいDilated Residual Attention Networkを提案する。
論文 参考訳(メタデータ) (2022-12-09T04:19:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。