論文の概要: Multimodal Medical Endoscopic Image Analysis via Progressive Disentangle-aware Contrastive Learning
- arxiv url: http://arxiv.org/abs/2508.16882v1
- Date: Sat, 23 Aug 2025 03:02:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.235224
- Title: Multimodal Medical Endoscopic Image Analysis via Progressive Disentangle-aware Contrastive Learning
- Title(参考訳): プログレッシブディスタングル対応コントラスト学習によるマルチモーダル医用内視鏡画像解析
- Authors: Junhao Wu, Yun Li, Junhao Li, Jingliang Bian, Xiaomao Fan, Wenbin Lei, Ruxin Wang,
- Abstract要約: 本稿では,Align-Disentangle-Fusion'機構に基づく,革新的な多モード表現学習フレームワークを提案する。
本手法は最先端のアプローチを一貫して上回り,様々な臨床シナリオにおいて高い精度を達成している。
- 参考スコア(独自算出の注目度): 11.158864816564538
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate segmentation of laryngo-pharyngeal tumors is crucial for precise diagnosis and effective treatment planning. However, traditional single-modality imaging methods often fall short of capturing the complex anatomical and pathological features of these tumors. In this study, we present an innovative multi-modality representation learning framework based on the `Align-Disentangle-Fusion' mechanism that seamlessly integrates 2D White Light Imaging (WLI) and Narrow Band Imaging (NBI) pairs to enhance segmentation performance. A cornerstone of our approach is multi-scale distribution alignment, which mitigates modality discrepancies by aligning features across multiple transformer layers. Furthermore, a progressive feature disentanglement strategy is developed with the designed preliminary disentanglement and disentangle-aware contrastive learning to effectively separate modality-specific and shared features, enabling robust multimodal contrastive learning and efficient semantic fusion. Comprehensive experiments on multiple datasets demonstrate that our method consistently outperforms state-of-the-art approaches, achieving superior accuracy across diverse real clinical scenarios.
- Abstract(参考訳): 喉頭咽頭腫瘍の正確な分節化は,正確な診断と治療計画に不可欠である。
しかし、従来の単一モダリティイメージング法は、これらの腫瘍の複雑な解剖学的、病理学的特徴を捉えるには不十分であることが多い。
本研究では,2次元白色光画像(WLI)と狭帯域画像(NBI)をシームレスに統合し,セグメンテーション性能を向上させる「アライン・ディケンタングル・フュージョン」機構に基づく,革新的な多モード表現学習フレームワークを提案する。
提案手法の基盤となるのはマルチスケール分布アライメントであり,複数層にまたがる特徴の整合によるモダリティの相違を緩和する。
さらに, 事前の絡み合いと非絡み合いを意識したコントラスト学習を設計し, 頑健なマルチモーダルコントラスト学習と効率的なセマンティックフュージョンを実現し, モダリティ固有の特徴と共有特徴を効果的に分離する。
複数のデータセットに対する総合的な実験により、我々の手法は最先端のアプローチを一貫して上回り、様々な臨床シナリオにおいて優れた精度を達成できることを示した。
関連論文リスト
- Robust Incomplete-Modality Alignment for Ophthalmic Disease Grading and Diagnosis via Labeled Optimal Transport [28.96009174108652]
眼底画像と光コヒーレンス断層撮影(OCT)を併用したマルチモーダル眼底画像診断を行った。
既存の一般的なパイプライン、例えばモダリティ計算や蒸留法は、顕著な制限に直面している。
本稿では,眼科診断の課題において欠落したモダリティを頑健に扱える新しい多モードアライメントと融合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-07T13:36:39Z) - MoRE: Multi-Modal Contrastive Pre-training with Transformers on X-Rays, ECGs, and Diagnostic Report [4.340464264725625]
我々は,X線,心電図(ECG),放射線学・心臓医学報告を相乗的に組み合わせた,新しいマルチモーダルコントラスト事前学習フレームワークを提案する。
我々はLoRA-Peftを用いて、LLMにおけるトレーニング可能なパラメータを著しく削減し、視覚変換器(ViT)に最近の線形アテンション降下戦略を取り入れ、よりスムーズなアテンションを実現する。
我々の知る限り、我々はX線、心電図、放射線学・医学レポートをこの手法と組み合わせた統合モデルを提案している。
論文 参考訳(メタデータ) (2024-10-21T17:42:41Z) - Joint Self-Supervised and Supervised Contrastive Learning for Multimodal
MRI Data: Towards Predicting Abnormal Neurodevelopment [5.771221868064265]
マルチモーダルMRIデータから頑健な潜在特徴表現を学習するための,新しい自己教師付きコントラスト学習法を提案する。
本手法は,マルチモーダルデータの活用により,臨床実習におけるコンピュータ支援診断を容易にする能力を有する。
論文 参考訳(メタデータ) (2023-12-22T21:05:51Z) - Bridging Synthetic and Real Images: a Transferable and Multiple
Consistency aided Fundus Image Enhancement Framework [61.74188977009786]
画像強調とドメイン適応を同時に行うために,エンドツーエンドの教師支援フレームワークを提案する。
また,教師ネットワークと学生ネットワークのバックボーンとして,マルチステージ型マルチアテンション・ガイド・エンハンスメント・ネットワーク(MAGE-Net)を提案する。
論文 参考訳(メタデータ) (2023-02-23T06:16:15Z) - Toward Unpaired Multi-modal Medical Image Segmentation via Learning
Structured Semantic Consistency [24.78258331561847]
本稿では,異なるモダリティの相互利益を学習し,不自由な医療画像に対してより良いセグメンテーション結果を得るための新しい手法を提案する。
我々は、慎重に設計された外部注意モジュール(EAM)を利用して、セマンティッククラス表現とそれらの異なるモダリティの相関を調整します。
提案手法の有効性を2つの医療画像セグメンテーションシナリオで実証した。
論文 参考訳(メタデータ) (2022-06-21T17:50:29Z) - Cross-Modality Deep Feature Learning for Brain Tumor Segmentation [158.8192041981564]
本稿では, マルチモーダルMRIデータから脳腫瘍を抽出するクロスモーダルディープ・フィーチャーラーニング・フレームワークを提案する。
中心となる考え方は、不十分なデータスケールを補うために、マルチモダリティデータにまたがる豊富なパターンをマイニングすることだ。
on the BraTS benchmarks, this proposed cross-modality deep feature learning framework could effective improve the brain tumor segmentation performance。
論文 参考訳(メタデータ) (2022-01-07T07:46:01Z) - Incremental Cross-view Mutual Distillation for Self-supervised Medical
CT Synthesis [88.39466012709205]
本稿では,スライス間の分解能を高めるために,新しい医療スライスを構築した。
臨床実践において, 根本・中間医療スライスは常に欠落していることを考慮し, 相互蒸留の段階的相互蒸留戦略を導入する。
提案手法は,最先端のアルゴリズムよりも明確なマージンで優れる。
論文 参考訳(メタデータ) (2021-12-20T03:38:37Z) - Multi-modal Aggregation Network for Fast MR Imaging [85.25000133194762]
我々は,完全サンプル化された補助モダリティから補完表現を発見できる,MANetという新しいマルチモーダル・アグリゲーション・ネットワークを提案する。
我々のMANetでは,完全サンプリングされた補助的およびアンアンサンプされた目標モダリティの表現は,特定のネットワークを介して独立に学習される。
私たちのMANetは、$k$-spaceドメインの周波数信号を同時に回復できるハイブリッドドメイン学習フレームワークに従います。
論文 参考訳(メタデータ) (2021-10-15T13:16:59Z) - A Multi-Stage Attentive Transfer Learning Framework for Improving
COVID-19 Diagnosis [49.3704402041314]
新型コロナの診断を改善するための多段階集中移動学習フレームワークを提案する。
提案するフレームワークは、複数のソースタスクと異なるドメインのデータから知識を学習し、正確な診断モデルを訓練する3つの段階からなる。
本稿では,肺CT画像のマルチスケール表現を学習するための自己教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-01-14T01:39:19Z) - Robust Multimodal Brain Tumor Segmentation via Feature Disentanglement
and Gated Fusion [71.87627318863612]
画像モダリティの欠如に頑健な新しいマルチモーダルセグメンテーションフレームワークを提案する。
我々のネットワークは、入力モードをモダリティ固有の外観コードに分解するために、特徴不整合を用いる。
我々は,BRATSチャレンジデータセットを用いて,重要なマルチモーダル脳腫瘍セグメンテーション課題に対する本手法の有効性を検証した。
論文 参考訳(メタデータ) (2020-02-22T14:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。