論文の概要: DMS-Net:Dual-Modal Multi-Scale Siamese Network for Binocular Fundus Image Classification
- arxiv url: http://arxiv.org/abs/2504.18046v3
- Date: Tue, 09 Sep 2025 09:49:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:26.798057
- Title: DMS-Net:Dual-Modal Multi-Scale Siamese Network for Binocular Fundus Image Classification
- Title(参考訳): DMS-Net:2眼底画像分類のためのDMS-Dual-Modal Multi-Scale Siamese Network
- Authors: Guohao Huo, Zibo Lin, Zitong Wang, Ruiting Dai, Hao Tang,
- Abstract要約: 両眼網膜画像分類のためのデュアルモードマルチスケールシアムネットワークであるDMS-Netを提案する。
このフレームワークは、両眼の眼底画像から深い意味的特徴を同時に抽出するために、重量共有型ResNet-152アーキテクチャを使用している。
精度は82.9%、リコールは84.5%、コーエンのカッパ係数は83.2%である。
- 参考スコア(独自算出の注目度): 8.86559854172874
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ophthalmic diseases pose a significant global health burden. However, traditional diagnostic methods and existing monocular image-based deep learning approaches often overlook the pathological correlations between the two eyes. In practical medical robotic diagnostic scenarios, paired retinal images (binocular fundus images) are frequently required as diagnostic evidence. To address this, we propose DMS-Net-a dual-modal multi-scale siamese network for binocular retinal image classification. The framework employs a weight-sharing siamese ResNet-152 architecture to concurrently extract deep semantic features from bilateral fundus images. To tackle challenges like indistinct lesion boundaries and diffuse pathological distributions, we introduce the OmniPool Spatial Integrator Module (OSIM), which achieves multi-resolution feature aggregation through multi-scale adaptive pooling and spatial attention mechanisms. Furthermore, the Calibrated Analogous Semantic Fusion Module (CASFM) leverages spatial-semantic recalibration and bidirectional attention mechanisms to enhance cross-modal interaction, aggregating modality-agnostic representations of fundus structures. To fully exploit the differential semantic information of lesions present in bilateral fundus features, we introduce the Cross-Modal Contrastive Alignment Module (CCAM). Additionally, to enhance the aggregation of lesion-correlated semantic information, we introduce the Cross-Modal Integrative Alignment Module (CIAM). Evaluation on the ODIR-5K dataset demonstrates that DMS-Net achieves state-of-the-art performance with an accuracy of 82.9%, recall of 84.5%, and a Cohen's kappa coefficient of 83.2%, showcasing robust capacity in detecting symmetrical pathologies and improving clinical decision-making for ocular diseases. Code and the processed dataset will be released subsequently.
- Abstract(参考訳): 眼科疾患は世界的な健康上の重荷となる。
しかし、従来の診断方法や既存の単眼画像に基づくディープラーニングアプローチは、両眼の病理学的相関を見落としていることが多い。
実用的な医療用ロボティクス診断のシナリオでは、診断証拠として対の網膜画像(両眼底画像)がしばしば必要とされる。
そこで本研究では,両眼網膜画像分類のためのDMS-Net-デュアルモーダルマルチスケールシアムネットワークを提案する。
このフレームワークは、両眼の眼底画像から深い意味的特徴を同時に抽出するために、重量共有型ResNet-152アーキテクチャを使用している。
そこで我々は,OmniPool 空間積分器モジュール (OSIM) を導入し,マルチスケール適応プールと空間アテンション機構による多次元特徴集約を実現する。
さらに、CASFM(Calibrated Analogous Semantic Fusion Module)は、空間-意味的再校正と双方向の注意機構を利用して、相互モーダル相互作用を強化し、基底構造のモダリティ非依存表現を集約する。
両眼底部における病変の差分的意味情報をフル活用するために,Cross-Modal Contrastive Alignment Module (CCAM)を導入する。
さらに,病変関連意味情報の集約を強化するために,Cross-Modal Integrative Alignment Module (CIAM)を導入する。
ODIR-5Kデータセットの評価では、DMS-Netは82.9%の精度で最先端のパフォーマンスを達成し、84.5%のリコール、83.2%のコーエンのカッパ係数を達成し、対称性疾患の検出と眼疾患の臨床的意思決定の改善に堅牢な能力を示している。
コードと処理されたデータセットはその後リリースされる。
関連論文リスト
- Multimodal Causal-Driven Representation Learning for Generalizable Medical Image Segmentation [56.52520416420957]
医用画像セグメンテーションにおける領域一般化に取り組むために, MCDRL(Multimodal Causal-Driven Representation Learning)を提案する。
MCDRLは競合する手法より一貫して優れ、セグメンテーション精度が優れ、堅牢な一般化性を示す。
論文 参考訳(メタデータ) (2025-08-07T03:41:41Z) - Robust Incomplete-Modality Alignment for Ophthalmic Disease Grading and Diagnosis via Labeled Optimal Transport [28.96009174108652]
眼底画像と光コヒーレンス断層撮影(OCT)を併用したマルチモーダル眼底画像診断を行った。
既存の一般的なパイプライン、例えばモダリティ計算や蒸留法は、顕著な制限に直面している。
本稿では,眼科診断の課題において欠落したモダリティを頑健に扱える新しい多モードアライメントと融合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-07T13:36:39Z) - Towards a Multimodal MRI-Based Foundation Model for Multi-Level Feature Exploration in Segmentation, Molecular Subtyping, and Grading of Glioma [0.2796197251957244]
Multi-Task S-UNETR(MTSUNET)モデルはBrainSegFounderモデルに基づいて構築された新しい基盤ベースのフレームワークである。
同時にグリオーマのセグメンテーション、組織学的サブタイプ、神経画像サブタイプを行う。
非侵襲的, パーソナライズされたグリオーマ管理の進展には, 予測精度と解釈可能性を改善することにより有意な可能性を秘めている。
論文 参考訳(メタデータ) (2025-03-10T01:27:09Z) - Multimodal Outer Arithmetic Block Dual Fusion of Whole Slide Images and Omics Data for Precision Oncology [6.418265127069878]
本稿では, 局所(パッチレベル)から大域(スライダーレベル)の相互作用の相補的な情報を取得するために, 早期・後期融合におけるオミック埋め込みの利用を提案する。
この二重融合戦略は、解釈可能性と分類性能を高め、臨床診断の可能性を強調している。
論文 参考訳(メタデータ) (2024-11-26T13:25:53Z) - Serp-Mamba: Advancing High-Resolution Retinal Vessel Segmentation with Selective State-Space Model [45.682311387979944]
本稿では,この課題に対処する最初のSerpentine Mamba(Serp-Mamba)ネットワークを提案する。
我々はまず,UWF-SLO画像をヘビのように曲がった血管構造に沿って走査するSerpentine Interwoven Adaptive (SIA)スキャン機構を考案した。
次に,高分解能画像によって強調されるカテゴリ不均衡問題に対処するアンビグニティ駆動型デュアルリカレーションモジュールを提案する。
論文 参考訳(メタデータ) (2024-09-06T15:40:47Z) - SDR-Former: A Siamese Dual-Resolution Transformer for Liver Lesion
Classification Using 3D Multi-Phase Imaging [59.78761085714715]
本研究は肝病変分類のための新しいSDR-Formerフレームワークを提案する。
提案フレームワークは2つの臨床データセットに関する総合的な実験を通じて検証された。
科学コミュニティを支援するため,肝病変解析のための多段階MRデータセットを公開しています。
論文 参考訳(メタデータ) (2024-02-27T06:32:56Z) - Dual-scale Enhanced and Cross-generative Consistency Learning for Semi-supervised Medical Image Segmentation [49.57907601086494]
医用画像のセグメンテーションはコンピュータ支援診断において重要な役割を担っている。
半教師型医用画像(DEC-Seg)のための新しいDual-scale Enhanced and Cross-generative consistency learning frameworkを提案する。
論文 参考訳(メタデータ) (2023-12-26T12:56:31Z) - Affinity Feature Strengthening for Accurate, Complete and Robust Vessel
Segmentation [48.638327652506284]
血管セグメンテーションは、冠動脈狭窄、網膜血管疾患、脳動脈瘤などの多くの医学的応用において重要である。
コントラストに敏感なマルチスケールアフィニティアプローチを用いて,幾何学的手法と画素単位のセグメンテーション特徴を連成的にモデル化する新しいアプローチであるAFNを提案する。
論文 参考訳(メタデータ) (2022-11-12T05:39:17Z) - RetiFluidNet: A Self-Adaptive and Multi-Attention Deep Convolutional
Network for Retinal OCT Fluid Segmentation [3.57686754209902]
OCTガイド下治療には網膜液の定量化が必要である。
RetiFluidNetと呼ばれる新しい畳み込みニューラルアーキテクチャは、多クラス網膜流体セグメンテーションのために提案されている。
モデルは、テクスチャ、コンテキスト、エッジといった特徴の階層的な表現学習の恩恵を受ける。
論文 参考訳(メタデータ) (2022-09-26T07:18:00Z) - Superresolution and Segmentation of OCT scans using Multi-Stage
adversarial Guided Attention Training [18.056525121226862]
我々は,OCTスキャンを高分解能セグメンテーションラベルに変換する多段階・多識別型生成逆数ネットワーク(MultiSDGAN)を提案する。
我々は,MultiSDGANアーキテクチャに対して,チャネルと空間的注意の様々な組み合わせを評価し,比較し,より強力な特徴マップを抽出する。
その結果,Dice係数とSSIMでは21.44%,19.45%の相対的な改善が見られた。
論文 参考訳(メタデータ) (2022-06-10T00:26:55Z) - InDuDoNet+: A Model-Driven Interpretable Dual Domain Network for Metal
Artifact Reduction in CT Images [53.4351366246531]
InDuDoNet+と呼ばれる新しい解釈可能な二重ドメインネットワークを構築し、CT画像の微細な埋め込みを行う。
異なる組織間のCT値を分析し,InDuDoNet+の事前観測ネットワークにマージすることで,その一般化性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-12-23T15:52:37Z) - Multi-Modal Multi-Instance Learning for Retinal Disease Recognition [10.294738095942812]
我々は、特定の症例に対する複数の視覚障害を認識できるディープニューラルネットワークの構築を目指している。
データ取得と手動ラベリングは医療分野では非常に高価であるため、ネットワークは比較的軽量でなければならない。
論文 参考訳(メタデータ) (2021-09-25T08:16:47Z) - Cross-Modality Brain Tumor Segmentation via Bidirectional
Global-to-Local Unsupervised Domain Adaptation [61.01704175938995]
本論文では,UDAスキームに基づくBiGL(Bidirectional Global-to-Local)適応フレームワークを提案する。
具体的には、脳腫瘍をセグメント化するために、双方向画像合成およびセグメンテーションモジュールを提案する。
提案手法は, 最先端の非教師なし領域適応法を大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-05-17T10:11:45Z) - Few-shot Medical Image Segmentation using a Global Correlation Network
with Discriminative Embedding [60.89561661441736]
医療画像分割のための新しい手法を提案する。
深層畳み込みネットワークを用いた数ショット画像セグメンタを構築します。
深層埋め込みの識別性を高め,同一クラスの特徴領域のクラスタリングを促進する。
論文 参考訳(メタデータ) (2020-12-10T04:01:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。