論文の概要: A Hybrid CNN-VSSM model for Multi-View, Multi-Task Mammography Analysis: Robust Diagnosis with Attention-Based Fusion
- arxiv url: http://arxiv.org/abs/2507.16955v1
- Date: Tue, 22 Jul 2025 18:52:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 22:33:14.745771
- Title: A Hybrid CNN-VSSM model for Multi-View, Multi-Task Mammography Analysis: Robust Diagnosis with Attention-Based Fusion
- Title(参考訳): マルチビュー・マルチタスクマンモグラフィー解析のためのハイブリッドCNN-VSSMモデル:注意に基づく融合によるロバスト診断
- Authors: Yalda Zafari, Roaa Elalfy, Mohamed Mabrok, Somaya Al-Maadeed, Tamer Khattab, Essam A. Rashed,
- Abstract要約: 乳がんの早期かつ正確な検診は乳がん検出に不可欠である。
既存のAIアプローチは、単一ビューのインプットや単一タスクのアウトプットに注目して、不足している。
本研究では,4つの標準マンモグラフィビュー全てを処理する,新しいマルチビュー・マルチタスクハイブリッドディープラーニングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 5.15423063632115
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Early and accurate interpretation of screening mammograms is essential for effective breast cancer detection, yet it remains a complex challenge due to subtle imaging findings and diagnostic ambiguity. Many existing AI approaches fall short by focusing on single view inputs or single-task outputs, limiting their clinical utility. To address these limitations, we propose a novel multi-view, multitask hybrid deep learning framework that processes all four standard mammography views and jointly predicts diagnostic labels and BI-RADS scores for each breast. Our architecture integrates a hybrid CNN VSSM backbone, combining convolutional encoders for rich local feature extraction with Visual State Space Models (VSSMs) to capture global contextual dependencies. To improve robustness and interpretability, we incorporate a gated attention-based fusion module that dynamically weights information across views, effectively handling cases with missing data. We conduct extensive experiments across diagnostic tasks of varying complexity, benchmarking our proposed hybrid models against baseline CNN architectures and VSSM models in both single task and multi task learning settings. Across all tasks, the hybrid models consistently outperform the baselines. In the binary BI-RADS 1 vs. 5 classification task, the shared hybrid model achieves an AUC of 0.9967 and an F1 score of 0.9830. For the more challenging ternary classification, it attains an F1 score of 0.7790, while in the five-class BI-RADS task, the best F1 score reaches 0.4904. These results highlight the effectiveness of the proposed hybrid framework and underscore both the potential and limitations of multitask learning for improving diagnostic performance and enabling clinically meaningful mammography analysis.
- Abstract(参考訳): 乳がんの検診には早期かつ正確な乳腺造影検査が不可欠であるが, 微妙な画像所見と診断の曖昧さのため, 依然として難しい課題である。
既存のAIアプローチの多くは、単一のビューインプットや単一タスクアウトプットに注目して、臨床的有用性を制限することで不足している。
これらの制約に対処するため、我々は4つの標準マンモグラフィビューを全て処理し、乳房の診断ラベルとBI-RADSスコアを共同で予測する、新しいマルチビュー・マルチタスクハイブリッドディープラーニングフレームワークを提案する。
我々のアーキテクチャは、CNNのVSSMバックボーンを統合し、畳み込みエンコーダとリッチなローカル特徴抽出とVisual State Space Models(VSSM)を組み合わせて、グローバルなコンテキスト依存をキャプチャする。
頑健性と解釈性を向上させるため,ビュー間の情報を動的に重み付けし,欠落したデータのケースを効果的に処理するゲートアテンションベースの融合モジュールを組み込んだ。
複雑度の異なる診断タスクに対して広範な実験を行い、ベースラインCNNアーキテクチャとVSSMモデルに対して、単一タスクとマルチタスク学習設定の両方で、提案したハイブリッドモデルをベンチマークする。
すべてのタスクにおいて、ハイブリッドモデルはベースラインを一貫して上回る。
BI-RADS 1 vs. 5分類タスクでは、共有ハイブリッドモデルはAUCが0.9967、F1スコアが0.9830となる。
3次分類ではF1スコアが0.7790、BI-RADSタスクではF1スコアが0.4904に達する。
これらの結果は,提案したハイブリッドフレームワークの有効性を強調し,診断性能の向上と臨床的に有意なマンモグラフィー解析を可能にするマルチタスク学習の可能性と限界の両立を図った。
関連論文リスト
- Retinal Fundus Multi-Disease Image Classification using Hybrid CNN-Transformer-Ensemble Architectures [0.3277163122167434]
我々の研究は、網膜疾患による人口の急激な世界的な問題に動機付けられています。
我々の主な目的は、網膜疾患を正確に予測できる包括的診断システムを開発することである。
論文 参考訳(メタデータ) (2025-03-27T12:55:07Z) - Leveraging Vision-Language Embeddings for Zero-Shot Learning in Histopathology Images [7.048241543461529]
ゼロショット組織像分類におけるこれらの課題に対処するため, MR-PHE(Multi-Resolution Prompt-Guided Hybrid Embedding)と呼ばれる新しいフレームワークを提案する。
我々は,グローバルな画像埋め込みと重み付けされたパッチ埋め込みを統合したハイブリッドな埋め込み戦略を導入する。
類似性に基づくパッチ重み付け機構は、クラス埋め込みとの関連性に基づいて、アテンションのような重み付けをパッチに割り当てる。
論文 参考訳(メタデータ) (2025-03-13T12:18:37Z) - UNICORN: A Deep Learning Model for Integrating Multi-Stain Data in Histopathology [2.9389205138207277]
UNICORNは動脈硬化の重症度予測のための多段階組織学を処理できるマルチモーダルトランスフォーマーである。
このアーキテクチャは、2段階のエンドツーエンドのトレーニング可能なモデルと、トランスフォーマーの自己保持ブロックを利用する特殊なモジュールから構成される。
UNICORNは0.67の分類精度を達成し、他の最先端モデルを上回った。
論文 参考訳(メタデータ) (2024-09-26T12:13:52Z) - Multi-omics data integration for early diagnosis of hepatocellular carcinoma (HCC) using machine learning [8.700808005009806]
異なるモードのマルチクラスデータの遅延統合が可能なアンサンブル機械学習アルゴリズムの性能を比較した。
PB-MVBoostとAdaboostとソフト投票という2つの強化された方法が、全体的な最高のパフォーマンスモデルであった。
論文 参考訳(メタデータ) (2024-09-20T09:38:02Z) - PMT: Progressive Mean Teacher via Exploring Temporal Consistency for Semi-Supervised Medical Image Segmentation [51.509573838103854]
医用画像セグメンテーションのための半教師付き学習フレームワークであるプログレッシブ平均教師(PMT)を提案する。
我々のPMTは、トレーニングプロセスにおいて、堅牢で多様な特徴を学習することで、高忠実な擬似ラベルを生成する。
CT と MRI の異なる2つのデータセットに対する実験結果から,本手法が最先端の医用画像分割法より優れていることが示された。
論文 参考訳(メタデータ) (2024-09-08T15:02:25Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - AMIGO: Sparse Multi-Modal Graph Transformer with Shared-Context
Processing for Representation Learning of Giga-pixel Images [53.29794593104923]
本稿では,スライド病理像全体に対する共有コンテキスト処理の新たな概念を提案する。
AMIGOは、組織内のセルラーグラフを使用して、患者に単一の表現を提供する。
我々のモデルは、データの20%以下で同じ性能を達成できる程度に、欠落した情報に対して強い堅牢性を示す。
論文 参考訳(メタデータ) (2023-03-01T23:37:45Z) - Multi-View Hypercomplex Learning for Breast Cancer Screening [7.147856898682969]
伝統的に、乳がん分類のための深層学習法は単一視点解析を行う。
放射線科医は マンモグラフィー検査を構成する4つのビューを 同時に分析します
パラメータ化ハイパープレックスニューラルネットワークを用いた多視点乳がん分類法を提案する。
論文 参考訳(メタデータ) (2022-04-12T13:32:31Z) - Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for
Thoracic Disease Identification [83.6017225363714]
ディープラーニングは、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。
胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。
本論文では、単一モデルにおける疾患同定性能を改善するために、複数対1の分布学習(MODL)とK-nearest neighbor smoothing(KNNS)手法を提案する。
論文 参考訳(メタデータ) (2021-02-26T02:29:30Z) - G-MIND: An End-to-End Multimodal Imaging-Genetics Framework for
Biomarker Identification and Disease Classification [49.53651166356737]
診断によって誘導される画像データと遺伝データを統合し、解釈可能なバイオマーカーを提供する新しいディープニューラルネットワークアーキテクチャを提案する。
2つの機能的MRI(fMRI)パラダイムとSingle Nucleotide Polymorphism (SNP)データを含む統合失調症の集団研究で本モデルを評価した。
論文 参考訳(メタデータ) (2021-01-27T19:28:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。