論文の概要: MV-MLM: Bridging Multi-View Mammography and Language for Breast Cancer Diagnosis and Risk Prediction
- arxiv url: http://arxiv.org/abs/2510.26151v1
- Date: Thu, 30 Oct 2025 05:12:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.669923
- Title: MV-MLM: Bridging Multi-View Mammography and Language for Breast Cancer Diagnosis and Risk Prediction
- Title(参考訳): MV-MLM : 乳がん診断とリスク予測のための多視点マンモグラフィと言語
- Authors: Shunjie-Fabian Zheng, Hyeonjun Lee, Thijs Kooi, Ali Diba,
- Abstract要約: VLM(Vision-Language Models)は、医療画像タスクにおける悪性度とデータ効率を高めることで、有望なソリューションを提供する。
本稿では,乳がんの分類とリスク予測のためのマルチビューマンモグラフィーと言語モデルを提案する。
- 参考スコア(独自算出の注目度): 2.7165660672916787
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large annotated datasets are essential for training robust Computer-Aided Diagnosis (CAD) models for breast cancer detection or risk prediction. However, acquiring such datasets with fine-detailed annotation is both costly and time-consuming. Vision-Language Models (VLMs), such as CLIP, which are pre-trained on large image-text pairs, offer a promising solution by enhancing robustness and data efficiency in medical imaging tasks. This paper introduces a novel Multi-View Mammography and Language Model for breast cancer classification and risk prediction, trained on a dataset of paired mammogram images and synthetic radiology reports. Our MV-MLM leverages multi-view supervision to learn rich representations from extensive radiology data by employing cross-modal self-supervision across image-text pairs. This includes multiple views and the corresponding pseudo-radiology reports. We propose a novel joint visual-textual learning strategy to enhance generalization and accuracy performance over different data types and tasks to distinguish breast tissues or cancer characteristics(calcification, mass) and utilize these patterns to understand mammography images and predict cancer risk. We evaluated our method on both private and publicly available datasets, demonstrating that the proposed model achieves state-of-the-art performance in three classification tasks: (1) malignancy classification, (2) subtype classification, and (3) image-based cancer risk prediction. Furthermore, the model exhibits strong data efficiency, outperforming existing fully supervised or VLM baselines while trained on synthetic text reports and without the need for actual radiology reports.
- Abstract(参考訳): 大規模な注釈付きデータセットは、乳がんの検出やリスク予測のための堅牢なコンピュータ支援診断(CAD)モデルのトレーニングに不可欠である。
しかし、詳細なアノテーションでそのようなデータセットを取得するのは、コストと時間の両方がかかる。
大規模な画像テキストペアで事前トレーニングされているCLIPのような視覚言語モデル(VLM)は、医用画像タスクにおける堅牢性とデータ効率を向上させることで、有望なソリューションを提供する。
本稿では,乳がん分類とリスク予測のためのマルチビューマンモグラフィと言語モデルを提案する。
我々のMV-MLMは、画像・テキスト・ペア間の相互自己監督を用いて、多視点監視を利用して、広範囲な放射線学データからリッチな表現を学習する。
これには複数のビューとそれに対応する擬似放射線学レポートが含まれる。
乳房組織や癌の特徴(石灰化, 質量)を識別し, マンモグラフィー画像の理解と癌リスクの予測に利用するための, 様々なデータタイプやタスクに対する一般化と精度の向上を目的とした, 共同学習戦略を提案する。
提案手法は,(1)悪性度分類,(2)サブタイプ分類,(3)画像に基づくがんリスク予測という3つの分類課題において,最先端のパフォーマンスを実現することを実証した。
さらに、このモデルは強力なデータ効率を示し、既存の完全教師付きベースラインやVLMベースラインよりも優れ、合成テキストレポートで訓練され、実際の放射線学レポートは不要である。
関連論文リスト
- DRIMV_TSK: An Interpretable Surgical Evaluation Model for Incomplete Multi-View Rectal Cancer Data [26.149387171274956]
直腸癌に関するさらなるデータは、技術の発展とともに収集することができる。
人工知能の発展に伴い、直腸癌治療への応用が可能になってきている。
論文 参考訳(メタデータ) (2025-06-21T02:38:45Z) - Optimizing Breast Cancer Detection in Mammograms: A Comprehensive Study of Transfer Learning, Resolution Reduction, and Multi-View Classification [0.0]
X線撮影技術であるマンモグラフィーは、乳がんの早期発見の中心である。
人工知能の最近の進歩は、ますます高度なコンピュータ支援診断方法を可能にしている。
この進歩にもかかわらず、いくつかの重要な疑問は未解決のままである。
論文 参考訳(メタデータ) (2025-03-25T11:51:21Z) - MRGen: Segmentation Data Engine for Underrepresented MRI Modalities [59.61465292965639]
稀ながら臨床的に重要な画像モダリティのための医用画像分割モデルの訓練は、注釈付きデータの不足により困難である。
本稿では,データ合成における生成モデルの利用について検討する。
本稿では,テキストプロンプトとセグメンテーションマスクを条件とした医用画像合成のためのデータエンジンMRGenを提案する。
論文 参考訳(メタデータ) (2024-12-04T16:34:22Z) - Deep BI-RADS Network for Improved Cancer Detection from Mammograms [3.686808512438363]
テキスト型BI-RADS病変記述子と視覚マンモグラムを併用した新しいマルチモーダル手法を提案する。
提案手法は,これらの異なるモダリティを効果的に融合させるために,反復的な注意層を用いる。
CBIS-DDSMデータセットの実験では、すべてのメトリクスで大幅に改善されている。
論文 参考訳(メタデータ) (2024-11-16T21:32:51Z) - ViKL: A Mammography Interpretation Framework via Multimodal Aggregation of Visual-knowledge-linguistic Features [54.37042005469384]
MVKLは,マルチビュー画像,詳細な表示,報告を含む最初のマルチモーダルマンモグラフィーデータセットである。
このデータセットに基づいて、教師なし事前学習のチャラリングタスクに焦点を当てる。
視覚,知識,言語機能を相乗化するフレームワークであるViKLを提案する。
論文 参考訳(メタデータ) (2024-09-24T05:01:23Z) - Mammo-CLIP: A Vision Language Foundation Model to Enhance Data Efficiency and Robustness in Mammography [12.159236541184754]
Mammo-CLIPは、大量のマンモグラム-レポートペアで事前訓練された最初のVLMである。
2つの公開データセットの実験は、様々なマンモグラフィー属性の分類とローカライズにおいて、強い性能を示す。
論文 参考訳(メタデータ) (2024-05-20T08:27:39Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Medical Image Captioning via Generative Pretrained Transformers [57.308920993032274]
我々は、Show-Attend-Tell と GPT-3 という2つの言語モデルを組み合わせて、包括的で記述的な放射線学記録を生成する。
提案モデルは、Open-I、MIMIC-CXR、汎用MS-COCOの2つの医療データセットで検証される。
論文 参考訳(メタデータ) (2022-09-28T10:27:10Z) - Metastatic Cancer Outcome Prediction with Injective Multiple Instance
Pooling [1.0965065178451103]
我々は2つの公開データセットを処理し、転移性癌の予後予測を研究するために合計341人のベンチマークコホートを設定した。
結果予測に適した2つのインジェクティブ複数インスタンスプーリング関数を提案する。
本研究は, 肺がん非小細胞癌における複数症例の学習が, 頭頸部CT結果予測ベンチマークの課題において, 最先端のパフォーマンスを達成できることを示唆するものである。
論文 参考訳(メタデータ) (2022-03-09T16:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。