論文の概要: MAM-CLIP: Vision-Language Pretraining on Mammography Atlases for BI-RADS Classification
- arxiv url: http://arxiv.org/abs/2605.19359v1
- Date: Tue, 19 May 2026 04:42:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.129197
- Title: MAM-CLIP: Vision-Language Pretraining on Mammography Atlases for BI-RADS Classification
- Title(参考訳): MAM-CLIP: BI-RADS分類のためのマンモグラフィー・アトラスによる視線訓練
- Authors: Halil Ibrahim Gulluk, Olivier Gevaert,
- Abstract要約: 深層学習法は,マンモグラフィ画像からBI-RADSスコアを予測する上で有望な結果を示した。
2313枚のマンモグラフィー画像とそれに対応するキャプションを2つのマンモグラフィーアトラスから収集した。
BI-RADS予測のための2つのデータセット上でビジョンエンコーダを微調整し、この事前トレーニングなしでトレーニングされたモデルと比較して優れた性能を実現する。
- 参考スコア(独自算出の注目度): 2.7579377082303673
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning methods have demonstrated promising results in predicting BI-RADS scores from mammography images. However, the interpretation of these images can vary, leading to discrepancies even among radiologists. Given the inherent complexity of mammograms, training classification models solely on image labels often yields limited performance. To address this challenge, we curated 2313 mammogram images and their corresponding captions from two mammography atlases. Our proposed approach employs a multi-modal model that uses a pretrained PubMedBERT as the language component. By training this model on image-text pairs with contrastive learning, we enable the vision encoder to absorb the rich information contained in the captions, thereby improving its understanding of mammography findings. We then fine-tune the vision encoder on two datasets for BI-RADS prediction, achieving superior performance compared with models trained without this pretraining, particularly when labeled samples are scarce. The improvement in the 3-class average F1 score ranges from +1% to +14%: a +1% increase with 40K training samples, and a +14% increase with 1K samples. Furthermore, our experiments reveal that 2K image-text pairs from mammography atlases can be more informative than 2K labeled samples for label prediction, with an average margin of +1.1% when more than 10K training samples are available. Overall, our work provides a vision-language model for mammography and highlights the value of textual information from mammography atlases. In addition, we publicly release preprocessed mammography images of the TEKNOFEST dataset. The training code, pre-trained model weights, data extraction scripts, and the released dataset are publicly available at: https://github.com/igulluk/MAM-CLIP
- Abstract(参考訳): 深層学習法はマンモグラフィー画像からBI-RADSスコアを予測する上で有望な結果を示した。
しかし、これらの画像の解釈は様々であり、放射線学者の間でも相違が生じている。
マンモグラムの本質的な複雑さを考えると、画像ラベルにのみ依存するトレーニング分類モデルは、しばしば限られた性能をもたらす。
この課題に対処するため,2313個のマンモグラフィー画像とそれに対応するキャプションを2つのマンモグラフィーアトラスから収集した。
提案手法では,事前学習したPubMedBERTを言語コンポーネントとして利用するマルチモーダルモデルを用いている。
コントラスト学習を伴う画像テキストペア上でこのモデルをトレーニングすることにより、視覚エンコーダはキャプションに含まれる豊富な情報を吸収し、マンモグラフィー所見の理解を向上させることができる。
次に、BI-RADS予測のための2つのデータセット上でビジョンエンコーダを微調整し、特にラベル付きサンプルが不足している場合、この事前トレーニングなしでトレーニングされたモデルと比較して優れた性能を達成する。
3クラスの平均F1スコアの改善は+1%から+14%に、a+1%は40Kのトレーニングサンプルで増加し、+14%は1Kのトレーニングサンプルで上昇した。
さらに, マンモグラフィーアトラスから得られた2K画像テキストペアは, ラベル予測のための2Kラベル付きサンプルよりも有意であり, 10K以上のトレーニングサンプルが利用できる場合の平均マージンは +1.1% であることがわかった。
全体として,マンモグラフィーの視覚言語モデルを提供し,マンモグラフィーアトラスからのテキスト情報の価値を強調した。
さらに,TEKNOFESTデータセットの事前処理したマンモグラフィ画像も公開している。
トレーニングコード、事前トレーニングされたモデルウェイト、データ抽出スクリプト、およびリリースされたデータセットは、https://github.com/igulluk/MAM-CLIPで公開されている。
関連論文リスト
- MedFILIP: Medical Fine-grained Language-Image Pre-training [11.894318326422054]
既存の手法は、画像と疾患の関連性を正確に特徴づけるのに苦労している。
MedFILIPは対照的な学習を通じて医用画像固有の知識を導入する。
単一ラベル,多ラベル,きめ細かな分類を行う場合,本モデルは最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-01-18T14:08:33Z) - ExGra-Med: Extended Context Graph Alignment for Medical Vision-Language Models [95.47808515575382]
ExGra-Medは、医療AIのビジョン言語統合のための新しいフレームワークである。
画像、命令応答、拡張キャプションを潜在空間にアライメントし、セマンティックグラウンドとクロスモーダルコヒーレンスを前進させる。
プレトレーニングデータの10%しか使用せず、VQA-RADで20.13%向上し、フルデータパフォーマンスに近づいた。
論文 参考訳(メタデータ) (2024-10-03T15:52:03Z) - CXR-CLIP: Toward Large Scale Chest X-ray Language-Image Pre-training [6.292642131180376]
本稿では,胸部X線における画像テキストデータの欠如に対処し,画像テキストペアを一般プロンプトを介して画像テキストペアとして拡張する。
また,医学画像とレポートの学習レベルの特徴を学習するために,ICLとTCLという2つの対照的な損失を設計した。
我々のモデルは、同じ条件下で訓練された最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2023-10-20T05:44:55Z) - MOFI: Learning Image Representations from Noisy Entity Annotated Images [47.6984817573981]
ノイズのあるエンティティアノテート画像から画像表現を学習するための新しい視覚基盤モデルMOFIを提案する。
ノイズの多い画像とテキストのペアから画像にエンティティラベルを自動的に割り当てる手法を提案する。
提案手法では、アルトテキストからエンティティを抽出するために名前付きエンティティ認識モデルを使用し、CLIPモデルを用いて、ペア画像のラベルとして正しいエンティティを選択する。
論文 参考訳(メタデータ) (2023-06-13T17:51:18Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Significantly improving zero-shot X-ray pathology classification via fine-tuning pre-trained image-text encoders [50.689585476660554]
本稿では,正対損失緩和とランダムな文サンプリングを含む新たな微調整手法を提案する。
提案手法は,胸部X線データセットと3つの事前訓練モデル間のゼロショット病理分類を一貫して改善する。
論文 参考訳(メタデータ) (2022-12-14T06:04:18Z) - Self-Supervised Learning as a Means To Reduce the Need for Labeled Data
in Medical Image Analysis [64.4093648042484]
胸部X線画像のデータセットとバウンディングボックスラベルを用いて,13種類の異常の分類を行った。
ラベル付きデータの平均精度と精度を60%に抑えることで,完全教師付きモデルと同等の性能が得られることを示す。
論文 参考訳(メタデータ) (2022-06-01T09:20:30Z) - Self-supervised Image-text Pre-training With Mixed Data In Chest X-rays [10.398175542736285]
混合データ入力から学習できる画像テキスト事前学習フレームワークを紹介します。
混合データ入力における事前学習の可能性を示す。
また、3つの胸部x線アプリケーションに事前訓練されたモデルを適用する利点についても述べる。
論文 参考訳(メタデータ) (2021-03-30T01:48:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。