論文の概要: Multi-View and Multi-Scale Alignment for Contrastive Language-Image
Pre-training in Mammography
- arxiv url: http://arxiv.org/abs/2409.18119v1
- Date: Thu, 26 Sep 2024 17:56:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-27 21:27:33.323242
- Title: Multi-View and Multi-Scale Alignment for Contrastive Language-Image
Pre-training in Mammography
- Title(参考訳): コントラスト言語画像のためのマルチビューとマルチスケールアライメント
マンモグラフィにおけるプレトレーニング
- Authors: Yuexi Du, John Onofrey, Nicha C. Dvornek
- Abstract要約: 対照的な言語-画像事前学習は、医療画像解析において有望であるが、かなりのデータと計算資源を必要とする。
本稿では,マンモグラフィに完全CLIPモデルを適用することを提案する。
- 参考スコア(独自算出の注目度): 4.500815515502233
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive Language-Image Pre-training (CLIP) shows promise in medical image
analysis but requires substantial data and computational resources. Due to
these restrictions, existing CLIP applications in medical imaging focus mainly
on modalities like chest X-rays that have abundant image-report data available,
leaving many other important modalities under-explored. Here, we propose the
first adaptation of the full CLIP model to mammography, which presents
significant challenges due to labeled data scarcity, high-resolution images
with small regions of interest, and data imbalance. We first develop a
specialized supervision framework for mammography that leverages its multi-view
nature. Furthermore, we design a symmetric local alignment module to better
focus on detailed features in high-resolution images. Lastly, we incorporate a
parameter-efficient fine-tuning approach for large language models pre-trained
with medical knowledge to address data limitations. Our multi-view and
multi-scale alignment (MaMA) method outperforms state-of-the-art baselines for
three different tasks on two large real-world mammography datasets, EMBED and
RSNA-Mammo, with only 52% model size compared with the largest baseline.
- Abstract(参考訳): 対照的に、CLIP(Contrastive Language- Image Pre-Training)は医療画像解析において有望であるが、かなりのデータと計算資源を必要とする。
これらの制限により、医療画像における既存のCLIP応用は主に、豊富な画像レポートデータを持つ胸部X線のようなモダリティに焦点を当て、他の多くの重要なモダリティが未発見のまま残されている。
本稿では,マンモグラフィーへの完全CLIPモデルの最初の適応について提案する。これは,データ不足のラベル付け,低関心領域の高解像度画像,データ不均衡による重要な課題である。
われわれはまず,マンモグラフィーの多視点性を活用した特別監視フレームワークを開発する。
さらに,高解像度画像の詳細な特徴に焦点を合わせるために,対称な局所アライメントモジュールを設計する。
最後に,データ制限に対処するために,医学知識を事前学習した大規模言語モデルに対して,パラメータ効率のよい微調整手法を取り入れた。
我々のマルチビュー・マルチスケールアライメント(MaMA)法は,2つの大きな実世界のマンモグラフィーデータセットであるEMBEDとRSNA-Mammoの3つのタスクに対して,最大のベースラインに比べて52%のモデルサイズで,最先端のベースラインよりも優れている。
関連論文リスト
- Discriminative Hamiltonian Variational Autoencoder for Accurate Tumor Segmentation in Data-Scarce Regimes [2.8498944632323755]
医用画像分割のためのエンドツーエンドハイブリッドアーキテクチャを提案する。
ハミルトン変分オートエンコーダ(HVAE)と識別正則化を用いて生成画像の品質を向上する。
我々のアーキテクチャはスライス・バイ・スライス・ベースで3Dボリュームを分割し、リッチな拡張データセットをカプセル化する。
論文 参考訳(メタデータ) (2024-06-17T15:42:08Z) - Inter-slice Super-resolution of Magnetic Resonance Images by Pre-training and Self-supervised Fine-tuning [49.197385954021456]
臨床実践では、2次元磁気共鳴(MR)シーケンスが広く採用されている。個々の2次元スライスを積み重ねて3次元ボリュームを形成できるが、比較的大きなスライスススペーシングは可視化とその後の解析タスクに課題をもたらす可能性がある。
スライス間隔を低減するため,ディープラーニングに基づく超解像技術が広く研究されている。
現在のほとんどのソリューションは、教師付きトレーニングのために、かなりの数の高解像度と低解像度の画像を必要とするが、通常は現実のシナリオでは利用できない。
論文 参考訳(メタデータ) (2024-06-10T02:20:26Z) - Mammo-CLIP: A Vision Language Foundation Model to Enhance Data Efficiency and Robustness in Mammography [12.159236541184754]
Mammo-CLIPは、大量のマンモグラム-レポートペアで事前訓練された最初のVLMである。
2つの公開データセットの実験は、様々なマンモグラフィー属性の分類とローカライズにおいて、強い性能を示す。
論文 参考訳(メタデータ) (2024-05-20T08:27:39Z) - MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training [103.72844619581811]
MLLM(Performant Multimodal Large Language Models)を構築する。
特に,さまざまなアーキテクチャコンポーネントとデータ選択の重要性について検討する。
本稿では,画像キャプチャ,インターリーブ画像テキスト,テキストのみのデータを組み合わせた大規模マルチモーダル事前学習について述べる。
論文 参考訳(メタデータ) (2024-03-14T17:51:32Z) - VISION-MAE: A Foundation Model for Medical Image Segmentation and
Classification [36.8105960525233]
医用画像に特化して設計された新しい基礎モデルVISION-MAEを提案する。
VISION-MAEは、様々なモダリティから250万枚の未ラベル画像のデータセットでトレーニングされている。
その後、明示的なラベルを使って分類とセグメンテーションのタスクに適応する。
論文 参考訳(メタデータ) (2024-02-01T21:45:12Z) - End-to-end autoencoding architecture for the simultaneous generation of
medical images and corresponding segmentation masks [3.1133049660590615]
ハミルトン変分オートエンコーダ(HVAE)に基づくエンドツーエンドアーキテクチャを提案する。
従来の変分オートエンコーダ(VAE)と比較して後部分布近似が向上する。
本手法は, 生成的逆境条件より優れ, 画像品質の向上を示す。
論文 参考訳(メタデータ) (2023-11-17T11:56:53Z) - Disruptive Autoencoders: Leveraging Low-level features for 3D Medical
Image Pre-training [51.16994853817024]
本研究は、3Dラジオグラフィ画像のための効果的な事前学習フレームワークの設計に焦点をあてる。
ローカルマスキングと低レベルの摂動の組み合わせによって生成された破壊から、オリジナルのイメージを再構築しようとする事前トレーニングフレームワークであるDisruptive Autoencodersを紹介する。
提案する事前トレーニングフレームワークは、複数のダウンストリームタスクでテストされ、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-07-31T17:59:42Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Learnable Weight Initialization for Volumetric Medical Image Segmentation [66.3030435676252]
本稿では,学習可能な重みに基づくハイブリッド医療画像セグメンテーション手法を提案する。
我々のアプローチはどんなハイブリッドモデルにも簡単に統合でき、外部のトレーニングデータを必要としない。
多臓器・肺がんセグメンテーションタスクの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-06-15T17:55:05Z) - PCRLv2: A Unified Visual Information Preservation Framework for
Self-supervised Pre-training in Medical Image Analysis [56.63327669853693]
本稿では,ピクセルレベルの情報を高レベルなセマンティクスに明示的にエンコードするための画素復元タスクを提案する。
また,画像理解を支援する強力なツールであるスケール情報の保存についても検討する。
提案されている統合SSLフレームワークは、さまざまなタスクで自己管理されたフレームワークを超越している。
論文 参考訳(メタデータ) (2023-01-02T17:47:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。