論文の概要: Mask What Matters: Controllable Text-Guided Masking for Self-Supervised Medical Image Analysis
- arxiv url: http://arxiv.org/abs/2509.23054v1
- Date: Sat, 27 Sep 2025 02:26:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.012883
- Title: Mask What Matters: Controllable Text-Guided Masking for Self-Supervised Medical Image Analysis
- Title(参考訳): マスク:自己監督型医用画像解析のための制御可能なテキストガイド型マスキング
- Authors: Ruilang Wang, Shuotong Xu, Bowen Liu, Runlin Huang, Donglong Chen, Weifeng Su,
- Abstract要約: Mask What Mattersは、自己監督型医療画像分析のためのコントロール可能なテキスト誘導マスキングフレームワークである。
既存のMIM法を一貫して上回り、分類精度で最大3.1ポイントの利得を得る。
これらの改善は、全体のマスキング比を著しく低くする。
- 参考スコア(独自算出の注目度): 2.6554246520306624
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The scarcity of annotated data in specialized domains such as medical imaging presents significant challenges to training robust vision models. While self-supervised masked image modeling (MIM) offers a promising solution, existing approaches largely rely on random high-ratio masking, leading to inefficiency and poor semantic alignment. Moreover, region-aware variants typically depend on reconstruction heuristics or supervised signals, limiting their adaptability across tasks and modalities. We propose Mask What Matters, a controllable text-guided masking framework for self-supervised medical image analysis. By leveraging vision-language models for prompt-based region localization, our method flexibly applies differentiated masking to emphasize diagnostically relevant regions while reducing redundancy in background areas. This controllable design enables better semantic alignment, improved representation learning, and stronger cross-task generalizability. Comprehensive evaluation across multiple medical imaging modalities, including brain MRI, chest CT, and lung X-ray, shows that Mask What Matters consistently outperforms existing MIM methods (e.g., SparK), achieving gains of up to +3.1 percentage points in classification accuracy, +1.3 in box average precision (BoxAP), and +1.1 in mask average precision (MaskAP) for detection. Notably, it achieves these improvements with substantially lower overall masking ratios (e.g., 40\% vs. 70\%). This work demonstrates that controllable, text-driven masking can enable semantically aligned self-supervised learning, advancing the development of robust vision models for medical image analysis.
- Abstract(参考訳): 医用画像などの専門領域における注釈付きデータの不足は、堅牢な視覚モデルを訓練する上で大きな課題となる。
自己教師型マスク画像モデリング(MIM)は有望な解決策を提供するが、既存のアプローチはランダムなハイ比マスキングに大きく依存しており、非効率性とセマンティックアライメントの低下につながる。
さらに、地域対応の変種は典型的には再構成ヒューリスティックや教師付き信号に依存し、タスクやモダリティの適応性を制限する。
本稿では,自己監督型医用画像解析のためのテキスト誘導マスキングフレームワークであるMask What Mattersを提案する。
そこで本手法では,視覚言語モデルを用いて,背景領域の冗長性を低減しつつ,診断関連領域の強調に微分マスキングを柔軟に適用する。
この制御可能な設計は、セマンティックアライメントの改善、表現学習の改善、より強力なクロスタスクの一般化を可能にする。
脳MRI、胸部CT、肺X線などの複数の画像モダリティの総合的な評価は、Mask What Mattersが既存のMIM法(例えばSparK)を一貫して上回り、分類精度で最大3.1ポイント、ボックス平均精度(BoxAP)で+1.3ポイント、検出のためにマスク平均精度(MaskAP)で+1.1ポイント向上していることを示している。
特に、全体的なマスキング比(例えば、40 % vs. 70 %)を大幅に下げてこれらの改善を実現する。
この研究は、制御可能なテキストによるマスキングにより、意味的に整合した自己教師あり学習を可能にし、医用画像解析のための堅牢な視覚モデルの開発を進めることを実証している。
関連論文リスト
- AnatoMask: Enhancing Medical Image Segmentation with Reconstruction-guided Self-masking [5.844539603252746]
Masked Image Modeling (MIM) は、ランダムにマスキングされた画像を再構成し、詳細な表現を学習することで効果を示した。
解剖学的に重要な領域を動的に識別・隠蔽するために再構成損失を利用した新しいMIM手法であるAnatoMaskを提案する。
論文 参考訳(メタデータ) (2024-07-09T00:15:52Z) - MedFLIP: Medical Vision-and-Language Self-supervised Fast Pre-Training with Masked Autoencoder [26.830574964308962]
本稿では,医療分析のための高速言語画像事前学習手法であるMedFLIPを紹介する。
交差ドメインを用いたゼロショット学習のためのMAEを探索し、限られたデータから学習するモデルの能力を向上する。
最後に,医療画像解析におけるゼロショット性能の向上を言語を用いて検証する。
論文 参考訳(メタデータ) (2024-03-07T16:11:43Z) - AMLP:Adaptive Masking Lesion Patches for Self-supervised Medical Image
Segmentation [67.97926983664676]
自己監督型マスク画像モデリングは自然画像に対して有望な結果を示した。
しかし,このような手法を医用画像に直接適用することは依然として困難である。
適応型マスキング病変パッチ(AMLP)の自己管理型医用画像分割フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-08T13:18:10Z) - Diffusion Models for Counterfactual Generation and Anomaly Detection in Brain Images [39.94162291765236]
病気の画像の健全なバージョンを生成し,それを用いて画素単位の異常マップを得るための弱教師付き手法を提案する。
健常者を対象にした拡散モデルを用いて, サンプリングプロセスの各ステップで拡散拡散確率モデル (DDPM) と拡散拡散確率モデル (DDIM) を組み合わせる。
論文 参考訳(メタデータ) (2023-08-03T21:56:50Z) - Disruptive Autoencoders: Leveraging Low-level features for 3D Medical
Image Pre-training [51.16994853817024]
本研究は、3Dラジオグラフィ画像のための効果的な事前学習フレームワークの設計に焦点をあてる。
ローカルマスキングと低レベルの摂動の組み合わせによって生成された破壊から、オリジナルのイメージを再構築しようとする事前トレーニングフレームワークであるDisruptive Autoencodersを紹介する。
提案する事前トレーニングフレームワークは、複数のダウンストリームタスクでテストされ、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-07-31T17:59:42Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - MPS-AMS: Masked Patches Selection and Adaptive Masking Strategy Based
Self-Supervised Medical Image Segmentation [46.76171191827165]
本稿では,MPS-AMSという自己監督型医用画像分割手法を提案する。
提案手法は,最先端の自己監督ベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2023-02-27T11:57:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。