Fugu-MT 論文翻訳(概要): Learning Generalizable 3D Medical Image Representations from Mask-Guided Self-Supervision

論文の概要: Learning Generalizable 3D Medical Image Representations from Mask-Guided Self-Supervision

arxiv url: http://arxiv.org/abs/2603.13660v1
Date: Sat, 14 Mar 2026 00:06:18 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-17 16:19:35.322163
Title: Learning Generalizable 3D Medical Image Representations from Mask-Guided Self-Supervision
Title（参考訳）: Mask-Guided Self-Supervision を用いた3次元医用画像の学習
Authors: Yunhe Gao, Yabin Zhang, Chong Wang, Jiaming Liu, Maya Varma, Jean-Benoit Delbrouck, Akshay Chaudhari, Curtis Langlotz,
Abstract要約: MASS(MAsk-guided Self-Supervised Learning)は、汎用的な医用画像表現を学習するためのプレテキストタスクとして、コンテキスト内のセグメンテーションを扱う。解剖学的構造と病理所見にまたがる何千もの多様なマスクの提案を訓練することにより、MASSは意味論的に医療構造を定義するものを学ぶ。
参考スコア（独自算出の注目度）: 24.431507546276638
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Foundation models have transformed vision and language by learning general-purpose representations from large-scale unlabeled data, yet 3D medical imaging lacks analogous approaches. Existing self-supervised methods rely on low-level reconstruction or contrastive objectives that fail to capture the anatomical semantics critical for medical image analysis, limiting transfer to downstream tasks. We present MASS (MAsk-guided Self-Supervised learning), which treats in-context segmentation as the pretext task for learning general-purpose medical imaging representations. MASS's key insight is that automatically generated class-agnostic masks provide sufficient structural supervision for learning semantically rich representations. By training on thousands of diverse mask proposals spanning anatomical structures and pathological findings, MASS learns what semantically defines medical structures: the holistic combination of appearance, shape, spatial context, and anatomical relationships. We demonstrate effectiveness across data regimes: from small-scale pretraining on individual datasets (20-200 scans) to large-scale multi-modal pretraining on 5K CT, MRI, and PET volumes, all without annotations. MASS demonstrates: (i) few-shot segmentation on novel structures, (ii) matching full supervision with only 20-40\% labeled data while outperforming self-supervised baselines by over 20 in Dice score in low-data regimes, and (iii) frozen-encoder classification on unseen pathologies that matches full supervised training with thousands of samples. Mask-guided self-supervised pretraining captures broadly generalizable knowledge, opening a path toward 3D medical imaging foundation models without expert annotations. Code is available: https://github.com/Stanford-AIMI/MASS.
Abstract（参考訳）: ファンデーションモデルは、大規模にラベル付けされていないデータから汎用的な表現を学ぶことによって、視覚と言語を変容させてきたが、3D医療画像は類似したアプローチを欠いている。既存の自己監督的手法は、医用画像解析に不可欠な解剖学的意味論を捉えるのに失敗し、下流のタスクへの移動を制限する、低レベルの再構築や対照的な目的に依存している。本稿では,MASS(MAsk-guided Self-Supervised Learning)について述べる。 MASSの重要な洞察は、自動生成されたクラス非依存マスクが意味的に豊かな表現を学ぶのに十分な構造的監督を提供することである。解剖学的構造と病理学的所見にまたがる何千もの多様なマスクの提案を訓練することにより、MASSは、外見、形状、空間的コンテキスト、解剖学的関係の総合的な組み合わせである、意味論的に医療構造を定義するものを学ぶ。個々のデータセット(20～200スキャン)での小規模事前トレーニングから,5K CT,MRI,PETボリュームでの大規模マルチモーダル事前トレーニングまで,すべてアノテーションなしで実施する。 MASSは次のように示す。 (i)新規構造に関する少数ショットセグメンテーション (二)低データ体制におけるDiceスコアにおいて、自己監督ベースラインを20以上上回りながら、ラベル付きデータのみを20～40パーセントで完全監督すること。 3) フル教師付きトレーニングと数千のサンプルとを一致させた未確認の病理の凍結エンコーダ分類。 Mask-guided self-supervised pretraining captures broadly generalizable knowledge, open a path to 3D medical imaging foundation model without expert annotations。コードはhttps://github.com/Stanford-AIMI/MASS.comで入手できる。

関連論文リスト

M3Ret: Unleashing Zero-shot Multimodal Medical Image Retrieval via Self-Supervision [24.846428105192405]
我々は、モダリティ固有のカスタマイズなしで、統一されたビジュアルエンコーダであるM3Retを訓練する。生成的(MAE)およびコントラスト的(SimDINO)自己教師型学習(SSL)パラダイムを用いて、転送可能な表現をうまく学習する。提案手法は,DINOv3 やテキスト教師付き BMC-CLIP などの強力なベースラインを超越して,すべてのモダリティを横断するゼロショット画像画像検索において,新たな最先端技術を実現する。
論文参考訳（メタデータ） (2025-09-01T10:59:39Z)
Autoregressive Sequence Modeling for 3D Medical Image Representation [48.706230961589924]
本稿では, 自己回帰シーケンス事前学習フレームワークを用いて, 3次元医用画像表現を学習するための先駆的手法を提案する。我々は,空間的,コントラスト的,意味的相関に基づく様々な3次元医用画像にアプローチし,トークンシーケンス内の相互接続された視覚トークンとして扱う。
論文参考訳（メタデータ） (2024-09-13T10:19:10Z)
MiM: Mask in Mask Self-Supervised Pre-Training for 3D Medical Image Analysis [9.472502717128556]
Masked AutoEncoder (MAE) for feature pre-trainingは、様々な医療ビジョンタスクにViTの可能性を解き放つことができる。本研究では,3次元医用画像の事前学習フレームワークであるMask in Mask(MiM)を提案する。
論文参考訳（メタデータ） (2024-04-24T01:14:33Z)
MASSM: An End-to-End Deep Learning Framework for Multi-Anatomy Statistical Shape Modeling Directly From Images [1.9029890402585894]
複数の解剖を同時にローカライズし、人口レベルの統計表現を推定し、画像空間内での形状表現を直接記述する新しいエンドツーエンドディープラーニングフレームワークであるMASSMを紹介する。以上の結果から,マルチタスクネットワークを介して画像空間の解剖を記述し,複数の解剖処理を行うMASSMは,医用画像処理タスクのセグメンテーションネットワークよりも優れた形状情報を提供することがわかった。
論文参考訳（メタデータ） (2024-03-16T20:16:37Z)
Disruptive Autoencoders: Leveraging Low-level features for 3D Medical Image Pre-training [51.16994853817024]
本研究は、3Dラジオグラフィ画像のための効果的な事前学習フレームワークの設計に焦点をあてる。ローカルマスキングと低レベルの摂動の組み合わせによって生成された破壊から、オリジナルのイメージを再構築しようとする事前トレーニングフレームワークであるDisruptive Autoencodersを紹介する。提案する事前トレーニングフレームワークは、複数のダウンストリームタスクでテストされ、最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2023-07-31T17:59:42Z)
LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。 55の公開データセットから約13万の医療画像を収集しました。 LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文参考訳（メタデータ） (2023-06-20T22:21:34Z)
Mine yOur owN Anatomy: Revisiting Medical Image Segmentation with Extremely Limited Labels [54.58539616385138]
我々は、Mine yOur owN Anatomy (MONA) と呼ばれる、新しい半教師付き2次元医用画像セグメンテーションフレームワークを紹介する。まず、先行研究では、すべてのピクセルがモデルトレーニングに等しく重要であると論じており、我々はこの1つだけで意味のある解剖学的特徴を定義できないことを経験的に観察している。第2に,医療画像を解剖学的特徴の集合に分解できるモデルを構築する。
論文参考訳（メタデータ） (2022-09-27T15:50:31Z)
CUTS: A Deep Learning and Topological Framework for Multigranular Unsupervised Medical Image Segmentation [8.307551496968156]
医用画像セグメンテーションのための教師なしディープラーニングフレームワークCUTSを提案する。各画像に対して、画像内コントラスト学習と局所パッチ再構成による埋め込みマップを生成する。 CUTSは、様々な粒度の特徴をハイライトする粗い粒度のセグメンテーションを連続的に生成する。
論文参考訳（メタデータ） (2022-09-23T01:09:06Z)
Few-shot Medical Image Segmentation using a Global Correlation Network with Discriminative Embedding [60.89561661441736]
医療画像分割のための新しい手法を提案する。深層畳み込みネットワークを用いた数ショット画像セグメンタを構築します。深層埋め込みの識別性を高め,同一クラスの特徴領域のクラスタリングを促進する。
論文参考訳（メタデータ） (2020-12-10T04:01:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。