論文の概要: Free Lunch in Medical Image Foundation Model Pre-training via Randomized Synthesis and Disentanglement
- arxiv url: http://arxiv.org/abs/2602.12317v1
- Date: Thu, 12 Feb 2026 18:09:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.714245
- Title: Free Lunch in Medical Image Foundation Model Pre-training via Randomized Synthesis and Disentanglement
- Title(参考訳): ランダム化合成とアンタングル化による医用画像基礎モデルの事前学習における自由ランチ
- Authors: Yuhan Wei, Yuting He, Linshan Wu, Fuxiang Huang, Junlin Hou, Hao Chen,
- Abstract要約: RaSD(Randomized Synthesis and Disentanglement)は、医療画像基盤モデル(MIFM)を総合的にトレーニングするためのスケーラブルなフレームワークである。
われわれは、120万の3Dボリュームと960万の2DイメージでRaSDを事前トレーニングし、6つの画像モダリティ、48のデータセット、56の下流タスクで得られたモデルを広範囲に評価した。
評価されたダウンストリームタスク全体では、RaSDはトレーニングからスクラッチまでのモデルを一貫して上回り、17タスクで最高のパフォーマンスを達成し、他のほとんどのタスクにおいて、大規模な実データセットで事前トレーニングされたモデルに匹敵する。
- 参考スコア(独自算出の注目度): 17.69771768062763
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Medical image foundation models (MIFMs) have demonstrated remarkable potential for a wide range of clinical tasks, yet their development is constrained by the scarcity, heterogeneity, and high cost of large-scale annotated datasets. Here, we propose RaSD (Randomized Synthesis and Disentanglement), a scalable framework for pre-training MIFMs entirely on synthetic data. By modeling anatomical structures and appearance variations with randomized Gaussian distributions, RaSD exposes models to sufficient multi-scale structural and appearance perturbations, forcing them to rely on invariant and task-relevant anatomical cues rather than dataset-specific textures, thereby enabling robust and transferable representation learning. We pre-trained RaSD on 1.2 million 3D volumes and 9.6 million 2D images, and extensively evaluated the resulting models across 6 imaging modalities, 48 datasets, and 56 downstream tasks. Across all evaluated downstream tasks, RaSD consistently outperforms training-from-scratch models, achieves the best performance on 17 tasks, and remains comparable to models pre-trained on large real datasets in most others. These results demonstrate that the capacity of synthetic data alone to drive robust representation learning. Our findings establish a paradigm shift in medical AI, demonstrating that synthetic data can serve as a "free lunch" for scalable, privacy-preserving, and clinically generalizable foundation models.
- Abstract(参考訳): 医用画像基盤モデル(MIFM)は、幅広い臨床タスクにおいて顕著な可能性を示しているが、その開発は、大規模な注釈付きデータセットの不足、不均一性、高コストに制約されている。
本稿では,RAD(Randomized Synthesis and Disentanglement)を提案する。
ランダム化されたガウス分布を用いて解剖学的構造と外観変化をモデル化することにより、RaSDはモデルを十分なマルチスケールの構造と外観の摂動に公開し、データセット固有のテクスチャよりも不変かつタスク関連の解剖学的手がかりに頼らざるを得ず、堅牢で伝達可能な表現学習を可能にする。
われわれは、120万の3Dボリュームと960万の2DイメージでRaSDを事前トレーニングし、6つの画像モダリティ、48のデータセット、56の下流タスクで得られたモデルを広範囲に評価した。
評価されたダウンストリームタスク全体にわたって、RaSDは、スクラッチモデルからのトレーニングを一貫して上回り、17タスクで最高のパフォーマンスを達成し、他のほとんどのタスクにおいて、大規模な実際のデータセットで事前トレーニングされたモデルに匹敵する。
これらの結果から, 合成データの能力だけで表現学習が堅牢であることが示唆された。
我々の研究は、医療AIのパラダイムシフトを確立し、合成データがスケーラブルでプライバシーを保護し、臨床的に一般化可能な基礎モデルのための「無料ランチ」として機能できることを実証した。
関連論文リスト
- Improving Performance, Robustness, and Fairness of Radiographic AI Models with Finely-Controllable Synthetic Data [14.791557943114737]
RoentGen-v2は胸部X線写真のためのテキスト・画像拡散モデルである。
人口動態条件付き臨床的にもっともらしい画像を生成する。
我々は、この大規模な合成データセットを用いて、下流疾患分類モデルのための最適なトレーニングパイプラインを評価する。
論文 参考訳(メタデータ) (2025-08-22T20:30:58Z) - SynthFM: Training Modality-agnostic Foundation Models for Medical Image Segmentation without Real Medical Data [0.5242869847419834]
Segment Anything Model (SAM)のような基礎モデルでは、自然画像のゼロショットセグメンテーションが優れている。
しかし、テクスチャ、コントラスト、ノイズの違いにより、医療画像のセグメンテーションに苦しむ。
医用画像のアノテートには費用がかかり、ドメインの専門知識が必要で、大規模なアノテートされたデータの可用性が制限される。
医用画像の複雑さを模倣する合成データ生成フレームワークであるSynthFMを提案する。
論文 参考訳(メタデータ) (2025-04-11T00:14:28Z) - Latent Drifting in Diffusion Models for Counterfactual Medical Image Synthesis [55.959002385347645]
遅延ドリフトにより、医療画像に対して拡散モデルを条件付けし、反ファクト画像生成の複雑なタスクに適合させることができる。
我々は,脳MRIと胸部X線による3つの時系列的ベンチマークデータセットを用いて,対物画像生成法について検討した。
論文 参考訳(メタデータ) (2024-12-30T01:59:34Z) - Residual Vision Transformer (ResViT) Based Self-Supervised Learning Model for Brain Tumor Classification [0.08192907805418585]
自己教師付き学習モデルは、限られたデータセット問題に対するデータ効率と注目すべき解決策を提供する。
本稿では2段階の脳腫瘍分類のための生成型SSLモデルを提案する。
提案されたモデルが最も精度が高く、T1シークエンスでBraTsデータセットで90.56%、Figshareで98.53%、Kaggle脳腫瘍データセットで98.47%を達成している。
論文 参考訳(メタデータ) (2024-11-19T21:42:57Z) - Evaluating Utility of Memory Efficient Medical Image Generation: A Study on Lung Nodule Segmentation [0.0]
本研究は,合成医用画像を生成するためのメモリ効率のパッチワイド拡散確率モデル(DDPM)を提案する。
本手法は, メモリ制約を効率的に管理しながら, 結節分割による高能率合成画像を生成する。
本手法は,合成データのみに基づくセグメンテーションモデルのトレーニングと,合成画像を用いた実世界のトレーニングデータの拡張の2つのシナリオで評価する。
論文 参考訳(メタデータ) (2024-10-16T13:20:57Z) - Generative models of MRI-derived neuroimaging features and associated dataset of 18,000 samples [17.576301478946775]
GenMINDは、構造的脳画像から派生した規範的地域容積特徴の生成モデルである。
成人の寿命(22~90歳)にまたがる18,000の合成サンプルと、無制限のデータを生成するモデルの能力を提供する。
論文 参考訳(メタデータ) (2024-07-17T15:33:10Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - Modeling Shared Responses in Neuroimaging Studies through MultiView ICA [94.31804763196116]
被験者の大規模なコホートを含むグループ研究は、脳機能組織に関する一般的な結論を引き出す上で重要である。
グループ研究のための新しい多視点独立成分分析モデルを提案し、各被験者のデータを共有独立音源と雑音の線形結合としてモデル化する。
まず、fMRIデータを用いて、被験者間の共通音源の同定における感度の向上を示す。
論文 参考訳(メタデータ) (2020-06-11T17:29:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。