論文の概要: Data Scaling Laws for Radiology Foundation Models
- arxiv url: http://arxiv.org/abs/2509.12818v1
- Date: Tue, 16 Sep 2025 08:36:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:52.972855
- Title: Data Scaling Laws for Radiology Foundation Models
- Title(参考訳): 放射線学基礎モデルにおけるデータスケーリング法則
- Authors: Maximilian Ilse, Harshita Sharma, Anton Schwaighofer, Sam Bond-Taylor, Fernando Pérez-García, Olesya Melnichenko, Anne-Marie G. Sykes, Kelly K. Horst, Ashish Khandelwal, Maxwell Reynolds, Maria T. Wetscherek, Noel C. F. Codella, Javier Alvarez-Valle, Korfiatis Panagiotis, Valentina Salvatelli,
- Abstract要約: CLIPやDINOv2といったWebスケールのデータに基づいてトレーニングされたファンデーションビジョンエンコーダは、タスクやデータセット間で強力な転送パフォーマンスを示す。
MedImageInsight (MI2) と RAD-DINO という2つの視覚エンコーダの連続的事前訓練を1つの施設から3.5M胸部X線で系統的に検討した。
- 参考スコア(独自算出の注目度): 40.553809969659035
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundation vision encoders such as CLIP and DINOv2, trained on web-scale data, exhibit strong transfer performance across tasks and datasets. However, medical imaging foundation models remain constrained by smaller datasets, limiting our understanding of how data scale and pretraining paradigms affect performance in this setting. In this work, we systematically study continual pretraining of two vision encoders, MedImageInsight (MI2) and RAD-DINO representing the two major encoder paradigms CLIP and DINOv2, on up to 3.5M chest x-rays from a single institution, holding compute and evaluation protocols constant. We evaluate on classification (radiology findings, lines and tubes), segmentation (lines and tubes), and radiology report generation. While prior work has primarily focused on tasks related to radiology findings, we include lines and tubes tasks to counterbalance this bias and evaluate a model's ability to extract features that preserve continuity along elongated structures. Our experiments show that MI2 scales more effectively for finding-related tasks, while RAD-DINO is stronger on tube-related tasks. Surprisingly, continually pretraining MI2 with both reports and structured labels using UniCL improves performance, underscoring the value of structured supervision at scale. We further show that for some tasks, as few as 30k in-domain samples are sufficient to surpass open-weights foundation models. These results highlight the utility of center-specific continual pretraining, enabling medical institutions to derive significant performance gains by utilizing in-domain data.
- Abstract(参考訳): CLIPやDINOv2といったWebスケールのデータに基づいてトレーニングされたファンデーションビジョンエンコーダは、タスクやデータセット間で強力な転送パフォーマンスを示す。
しかし、医療画像基盤モデルは、小さなデータセットによって制約され続けており、この設定におけるデータスケールと事前学習パラダイムがパフォーマンスにどのように影響するかの理解を制限している。
本研究では、2つの視覚エンコーダであるMedImageInsight (MI2) と RAD-DINO を1つの施設から最大3.5Mの胸部X線で連続的に学習し、計算および評価プロトコルを一定に保持する。
分類(放射線学所見,線と管),分節(線と管),放射線学報告の生成について検討した。
これまでの研究は主に放射線学の発見に関連するタスクに焦点を合わせてきたが、我々はこのバイアスに逆らう線や管のタスクを含み、長い構造物に沿って連続性を維持する特徴を抽出するモデルの能力を評価する。
実験の結果, RAD-DINO は管内タスクに強いが, MI2 は探索関連タスクに対してより効果的にスケール可能であることがわかった。
驚いたことに、レポートとUniCLを使用した構造化ラベルの両方でMI2を継続的に事前訓練することで、パフォーマンスが向上し、大規模に構造化された監視の価値が強調される。
さらに、いくつかのタスクでは、30万のドメイン内サンプルがオープンウェイトの基礎モデルを超えるのに十分であることを示す。
これらの結果は、医療機関がドメイン内データを利用することで、大幅なパフォーマンス向上を得られるように、センター固有の継続事前トレーニングの有用性を強調している。
関連論文リスト
- DinoAtten3D: Slice-Level Attention Aggregation of DinoV2 for 3D Brain MRI Anomaly Classification [2.731729370870452]
医用画像の異常検出と分類は早期診断には重要であるが, 注釈付きデータ, クラス不均衡, 専門家によるラベル付けのコストが高いため, 依然として困難である。
本稿では,3次元画像異常分類に特化して,注目に基づくグローバルアグリゲーションフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-15T23:31:40Z) - Learning from Heterogeneous Structural MRI via Collaborative Domain Adaptation for Late-Life Depression Assessment [24.340328016766183]
T1強調MRIを用いたLDD検出のための協調的ドメイン適応フレームワークを提案する。
このフレームワークは、ラベル付きソースデータに対する教師付きトレーニング、自己教師付きターゲット特徴適応、ラベルなしターゲットデータに対する協調トレーニングの3段階で構成されている。
マルチサイトT1強調MRIデータを用いて行った実験により、このフレームワークは最先端の非教師なし領域適応法より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2025-07-30T01:38:32Z) - Weakly supervised deep learning model with size constraint for prostate cancer detection in multiparametric MRI and generalization to unseen domains [0.90668179713299]
本モデルでは, 完全教師付きベースラインモデルにより, オンパー性能が向上することを示す。
また、未確認データドメインでテストした場合、完全に教師付きモデルと弱い教師付きモデルの両方のパフォーマンス低下も観察する。
論文 参考訳(メタデータ) (2024-11-04T12:24:33Z) - Predicting Infant Brain Connectivity with Federated Multi-Trajectory
GNNs using Scarce Data [54.55126643084341]
既存のディープラーニングソリューションには,3つの大きな制限がある。
我々はフェデレートグラフベースの多軌道進化ネットワークであるFedGmTE-Net++を紹介する。
フェデレーションの力を利用して、限られたデータセットを持つ多種多様な病院の地域学習を集約する。
論文 参考訳(メタデータ) (2024-01-01T10:20:01Z) - Jumpstarting Surgical Computer Vision [2.585559512929966]
我々は300以上の実験を通して、データセット合成を事前学習するためのレコメンデーションを開発する。
位相認識のための2つの公開ベンチマークにおいて、最先端の事前訓練よりも優れています。
論文 参考訳(メタデータ) (2023-12-10T18:54:16Z) - Prior Knowledge-Guided Attention in Self-Supervised Vision Transformers [79.60022233109397]
本研究では、未ラベル画像データセットにおける一貫した空間的・意味的構造を利用するフレームワークである空間的事前注意(SPAN)を提案する。
SPANは、アテンションマスクを別個のトランスフォーマーヘッドから正規化し、セマンティック領域の様々な先導に従う。
その結果,アテンションマスクは,ドメインに依存しない事前学習から得られるマスクよりも解釈可能であることが判明した。
論文 参考訳(メタデータ) (2022-09-07T02:30:36Z) - Competence-based Multimodal Curriculum Learning for Medical Report
Generation [98.10763792453925]
本稿では,コンピテンスベースのマルチモーダルカリキュラム学習フレームワーク(CMCL)を提案する。
具体的には、CMCLは放射線学者の学習過程をシミュレートし、段階的にモデルを最適化する。
パブリックIU-XrayとMIMIC-CXRデータセットの実験は、CMCLを既存のモデルに組み込んでパフォーマンスを向上させることができることを示している。
論文 参考訳(メタデータ) (2022-06-24T08:16:01Z) - BS-Net: learning COVID-19 pneumonia severity on a large Chest X-Ray
dataset [6.5800499500032705]
我々は、Chest X-rays画像(CXR)に基づいて、新型コロナウイルス患者の肺妥協の度合いを判定するエンド・ツー・エンドのディープラーニングアーキテクチャを設計する。
当院で収集した約5,000個のCXR注釈画像の臨床的データセットを利用して検討した。
私たちのソリューションは、評価精度と一貫性において、一人のアノテータよりも優れています。
論文 参考訳(メタデータ) (2020-06-08T13:55:58Z) - Deep Mining External Imperfect Data for Chest X-ray Disease Screening [57.40329813850719]
我々は、外部のCXRデータセットを組み込むことで、不完全なトレーニングデータにつながると論じ、課題を提起する。
本研究は,多ラベル病分類問題を重み付き独立二分課題として分類する。
我々のフレームワークは、ドメインとラベルの相違を同時にモデル化し、対処し、優れた知識マイニング能力を実現する。
論文 参考訳(メタデータ) (2020-06-06T06:48:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。