論文の概要: Curia-2: Scaling Self-Supervised Learning for Radiology Foundation Models
- arxiv url: http://arxiv.org/abs/2604.01987v1
- Date: Thu, 02 Apr 2026 12:49:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.790852
- Title: Curia-2: Scaling Self-Supervised Learning for Radiology Foundation Models
- Title(参考訳): Curia-2: 放射線学基礎モデルのための自己指導型学習のスケーリング
- Authors: Antoine Saporta, Baptiste Callard, Corentin Dancette, Julien Khlaut, Charles Corbière, Leo Butsanets, Amaury Prat, Pierre Manceron,
- Abstract要約: そこで我々は,Curia-2を導入し,従来の事前学習戦略と表現品質を改善し,無線データの特異性をよりよく把握する。
Curia-2は、視覚に焦点を当てたタスクで全てのFMを上回り、検出などの臨床的に複雑なタスクで視覚言語モデルと競合する。
- 参考スコア(独自算出の注目度): 5.468585846077723
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The rapid growth of medical imaging has fueled the development of Foundation Models (FMs) to reduce the growing, unsustainable workload on radiologists. While recent FMs have shown the power of large-scale pre-training to CT and MRI analysis, there remains significant room to optimize how these models learn from complex radiological volumes. Building upon the Curia framework, this work introduces Curia-2, which significantly improves the original pre-training strategy and representation quality to better capture the specificities of radiological data. The proposed methodology enables scaling the architecture up to billion-parameter Vision Transformers, marking a first for multi-modal CT and MRI FMs. Furthermore, we formalize the evaluation of these models by extending and restructuring CuriaBench into two distinct tracks: a 2D track tailored for slice-based vision models and a 3D track for volumetric benchmarking. Our results demonstrate that Curia-2 outperforms all FMs on vision-focused tasks and fairs competitively to vision-language models on clinically complex tasks such as finding detection. Weights will be made publicly available to foster further research.
- Abstract(参考訳): 医療画像の急速な成長は、放射線学者の持続不可能な作業量を減らすため、ファンデーションモデル(FM)の開発を加速させた。
最近のFMでは、CTやMRIによる大規模な事前トレーニングのパワーが示されていますが、これらのモデルが複雑な放射線学的ボリュームからどのように学習するかを最適化する余地は残っています。
この研究は、Curiaフレームワークを基盤として、Curia-2を導入し、元の事前学習戦略と表現品質を大幅に改善し、無線データの特異性をよりよく捉えた。
提案手法は,マルチモーダルCTおよびMRI FMの初となる10億パラメータビジョントランスフォーマーまでアーキテクチャを拡張可能である。
さらに,CuriaBenchをスライスベースの視覚モデルに適した2Dトラックと,ボリュームベンチマークのための3Dトラックの2つのトラックに拡張・再構成することで,これらのモデルの評価を形式化する。
以上の結果から,Curia-2は視覚に焦点をあてたタスクにおいてすべてのFMより優れており,検出などの臨床的に複雑なタスクにおいて,視覚言語モデルと競合する結果が得られた。
重量は、さらなる研究を促進するために公開されます。
関連論文リスト
- Reason Like a Radiologist: Chain-of-Thought and Reinforcement Learning for Verifiable Report Generation [13.580272788409092]
BoxMed-RLは、空間的に検証可能な説明可能な放射線学レポートを生成するための、画期的な統合トレーニングフレームワークである。
大きなビジョン言語モデルに基づいて構築されたBoxMed-RLは、2つの統合フェーズを通じてレポート生成に革命をもたらす。
BoxMed-RLは、最先端の手法と比較して、METEORとROUGE-Lの両方で平均7%改善されている。
論文 参考訳(メタデータ) (2025-04-25T16:05:06Z) - Training state-of-the-art pathology foundation models with orders of magnitude less data [1.7005561101170015]
3つの新しいビジョン基礎モデル(FM)を、他の最先端のFMを訓練するために使用されるものよりも、最大で2桁のWSIで訓練する。
TCGAだけで訓練されたモデル(12k WSIs)でさえ、既存のFMよりも優れており、平均するとVirchow2と一致している。
論文 参考訳(メタデータ) (2025-04-07T15:38:12Z) - Vision Foundation Models for Computed Tomography [0.5320113414681007]
基礎モデル(FM)は、画像のモダリティを越えて多種多様な複雑なタスクを実行することにより、放射線学における変換可能性を示している。
そこで我々はCT-FM(CT-FM)を開発した。
CT-FMは画像データコモンズから148,000個のCTスキャンを用いてラベルに依存しないコントラスト学習によって事前訓練を行った。
論文 参考訳(メタデータ) (2025-01-15T18:30:58Z) - 3D-CT-GPT: Generating 3D Radiology Reports through Integration of Large Vision-Language Models [51.855377054763345]
本稿では,VQAに基づく医用視覚言語モデルである3D-CT-GPTについて紹介する。
パブリックデータセットとプライベートデータセットの両方の実験により、3D-CT-GPTはレポートの正確さと品質という点で既存の手法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2024-09-28T12:31:07Z) - Summarizing Radiology Reports Findings into Impressions [1.8964110318127383]
本稿では,最新の放射線学報告による要約性能のモデルを提案する。
また、モデル限界と放射線学知識の獲得について分析する。
我々の最高の性能モデルは、58.75/100 ROUGE-L F1で調整されたBERT-to-BERTエンコーダデコーダであった。
論文 参考訳(メタデータ) (2024-05-10T20:29:25Z) - Towards Generalist Foundation Model for Radiology by Leveraging
Web-scale 2D&3D Medical Data [66.9359934608229]
この研究はRadFMと呼ばれるRadlogy Foundation Modelの開発を開始することを目的としている。
われわれの知る限りでは、これは2Dスキャンと3Dスキャンによる、最初の大規模で高品質な医療用ビジュアル言語データセットである。
本稿では,モダリティ認識,疾患診断,視覚的質問応答,レポート生成,合理的診断の5つのタスクからなる新しい評価ベンチマークRadBenchを提案する。
論文 参考訳(メタデータ) (2023-08-04T17:00:38Z) - Customizing General-Purpose Foundation Models for Medical Report
Generation [64.31265734687182]
ラベル付き医用画像-レポートペアの不足は、ディープニューラルネットワークや大規模ニューラルネットワークの開発において大きな課題となっている。
本稿では,コンピュータビジョンと自然言語処理の基盤モデル (FM) として,市販の汎用大規模事前学習モデルのカスタマイズを提案する。
論文 参考訳(メタデータ) (2023-06-09T03:02:36Z) - Pre-training and Fine-tuning Transformers for fMRI Prediction Tasks [69.85819388753579]
TFFはトランスフォーマーベースのアーキテクチャと2フェーズのトレーニングアプローチを採用している。
自己教師付きトレーニングは、fMRIスキャンのコレクションに適用され、モデルが3Dボリュームデータの再構成のために訓練される。
その結果、年齢や性別の予測、統合失調症認知など、さまざまなfMRIタスクにおける最先端のパフォーマンスが示された。
論文 参考訳(メタデータ) (2021-12-10T18:04:26Z) - Modelling the Distribution of 3D Brain MRI using a 2D Slice VAE [66.63629641650572]
本研究では,2次元スライスVAEとガウスモデルを組み合わせた3次元MR脳の体積分布をモデル化する手法を提案する。
また,本研究では,脳解剖学に適合するセグメンテーションの精度を定量的に評価する新たなボリューム評価手法を提案する。
論文 参考訳(メタデータ) (2020-07-09T13:23:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。