論文の概要: Revisiting 2D Foundation Models for Scalable 3D Medical Image Classification
- arxiv url: http://arxiv.org/abs/2512.12887v1
- Date: Mon, 15 Dec 2025 00:01:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.48325
- Title: Revisiting 2D Foundation Models for Scalable 3D Medical Image Classification
- Title(参考訳): スケーラブルな3次元医用画像分類のための2次元基礎モデルの再検討
- Authors: Han Liu, Bogdan Georgescu, Yanbo Zhang, Youngjin Yoo, Michael Baumgartner, Riqiang Gao, Jianing Wang, Gengyan Zhao, Eli Gibson, Dorin Comaniciu, Sasa Grbic,
- Abstract要約: 我々は2次元FMから適応したスケーラブルな3D分類器であるAnyMC3Dを紹介する。
本手法は, 単一の冷凍バックボーン上にのみ軽量なプラグインを追加することで, 新たなタスクに効率よくスケールする。
本分析では,(1)FM電位のアンロックに効果的な適応が不可欠であること,(2)医療用FMと適切な適応が可能であること,(3)3次元分類のための2次元手法が3次元アーキテクチャを超えていること,などの重要な知見が得られた。
- 参考スコア(独自算出の注目度): 11.13919196108179
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D medical image classification is essential for modern clinical workflows. Medical foundation models (FMs) have emerged as a promising approach for scaling to new tasks, yet current research suffers from three critical pitfalls: data-regime bias, suboptimal adaptation, and insufficient task coverage. In this paper, we address these pitfalls and introduce AnyMC3D, a scalable 3D classifier adapted from 2D FMs. Our method scales efficiently to new tasks by adding only lightweight plugins (about 1M parameters per task) on top of a single frozen backbone. This versatile framework also supports multi-view inputs, auxiliary pixel-level supervision, and interpretable heatmap generation. We establish a comprehensive benchmark of 12 tasks covering diverse pathologies, anatomies, and modalities, and systematically analyze state-of-the-art 3D classification techniques. Our analysis reveals key insights: (1) effective adaptation is essential to unlock FM potential, (2) general-purpose FMs can match medical-specific FMs if properly adapted, and (3) 2D-based methods surpass 3D architectures for 3D classification. For the first time, we demonstrate the feasibility of achieving state-of-the-art performance across diverse applications using a single scalable framework (including 1st place in the VLM3D challenge), eliminating the need for separate task-specific models.
- Abstract(参考訳): 3次元医用画像分類は現代の臨床ワークフローに不可欠である。
医療基盤モデル(FM)は、新しいタスクにスケールするための有望なアプローチとして登場したが、現在の研究は3つの重大な落とし穴に悩まされている。
本稿では、これらの落とし穴に対処し、2次元FMから適応したスケーラブルな3D分類器であるAnyMC3Dを紹介する。
我々の手法は、単一の凍結バックボーン上に軽量なプラグイン(タスクあたり約100万のパラメータ)を追加することで、新しいタスクに効率的にスケールする。
この汎用フレームワークはマルチビュー入力、補助画素レベルの監視、解釈可能なヒートマップ生成もサポートする。
さまざまな病理、解剖学、モダリティを網羅した12のタスクの総合的なベンチマークを作成し、最先端の3D分類手法を体系的に分析する。
本分析では,(1)FM電位のアンロックに効果的な適応が不可欠であること,(2)医療用FMと適切な適応が可能であること,(3)3次元分類のための2次元手法が3次元アーキテクチャを超えていること,などの重要な知見が得られた。
VLM3Dチャレンジでは、単一のスケーラブルなフレームワーク(VLM3Dチャレンジでは1位)を使用して、さまざまなアプリケーションにまたがって最先端のパフォーマンスを実現する可能性を示し、個別のタスク固有モデルの必要性を排除した。
関連論文リスト
- TAP-CT: 3D Task-Agnostic Pretraining of Computed Tomography Foundation Models [39.00742360251856]
医療領域における既存の基礎モデル(FM)は、広範囲の微調整を必要とする場合や、リソース集約型デコーダの訓練に頼っている場合が多い。
我々は,CT基盤モデル(TAP-CT)のタスクに依存しない事前学習スイートを紹介する。
提案手法では,埋め込み,位置エンコーディング,ボリューム拡張のパッチ修正を対象とし,アーキテクチャの奥行きを認識している。
論文 参考訳(メタデータ) (2025-11-30T12:43:15Z) - MTMed3D: A Multi-Task Transformer-Based Model for 3D Medical Imaging [5.169719124205838]
本稿では,MTMed3Dを提案する。MTMed3Dは,単一タスクモデルの制約に対処するための,エンドツーエンドのマルチタスクトランスフォーマーモデルである。
我々のモデルは、共有エンコーダとしてTransformerを使用して、CNNベースのタスク固有デコーダに続き、マルチスケール機能を生成する。
論文 参考訳(メタデータ) (2025-11-15T22:27:49Z) - Does DINOv3 Set a New Medical Vision Standard? [67.33543059306938]
本報告は、DINOv3が、ドメイン固有の事前トレーニングなしで、医用視覚タスクのための強力な統合エンコーダとして機能するかどうかを考察する。
我々はDINOv3を2D/3D分類やセグメンテーションを含む一般的な医療ビジョンタスクでベンチマークした。
注目すべきは、いくつかのタスクでBiomedCLIPやCT-Netといった医療固有の基礎モデルよりも優れていることだ。
論文 参考訳(メタデータ) (2025-09-08T09:28:57Z) - MedSeqFT: Sequential Fine-tuning Foundation Models for 3D Medical Image Segmentation [55.37355146924576]
MedSeqFTは、医用画像解析のためのシーケンシャルな微調整フレームワークである。
事前訓練されたモデルを新しいタスクに適応させ、表現能力を改善する。
最先端の微調整戦略を一貫して上回ります。
論文 参考訳(メタデータ) (2025-09-07T15:22:53Z) - Foundational Models for 3D Point Clouds: A Survey and Outlook [50.61473863985571]
3次元点雲の表現は、物理世界の幾何学的忠実性を維持する上で重要な役割を担っている。
このギャップを埋めるためには、複数のモダリティを組み込む必要がある。
ファンデーションモデル(FM)は、これらのモダリティをシームレスに統合し、推論することができる。
論文 参考訳(メタデータ) (2025-01-30T18:59:43Z) - Med-2E3: A 2D-Enhanced 3D Medical Multimodal Large Language Model [17.69323209661274]
デュアル3D-2Dエンコーダアーキテクチャを統合した3次元医療MLLMであるMed-2E3を提案する。
2次元特徴を効果的に集約するために,テキストガイド型インタースライス(TG-IS)スコアリングモジュールを設計する。
大規模でオープンソースの医療用マルチモーダルデータセットの実験は、TG-ISがタスク固有の注意分布を示すことを示した。
論文 参考訳(メタデータ) (2024-11-19T09:59:59Z) - Cross-D Conv: Cross-Dimensional Transferable Knowledge Base via Fourier Shifting Operation [3.69758875412828]
クロスD Conv 演算はフーリエ領域における位相シフトを学習することで次元ギャップを橋渡しする。
本手法は2次元と3次元の畳み込み操作間のシームレスな重み移動を可能にする。
論文 参考訳(メタデータ) (2024-11-02T13:03:44Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal Pre-training Paradigm [111.16358607889609]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Interpretable 2D Vision Models for 3D Medical Images [47.75089895500738]
本研究では,3次元画像処理における中間特徴表現を用いた2次元ネットワークの適応手法を提案する。
我々は、ベンチマークとして3D MedMNISTデータセットと、既存の手法に匹敵する数百の高分解能CTまたはMRIスキャンからなる2つの実世界のデータセットを示す。
論文 参考訳(メタデータ) (2023-07-13T08:27:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。