論文の概要: TAP-CT: 3D Task-Agnostic Pretraining of Computed Tomography Foundation Models
- arxiv url: http://arxiv.org/abs/2512.00872v1
- Date: Sun, 30 Nov 2025 12:43:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.465729
- Title: TAP-CT: 3D Task-Agnostic Pretraining of Computed Tomography Foundation Models
- Title(参考訳): TAP-CT:CT基礎モデルの3次元タスク非依存事前学習
- Authors: Tim Veenboer, George Yiasemis, Eric Marcus, Vivien Van Veldhuizen, Cees G. M. Snoek, Jonas Teuwen, Kevin B. W. Groot Lipman,
- Abstract要約: 医療領域における既存の基礎モデル(FM)は、広範囲の微調整を必要とする場合や、リソース集約型デコーダの訓練に頼っている場合が多い。
我々は,CT基盤モデル(TAP-CT)のタスクに依存しない事前学習スイートを紹介する。
提案手法では,埋め込み,位置エンコーディング,ボリューム拡張のパッチ修正を対象とし,アーキテクチャの奥行きを認識している。
- 参考スコア(独自算出の注目度): 39.00742360251856
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Existing foundation models (FMs) in the medical domain often require extensive fine-tuning or rely on training resource-intensive decoders, while many existing encoders are pretrained with objectives biased toward specific tasks. This illustrates a need for a strong, task-agnostic foundation model that requires minimal fine-tuning beyond feature extraction. In this work, we introduce a suite of task-agnostic pretraining of CT foundation models (TAP-CT): a simple yet effective adaptation of Vision Transformers (ViTs) and DINOv2 for volumetric data, enabling scalable self-supervised pretraining directly on 3D CT volumes. Our approach incorporates targeted modifications to patch embeddings, positional encodings, and volumetric augmentations, making the architecture depth-aware while preserving the simplicity of the underlying architectures. We show that large-scale 3D pretraining on an extensive in-house CT dataset (105K volumes) yields stable, robust frozen representations that generalize strongly across downstream tasks. To promote transparency and reproducibility, and to establish a powerful, low-resource baseline for future research in medical imaging, we will release all pretrained models, experimental configurations, and downstream benchmark code at https://huggingface.co/fomofo/tap-ct-b-3d.
- Abstract(参考訳): 医療領域における既存の基礎モデル(FM)は、広範囲の微調整や、リソース集約型デコーダの訓練に頼っていることが多いが、既存のエンコーダの多くは、特定のタスクに偏った目的によって事前訓練されている。
これは、機能抽出を超えて最小限の微調整を必要とする、強力なタスクに依存しない基礎モデルの必要性を示している。
本研究では,視覚変換器 (ViTs) と DINOv2 の簡易かつ効果的なボリュームデータへの適応法として,CT基盤モデルのタスク非依存事前トレーニング (TAP-CT) を提案する。
当社のアプローチでは,組み込み,位置エンコーディング,ボリューム拡張のパッチ修正を目標としており,基盤となるアーキテクチャの単純さを保ちながら,アーキテクチャの奥行きを意識している。
大規模CTデータセット(105Kボリューム)による大規模3次元事前トレーニングにより,下流タスクを強く一般化する安定かつ堅牢な凍結表現が得られることを示す。
透明性と再現性を向上し、将来の医用画像研究のための強力な低リソースベースラインを確立するため、 https://huggingface.co/fomofo/tap-ct-b-3dで事前訓練済みのモデル、実験構成、下流ベンチマークコードを公開します。
関連論文リスト
- UniPre3D: Unified Pre-training of 3D Point Cloud Models with Cross-Modal Gaussian Splatting [64.31900521467362]
既存の事前学習方法は、オブジェクトレベルとシーンレベルの両方の点群に対して等しく有効である。
UniPre3Dは,任意のスケールの点群やアーキテクチャの3Dモデルに対してシームレスに適用可能な,最初の統合事前学習手法である。
論文 参考訳(メタデータ) (2025-06-11T17:23:21Z) - An OpenMind for 3D medical vision self-supervised learning [1.1223322894276315]
我々は114kの3D脳MRIボリュームからなる公開事前学習データセットを公表した。
我々は、最新のCNNおよびTransformerアーキテクチャのための既存の3次元自己教師型学習手法をこのデータセット上でベンチマークする。
論文 参考訳(メタデータ) (2024-12-22T14:38:28Z) - Specialized Foundation Models Struggle to Beat Supervised Baselines [60.23386520331143]
ゲノミクス、衛星画像、時系列の3つのモードを最近のFMで調べ、それらを標準的な教師付き学習ワークフローと比較する。
最新のファンデーションモデルにマッチしたり、性能を上回るような、シンプルな教師付きモデルのトレーニングが一貫して可能であることが分かりました。
論文 参考訳(メタデータ) (2024-11-05T04:10:59Z) - Self Pre-training with Topology- and Spatiality-aware Masked Autoencoders for 3D Medical Image Segmentation [16.753957522664713]
Masked Autoencoders (MAEs) は、自然および医学的な画像解析問題に対する事前訓練型ビジョントランスフォーマー (ViTs) に有効であることが示されている。
既存のMAE事前学習手法は、ViTアーキテクチャで特別に開発されたが、幾何学的形状や空間情報をキャプチャする能力は欠けていた。
本稿では,3次元医用画像セグメンテーションのための自己事前トレーニング(すなわち,同じターゲットデータセット上で事前トレーニングされたモデル)のための既知のMAEの新たな拡張を提案する。
論文 参考訳(メタデータ) (2024-06-15T06:15:17Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal Pre-training Paradigm [111.16358607889609]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Interpretable 2D Vision Models for 3D Medical Images [47.75089895500738]
本研究では,3次元画像処理における中間特徴表現を用いた2次元ネットワークの適応手法を提案する。
我々は、ベンチマークとして3D MedMNISTデータセットと、既存の手法に匹敵する数百の高分解能CTまたはMRIスキャンからなる2つの実世界のデータセットを示す。
論文 参考訳(メタデータ) (2023-07-13T08:27:09Z) - MIS-FM: 3D Medical Image Segmentation using Foundation Models Pretrained
on a Large-Scale Unannotated Dataset [14.823114726604853]
本稿では,3次元セグメンテーションモデルを事前学習するための,VF(Volume Fusion)と呼ばれる新たな自己教師型学習戦略を提案する。
VFは、手動のアノテーションなしで自己教師付きセグメンテーションタスクとして定式化される各ボクセルの融合係数を予測するようモデルを強制する。
頭部, 頸部臓器, 胸部, 腹部臓器など, 下流領域の異なる部位を対象とする実験により, 我々の事前訓練モデルがスクラッチからトレーニングに優れていたことが判明した。
論文 参考訳(メタデータ) (2023-06-29T13:22:13Z) - Video Pretraining Advances 3D Deep Learning on Chest CT Tasks [63.879848037679224]
大規模自然画像分類データセットの事前学習は、データスカース2D医療タスクのモデル開発に役立っている。
これらの2Dモデルは、3Dコンピュータビジョンベンチマークで3Dモデルに勝っている。
3Dモデルのためのビデオ事前トレーニングにより、より小さなデータセットでより高性能な3D医療タスクを実現することができることを示す。
論文 参考訳(メタデータ) (2023-04-02T14:46:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。