論文の概要: Scaling Self-Supervised and Cross-Modal Pretraining for Volumetric CT Transformers
- arxiv url: http://arxiv.org/abs/2511.17209v1
- Date: Fri, 21 Nov 2025 12:41:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:19.019763
- Title: Scaling Self-Supervised and Cross-Modal Pretraining for Volumetric CT Transformers
- Title(参考訳): ボリュームCT変圧器の自己監督とクロスモーダルプレトレーニングのスケーリング
- Authors: Cris Claessens, Christiaan Viviers, Giacomo D'Amicantonio, Egor Bondarev, Fons van der Sommen,
- Abstract要約: 本稿では,CTのためのフルトランスフォーマーベース基礎モデルであるSPECTREを紹介する。
提案手法は,スケーラブルな3Dビジョントランスフォーマーアーキテクチャと,近代的な自己監督型・視覚言語事前学習戦略を利用する。
SPECTREはゼロショット設定と微調整設定の両方で、CTファンデーションモデルよりも一貫して優れている。
- 参考スコア(独自算出の注目度): 10.972744049555553
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce SPECTRE, a fully transformer-based foundation model for volumetric computed tomography (CT). Our Self-Supervised & Cross-Modal Pretraining for CT Representation Extraction (SPECTRE) approach utilizes scalable 3D Vision Transformer architectures and modern self-supervised and vision-language pretraining strategies to learn general-purpose CT representations. Volumetric CT poses unique challenges, such as extreme token scaling, geometric anisotropy, and weak or noisy clinical supervision, that make standard transformer and contrastive learning recipes ineffective out of the box. The framework jointly optimizes a local transformer for high-resolution volumetric feature extraction and a global transformer for whole-scan context modeling, making large-scale 3D attention computationally tractable. Notably, SPECTRE is trained exclusively on openly available CT datasets, demonstrating that high-performing, generalizable representations can be achieved without relying on private data. Pretraining combines DINO-style self-distillation with SigLIP-based vision-language alignment using paired radiology reports, yielding features that are both geometrically consistent and clinically meaningful. Across multiple CT benchmarks, SPECTRE consistently outperforms prior CT foundation models in both zero-shot and fine-tuned settings, establishing SPECTRE as a scalable, open, and fully transformer-based foundation model for 3D medical imaging.
- Abstract(参考訳): 本稿では,CTのためのフルトランスフォーマーベース基盤モデルであるSPECTREを紹介する。
SPECTRE(Self-Supervised and Cross-Modal Pretraining for CT Representation extract)アプローチでは,スケーラブルな3次元ビジョントランスフォーマーアーキテクチャと,汎用CT表現の学習に近代的な自己監督型および視覚言語事前学習戦略を利用する。
ボリュームCTは、極端なトークンスケーリング、幾何学的異方性、弱いかうるさい臨床監督のようなユニークな課題を呈し、標準的なトランスフォーマーと対照的な学習レシピを箱から取り出すのに効果がない。
このフレームワークは、高解像度なボリューム特徴抽出のためのローカルトランスフォーマーと、全スキャンコンテキストモデリングのためのグローバルトランスフォーマーを共同で最適化し、大規模3Dアテンションを計算可能とした。
特に、SPECTREは、公開可能なCTデータセットのみにトレーニングされており、ハイパフォーマンスで一般化可能な表現は、プライベートデータに頼ることなく達成可能であることを実証している。
プレトレーニングは、DINOスタイルの自己蒸留とSigLIPベースの視覚言語アライメントをペアラジオグラフィーレポートで組み合わせ、幾何学的に一貫した特徴と臨床的に有意義な特徴をもたらす。
複数のCTベンチマークにおいて、SPECTREはゼロショットと微調整の両方でCTファンデーションモデルよりも一貫して優れており、SPECTREはスケーラブルで、オープンで、完全にトランスフォーマーベースの3D医療画像の基礎モデルとして確立されている。
関連論文リスト
- BridgeSplat: Bidirectionally Coupled CT and Non-Rigid Gaussian Splatting for Deformable Intraoperative Surgical Navigation [69.14180476971602]
変形可能な手術ナビゲーションのための新しいアプローチであるBridgeSplatを紹介する。
提案手法は3次元ガウスをCTメッシュにリグし,ガウスパラメータとメッシュ変形の合同最適化を可能にする。
シミュレーションにより,BridgeSplatがブタの内臓手術およびヒト肝臓の合成データに与える影響を実証した。
論文 参考訳(メタデータ) (2025-09-23T01:09:36Z) - Accelerating 3D Photoacoustic Computed Tomography with End-to-End Physics-Aware Neural Operators [74.65171736966131]
光音響計算トモグラフィ(PACT)は、光コントラストと超音波分解能を組み合わせることで、光拡散限界を超える深部像を実現する。
現在の実装では、高密度トランスデューサアレイと長い取得時間を必要とし、臨床翻訳を制限している。
本研究では,センサ計測からボリューム再構成まで,逆音響マッピングを直接学習する物理認識モデルであるPanoを紹介する。
論文 参考訳(メタデータ) (2025-09-11T23:12:55Z) - Recurrent Visual Feature Extraction and Stereo Attentions for CT Report Generation [18.113659670915474]
本稿では,大規模言語モデル (LLM) に基づくCTRG法を提案する。
具体的には、視覚変換器を用いて、各スライスをCTボリュームで繰り返し処理し、異なる視点から符号化したスライスに注意を払って重要な視覚情報を得る。
ベンチマークM3D-Capデータセットの実験結果とさらなる解析により,本手法が強いベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2025-06-24T14:29:06Z) - Text-to-CT Generation via 3D Latent Diffusion Model with Contrastive Vision-Language Pretraining [1.447808799346751]
本稿では,3次元コントラッシブな視覚-言語事前学習方式と潜在拡散モデルを組み合わせたテキスト-CT生成のための新しいアーキテクチャを提案する。
本手法は,テキストから臨床的に有意なCTボリュームを合成するための,スケーラブルで制御可能なソリューションを提供する。
論文 参考訳(メタデータ) (2025-05-31T16:41:55Z) - Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - Disruptive Autoencoders: Leveraging Low-level features for 3D Medical
Image Pre-training [51.16994853817024]
本研究は、3Dラジオグラフィ画像のための効果的な事前学習フレームワークの設計に焦点をあてる。
ローカルマスキングと低レベルの摂動の組み合わせによって生成された破壊から、オリジナルのイメージを再構築しようとする事前トレーニングフレームワークであるDisruptive Autoencodersを紹介する。
提案する事前トレーニングフレームワークは、複数のダウンストリームタスクでテストされ、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-07-31T17:59:42Z) - MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。
グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。
MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-06-02T07:38:53Z) - Unsupervised Contrastive Learning based Transformer for Lung Nodule
Detection [6.693379403133435]
CTによる肺結節の早期発見は,肺癌患者の長期生存と生活の質の向上に不可欠である。
CAD (Computer-Aided Detection/diagnosis) はこの文脈において第2または同時読影器として有用である。
肺結節の正確な検出は、サイズ、位置、および肺結節の出現のばらつきにより、CADシステムや放射線技師にとって依然として困難である。
近年のコンピュータビジョン技術に触発されて,肺結節を同定するための自己教師付き領域ベース3次元トランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2022-04-30T01:19:00Z) - UNetFormer: A Unified Vision Transformer Model and Pre-Training
Framework for 3D Medical Image Segmentation [14.873473285148853]
UNetFormerと呼ばれる2つのアーキテクチャで構成され,3D Swin TransformerベースのエンコーダとConal Neural Network(CNN)とTransformerベースのデコーダを備えている。
提案モデルでは, 5つの異なる解像度でのスキップ接続により, エンコーダをデコーダにリンクする。
本稿では,ランダムにマスクされたトークンを予測する学習を通じて,エンコーダバックボーンの自己教師付き事前学習手法を提案する。
論文 参考訳(メタデータ) (2022-04-01T17:38:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。