論文の概要: VolTA-3D: Self-Supervised Learning for Brain MRI using 3D Volumetric Token Alignment
- arxiv url: http://arxiv.org/abs/2605.16775v1
- Date: Sat, 16 May 2026 03:09:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:47.016125
- Title: VolTA-3D: Self-Supervised Learning for Brain MRI using 3D Volumetric Token Alignment
- Title(参考訳): VolTA-3D:3次元ボリュームトークンアライメントを用いた脳MRIの自己教師付き学習
- Authors: Amy Makawana, Abhijeet Parida, Marius George Linguraru, Julia Ive, Syed Muhammad Anwar,
- Abstract要約: 本稿では、転送可能な表現を学習するための3DビジョントランスフォーマフレームワークであるVolta-3Dを提案する。
海馬の分節化, 性およびアルツハイマー病の分類, 健康管理に対するVolta-3Dの評価を行った。
- 参考スコア(独自算出の注目度): 7.836810501854232
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised learning (SSL) has advanced medical image analysis be enabling learning form large unlabelled data. However, in brain magnetic resonance imaging (MRI), most 3D models remain specialized for either segmentation of classification, limiting their ability to generalize across datasets, imaging protocols,, and downstream tasks. This lack of transferability constrains the clinical utility of 3D MRI models, despite the availability of unlabeled volumetric data. We present Volta-3D, a self-supervised 3D Vision Transformer framework designed to learn transferable volumetric representations. Volta-3D jointly aligns global class-style tokens and local patch tokens within a student-teacher paradigm and enforces fine-grained structural reconstruction. This combined global-local alignment addresses the limited semantic diversity and subtle anatomical characteristics of brain MRI, which challenges existing SSL approaches. We evaluate Volta-3D on multiple out-of-distribution downstream tasks, including hippocampal segmentation and classification of sex and Alzheimer's disease versus healthy controls. Across all tasks, representations learned by Volta-3D outperform randomly initialized baselines, demonstrating improved transferability and robustness under domain shift. Hence jointly enforcing global semantic consistency and local structural learning during pretraining enables broader concept learning from unlabeled brain MRI data. Overall VolTA-3D supports effective multi-task downstream performance with task-specific pertaining, a step towards generalizable and clinically viable 3D models.
- Abstract(参考訳): 自己教師付き学習(SSL)は、高度な医用画像解析により、大きな非競合データによる学習を可能にする。
しかし、脳磁気共鳴イメージング(MRI)では、ほとんどの3Dモデルは分類のセグメンテーションに特化しており、データセット、イメージングプロトコル、下流タスクをまたいで一般化する能力を制限する。
この転写性の欠如は、ラベルのない容積データが利用可能であるにもかかわらず、3次元MRIモデルの臨床的有用性を制限する。
本稿では,転送可能なボリューム表現の学習を目的とした,自己教師型3DビジョントランスフォーマフレームワークであるVolta-3Dを提案する。
Volta-3Dは、グローバルクラススタイルのトークンとローカルパッチトークンを学生と教師のパラダイム内で共同で調整し、きめ細かい構造的再構築を実施する。
このグローバルなアライメントの組み合わせは、既存のSSLアプローチに挑戦する脳MRIの限られた意味的多様性と微妙な解剖学的特徴に対処する。
海馬の分節化, 性およびアルツハイマー病の分類, 健康管理に対するVolta-3Dの評価を行った。
全てのタスクにおいて、Volta-3Dによって学習された表現はランダムに初期化されたベースラインよりも優れ、ドメインシフト下での転送性と堅牢性の向上を示す。
したがって、事前訓練中にグローバルセマンティック一貫性と局所的な構造学習を共同で実施することで、ラベルのない脳MRIデータからより広範な概念学習が可能になる。
全体として、VolTA-3Dは、タスク固有の機能を備えた効果的なマルチタスクダウンストリームパフォーマンスをサポートし、一般化可能で臨床的に実行可能な3Dモデルへのステップである。
関連論文リスト
- MedPruner: Training-Free Hierarchical Token Pruning for Efficient 3D Medical Image Understanding in Vision-Language Models [59.180043227905294]
MedPrunerは、3次元医用画像の効率的な理解のためのトレーニング不要でモデルに依存しない階層的トークンプレーニングフレームワークである。
我々は、MedPrunerによって、MedGemmaのようなモデルが元の性能を維持したり、超えたりすることが可能であり、ビジュアルトークンの5%以下を維持していることを示す。
論文 参考訳(メタデータ) (2026-03-12T07:37:00Z) - Towards Generalisable Foundation Models for 3D Brain MRI [5.527537739064968]
我々は、DINO-v2を拡張することで構築された脳MRIのための自己教師型基礎モデルBrainFoundを紹介する。
BrainFoundはDINO-v2を、シーケンシャルMRIスライスからの情報を取り込むことで、完全な3D脳解剖学をモデル化する。
シングルモーダル入力とマルチモーダル入力の両方をサポートし、疾患検出やイメージセグメンテーションなど、幅広い下流タスクを可能にする。
論文 参考訳(メタデータ) (2025-10-27T15:19:46Z) - M3Ret: Unleashing Zero-shot Multimodal Medical Image Retrieval via Self-Supervision [24.846428105192405]
我々は、モダリティ固有のカスタマイズなしで、統一されたビジュアルエンコーダであるM3Retを訓練する。
生成的(MAE)およびコントラスト的(SimDINO)自己教師型学習(SSL)パラダイムを用いて、転送可能な表現をうまく学習する。
提案手法は,DINOv3 やテキスト教師付き BMC-CLIP などの強力なベースラインを超越して,すべてのモダリティを横断するゼロショット画像画像検索において,新たな最先端技術を実現する。
論文 参考訳(メタデータ) (2025-09-01T10:59:39Z) - Unified 3D MRI Representations via Sequence-Invariant Contrastive Learning [0.15749416770494706]
自己教師型深層学習は2次元の自然画像解析を加速させたが、3次元MRIへの変換は困難である。
定量的MRI(qMRI)を利用したemph-sequence-invariant self-supervised frameworkを提案する。
健常脳セグメンテーション(IXI)、脳梗塞セグメンテーション(ARC)、MRIによるデノイング実験は、ベースラインSSLアプローチよりも有意な増加を示した。
論文 参考訳(メタデータ) (2025-01-21T11:27:54Z) - MG-3D: Multi-Grained Knowledge-Enhanced 3D Medical Vision-Language Pre-training [7.968487067774351]
3次元医用画像解析は多くの臨床応用において重要である。
3次元医用画像解析では、大規模視覚言語による事前訓練がまだ検討されていない。
大規模データ(47.1K)に基づいて事前学習したMG-3Dを提案する。
論文 参考訳(メタデータ) (2024-12-08T09:45:59Z) - Generative Enhancement for 3D Medical Images [74.17066529847546]
本稿では,3次元医用画像合成の新しい生成手法であるGEM-3Dを提案する。
本手法は2次元スライスから始まり,3次元スライスマスクを用いて患者に提供するための情報スライスとして機能し,生成過程を伝搬する。
3D医療画像をマスクと患者の事前情報に分解することで、GEM-3Dは多目的な3D画像を生成する柔軟な、かつ効果的なソリューションを提供する。
論文 参考訳(メタデータ) (2024-03-19T15:57:04Z) - A self-supervised framework for learning whole slide representations [52.774822784847565]
我々は、全スライド画像のギガピクセルスケールの自己スーパービジョンのためのSlide Pre-trained Transformer (SPT)を提案する。
バイオメディカル・マイクロスコープ・データセットを用いて,5つの診断課題におけるSPT視覚表現のベンチマークを行った。
論文 参考訳(メタデータ) (2024-02-09T05:05:28Z) - Disruptive Autoencoders: Leveraging Low-level features for 3D Medical
Image Pre-training [51.16994853817024]
本研究は、3Dラジオグラフィ画像のための効果的な事前学習フレームワークの設計に焦点をあてる。
ローカルマスキングと低レベルの摂動の組み合わせによって生成された破壊から、オリジナルのイメージを再構築しようとする事前トレーニングフレームワークであるDisruptive Autoencodersを紹介する。
提案する事前トレーニングフレームワークは、複数のダウンストリームタスクでテストされ、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-07-31T17:59:42Z) - Attentive Symmetric Autoencoder for Brain MRI Segmentation [56.02577247523737]
視覚変換器(ViT)をベースとした3次元脳MRIセグメンテーションタスクのための新しいアテンテーティブシンメトリオートエンコーダを提案する。
事前学習の段階では、提案するオートエンコーダがより注意を払って、勾配測定値に従って情報パッチを再構築する。
実験の結果,提案手法は最先端の自己教師付き学習法や医用画像分割モデルよりも優れていた。
論文 参考訳(メタデータ) (2022-09-19T09:43:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。