論文の概要: Triad: Vision Foundation Model for 3D Magnetic Resonance Imaging
- arxiv url: http://arxiv.org/abs/2502.14064v1
- Date: Wed, 19 Feb 2025 19:31:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:29:24.360909
- Title: Triad: Vision Foundation Model for 3D Magnetic Resonance Imaging
- Title(参考訳): Triad:3次元磁気共鳴イメージングのためのビジョン基礎モデル
- Authors: Shansong Wang, Mojtaba Safari, Qiang Li, Chih-Wei Chang, Richard LJ Qiu, Justin Roper, David S. Yu, Xiaofeng Yang,
- Abstract要約: 3次元MRIの視覚基礎モデルであるTriadを提案する。
Triadは131,170個のMRIボリュームから堅牢な表現を学ぶために広く使われているオートエンコーダアーキテクチャを採用している。
臓器・腫瘍区分,臓器・癌分類,医用画像登録という3つの課題にまたがってTriadを評価した。
- 参考スコア(独自算出の注目度): 3.7942449131350413
- License:
- Abstract: Vision foundation models (VFMs) are pre-trained on extensive image datasets to learn general representations for diverse types of data. These models can subsequently be fine-tuned for specific downstream tasks, significantly boosting performance across a broad range of applications. However, existing vision foundation models that claim to be applicable to various radiology tasks are mostly pre-trained on 3D computed tomography (CT), which benefits from the availability of extensive 3D CT databases. Significant differences between CT and magnetic resonance imaging (MRI) in imaging principles, signal characteristics, and data distribution may hinder their practical performance and versatility in MRI-specific applications. Here, we propose Triad, a vision foundation model for 3D MRI. Triad adopts a widely used autoencoder architecture to learn robust representations from 131,170 3D MRI volumes and uses organ-independent imaging descriptions to constrain the semantic distribution of the visual modality. The above pre-training dataset is called Triad-131K, which is currently the largest 3D MRI pre-training dataset. We evaluate Triad across three tasks, namely, organ/tumor segmentation, organ/cancer classification, and medical image registration, in two data modalities (within-domain and out-of-domain) settings using 25 downstream datasets. By initializing models with Triad's pre-trained weights, nnUNet-Triad improves segmentation performance by 6.88% compared to nnUNet-Scratch across 17 datasets. Swin-B-Triad achieves a 3.97% improvement over Swin-B-Scratch in classification tasks across five datasets. SwinUNETR-Triad improves by 4.00% compared to SwinUNETR-Scratch in registration tasks across two datasets. Our study demonstrates that pre-training can maximize performance when the data modalities and organs of upstream and downstream tasks are consistent.
- Abstract(参考訳): ビジョンファウンデーションモデル(VFM)は、多様な種類のデータの一般的な表現を学ぶために、広範な画像データセット上で事前訓練されている。
これらのモデルはその後、特定のダウンストリームタスクに対して微調整され、幅広いアプリケーションのパフォーマンスを大幅に向上させる。
しかし、様々な放射線学のタスクに適用できると主張する既存の視覚基礎モデルは、主に3DCT(Computerd tomography)で事前訓練されている。
画像の原理,信号特性,およびデータ分布におけるCTとMRIの有意な差異は,MRI固有の応用においてその実用的性能と汎用性を阻害する可能性がある。
本稿では,3次元MRIの視覚基礎モデルであるTriadを提案する。
Triadは、131,170の3D MRIボリュームから堅牢な表現を学ぶために広く使われているオートエンコーダアーキテクチャを採用し、視覚的モダリティのセマンティックな分布を制限するために、臓器に依存しない画像記述を使用している。
上記の事前トレーニングデータセットはTriad-131Kと呼ばれ、現在最大の3D MRI事前トレーニングデータセットである。
臓器・腫瘍の分類,臓器・がんの分類,医用画像の登録という3つの課題を,25の下流データセットを用いて2つのデータモダリティ(ドメイン内およびドメイン外)で評価した。
Triadのトレーニング済み重量でモデルを初期化することにより、nnUNet-Triadは17データセットにわたるnnUNet-Scratchと比較してセグメンテーション性能を6.88%改善する。
Swin-B-Triadは5つのデータセットにわたる分類タスクにおいて、Swin-B-Scratchよりも3.97%改善されている。
SwinUNETR-Triadは、2つのデータセットにわたる登録タスクにおいてSwinUNETR-Scratchと比較して4.00%改善している。
本研究は,上流タスクと下流タスクのデータモダリティとオルガンが一貫性のある場合,事前学習が性能を最大化できることを実証する。
関連論文リスト
- 3D-CT-GPT: Generating 3D Radiology Reports through Integration of Large Vision-Language Models [51.855377054763345]
本稿では,VQAに基づく医用視覚言語モデルである3D-CT-GPTについて紹介する。
パブリックデータセットとプライベートデータセットの両方の実験により、3D-CT-GPTはレポートの正確さと品質という点で既存の手法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2024-09-28T12:31:07Z) - MinD-3D++: Advancing fMRI-Based 3D Reconstruction with High-Quality Textured Mesh Generation and a Comprehensive Dataset [50.534007259536715]
機能的磁気共鳴イメージング(fMRI)データから3次元視覚を再構成することは、認知神経科学とコンピュータビジョンにとって重要な関心事である。
我々は15人の参加者のデータを含むfMRI-3Dデータセットを提示し、合計4,768個の3Dオブジェクトを展示する。
テクスチャ化された3次元視覚情報をfMRI信号から復号する新しいフレームワークMinD-3D++を提案する。
論文 参考訳(メタデータ) (2024-09-17T16:13:59Z) - Evaluating Pre-trained Convolutional Neural Networks and Foundation Models as Feature Extractors for Content-based Medical Image Retrieval [0.37478492878307323]
コンテンツベースの医用画像検索(CBMIR)は、色、テクスチャ、形状、空間的特徴などの画像の特徴に依存している。
8種類の医用画像を含むMedMNIST V2データセットのサブセットにおけるCBMIR性能について検討した。
以上の結果から,2次元データセットでは,基礎モデルの方がCNNよりも優れた性能が得られることがわかった。
以上の結果から,より大きな画像サイズ(特に2次元データセット)を使用すると性能がわずかに向上する一方,競合性のあるCBMIR性能は小さい場合でも達成可能であることが確認された。
論文 参考訳(メタデータ) (2024-09-14T13:07:30Z) - Diff3Dformer: Leveraging Slice Sequence Diffusion for Enhanced 3D CT Classification with Transformer Networks [5.806035963947936]
拡散型3次元視覚変換器(Diff3Dformer)を提案する。
本手法は, 肺CTの2種類の小さなデータセットに対して, 改良された性能を示す。
論文 参考訳(メタデータ) (2024-06-24T23:23:18Z) - SDR-Former: A Siamese Dual-Resolution Transformer for Liver Lesion
Classification Using 3D Multi-Phase Imaging [59.78761085714715]
本研究は肝病変分類のための新しいSDR-Formerフレームワークを提案する。
提案フレームワークは2つの臨床データセットに関する総合的な実験を通じて検証された。
科学コミュニティを支援するため,肝病変解析のための多段階MRデータセットを公開しています。
論文 参考訳(メタデータ) (2024-02-27T06:32:56Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Multiscale Metamorphic VAE for 3D Brain MRI Synthesis [5.060516201839319]
3次元脳MRIの創発的モデリングは、データ分布の十分なカバレッジを確保しつつ、高い視覚的忠実度を達成することの難しさを示す。
本研究では, この課題に対して, 可変オートエンコーダフレームワークにおける構成可能なマルチスケール形態素変換を用いて対処することを提案する。
VAEやGAN(Generative Adversarial Network)をベースとした先行作業と比較して,FIDの性能は,同等あるいは優れた再現品質を維持しつつ,大幅に向上した。
論文 参考訳(メタデータ) (2023-01-09T09:15:30Z) - Segmenting white matter hyperintensities on isotropic three-dimensional
Fluid Attenuated Inversion Recovery magnetic resonance images: Assessing deep
learning tools on norwegian imaging database [0.0]
白色物質高強度症(WMHs)は脳小血管疾患とアルツハイマー病の指標である
近年の研究では、3次元FLAIR強調画像からWMHの自動分割と特徴付けを可能にするディープラーニングツールの展開について詳述している。
論文 参考訳(メタデータ) (2022-07-18T09:36:44Z) - Advancing 3D Medical Image Analysis with Variable Dimension Transform
based Supervised 3D Pre-training [45.90045513731704]
本稿では,革新的でシンプルな3Dネットワーク事前学習フレームワークを再考する。
再設計された3Dネットワークアーキテクチャにより、データ不足の問題に対処するために、修正された自然画像が使用される。
4つのベンチマークデータセットに関する総合的な実験により、提案した事前学習モデルが収束を効果的に加速できることが示されている。
論文 参考訳(メタデータ) (2022-01-05T03:11:21Z) - Automated Model Design and Benchmarking of 3D Deep Learning Models for
COVID-19 Detection with Chest CT Scans [72.04652116817238]
3D胸部CTスキャン分類のための3D DLモデルを自動的に検索するための差別化可能なニューラルネットワーク探索(DNAS)フレームワークを提案する。
また,我々のモデルのクラスアクティベーションマッピング(cam)技術を利用して,結果の解釈可能性を提供する。
論文 参考訳(メタデータ) (2021-01-14T03:45:01Z) - Fader Networks for domain adaptation on fMRI: ABIDE-II study [68.5481471934606]
我々は3次元畳み込みオートエンコーダを用いて、無関係な空間画像表現を実現するとともに、ABIDEデータ上で既存のアプローチより優れていることを示す。
論文 参考訳(メタデータ) (2020-10-14T16:50:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。