論文の概要: VISTA3D: A Unified Segmentation Foundation Model For 3D Medical Imaging
- arxiv url: http://arxiv.org/abs/2406.05285v3
- Date: Fri, 22 Nov 2024 02:15:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:15:34.450646
- Title: VISTA3D: A Unified Segmentation Foundation Model For 3D Medical Imaging
- Title(参考訳): VISTA3D:3D画像のための統合セグメンテーション基礎モデル
- Authors: Yufan He, Pengfei Guo, Yucheng Tang, Andriy Myronenko, Vishwesh Nath, Ziyue Xu, Dong Yang, Can Zhao, Benjamin Simon, Mason Belue, Stephanie Harmon, Baris Turkbey, Daguang Xu, Wenqi Li,
- Abstract要約: VISTA3D,Versatile Imaging SegmenTation,voxel modelを提案する。
確立された3Dセグメンテーションパイプライン上に構築されている。
これは、3D自動(127クラスのサポート)と3Dインタラクティブセグメンテーションの両方で最先端のパフォーマンスを達成する最初のモデルである。
- 参考スコア(独自算出の注目度): 18.111368889931885
- License:
- Abstract: Foundation models for interactive segmentation in 2D natural images and videos have sparked significant interest in building 3D foundation models for medical imaging. However, the domain gaps and clinical use cases for 3D medical imaging require a dedicated model that diverges from existing 2D solutions. Specifically, such foundation models should support a full workflow that can actually reduce human effort. Treating 3D medical images as sequences of 2D slices and reusing interactive 2D foundation models seems straightforward, but 2D annotation is too time-consuming for 3D tasks. Moreover, for large cohort analysis, it's the highly accurate automatic segmentation models that reduce the most human effort. However, these models lack support for interactive corrections and lack zero-shot ability for novel structures, which is a key feature of "foundation". While reusing pre-trained 2D backbones in 3D enhances zero-shot potential, their performance on complex 3D structures still lags behind leading 3D models. To address these issues, we present VISTA3D, Versatile Imaging SegmenTation and Annotation model, that targets to solve all these challenges and requirements with one unified foundation model. VISTA3D is built on top of the well-established 3D segmentation pipeline, and it is the first model to achieve state-of-the-art performance in both 3D automatic (supporting 127 classes) and 3D interactive segmentation, even when compared with top 3D expert models on large and diverse benchmarks. Additionally, VISTA3D's 3D interactive design allows efficient human correction, and a novel 3D supervoxel method that distills 2D pretrained backbones grants VISTA3D top 3D zero-shot performance. We believe the model, recipe, and insights represent a promising step towards a clinically useful 3D foundation model. Code and weights are publicly available at https://github.com/Project-MONAI/VISTA.
- Abstract(参考訳): 2Dの自然画像とビデオの対話的セグメンテーションのための基礎モデルは、医療画像のための3D基礎モデルの構築に大きな関心を喚起している。
しかし、3D医療画像の領域ギャップと臨床ユースケースは、既存の2Dソリューションから分離した専用モデルを必要とする。
具体的には、そのような基盤モデルは、人間の労力を実際に削減できる完全なワークフローをサポートするべきである。
3Dの医用画像を2Dスライスのシーケンスとして扱い、インタラクティブな2Dファンデーションモデルを再利用するのは簡単だが、2Dアノテーションは3Dタスクには時間がかかりすぎる。
さらに、大規模なコホート分析では、人間の労力を減らすための高精度な自動セグメンテーションモデルです。
しかし、これらのモデルにはインタラクティブな修正のサポートがなく、新しい構造のゼロショット能力が欠けており、これは「基礎」の重要な特徴である。
トレーニング済みの2Dバックボーンを3Dで再利用すると、ゼロショットの可能性も向上するが、複雑な3D構造の性能は、まだ先行する3Dモデルより遅れている。
これらの課題に対処するために,1つの統合基盤モデルを用いて,これらの課題と要件をすべて解決することを目的としたVISTA3D,Versatile Imaging SegmenTation, Annotationモデルを提案する。
VISTA3Dは、確立された3Dセグメンテーションパイプライン上に構築されており、大規模で多様なベンチマーク上の上位3Dエキスパートモデルと比較しても、3D自動(127クラスをサポートする)と3Dインタラクティブセグメンテーションの両方で最先端のパフォーマンスを達成する最初のモデルである。
さらに、VISTA3Dの3Dインタラクティブデザインは、効率的な人間の修正を可能にし、2D事前訓練されたバックボーンを蒸留する新しい3Dスーパーボクセル法は、VISTA3Dのトップ3Dゼロショット性能を付与する。
このモデル、レシピ、洞察は、臨床的に有用な3Dファンデーションモデルに向けた有望なステップであると考えています。
コードとウェイトはhttps://github.com/Project-MONAI/VISTA.comで公開されている。
関連論文リスト
- ConDense: Consistent 2D/3D Pre-training for Dense and Sparse Features from Multi-View Images [47.682942867405224]
ConDenseは既存の2Dネットワークと大規模マルチビューデータセットを利用した3D事前トレーニングのためのフレームワークである。
組込み型2Dと3Dの特徴をエンドツーエンドのパイプラインで抽出する新しい2D-3Dジョイントトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-08-30T05:57:01Z) - Improving 2D Feature Representations by 3D-Aware Fine-Tuning [17.01280751430423]
現在の視覚基礎モデルは、構造化されていない2Dデータに基づいて純粋に訓練されている。
3次元認識データの微調整により,出現するセマンティックな特徴の質が向上することを示す。
論文 参考訳(メタデータ) (2024-07-29T17:59:21Z) - DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。
我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。
単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-06-06T17:58:15Z) - Probing the 3D Awareness of Visual Foundation Models [56.68380136809413]
視覚基礎モデルの3次元認識を解析する。
凍結した特徴に対するタスク固有プローブとゼロショット推論手法を用いて実験を行う。
論文 参考訳(メタデータ) (2024-04-12T17:58:04Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Uni3D: Exploring Unified 3D Representation at Scale [66.26710717073372]
大規模に統一された3次元表現を探索する3次元基礎モデルであるUni3Dを提案する。
Uni3Dは、事前にトレーニングされた2D ViTのエンドツーエンドを使用して、3Dポイントクラウド機能と画像テキスト整列機能とを一致させる。
強力なUni3D表現は、野生での3D絵画や検索などの応用を可能にする。
論文 参考訳(メタデータ) (2023-10-10T16:49:21Z) - GET3D: A Generative Model of High Quality 3D Textured Shapes Learned
from Images [72.15855070133425]
本稿では,複雑なトポロジ,リッチな幾何学的ディテール,高忠実度テクスチャを備えたExplicit Textured 3Dメッシュを直接生成する生成モデルであるGET3Dを紹介する。
GET3Dは、車、椅子、動物、バイク、人間キャラクターから建物まで、高品質な3Dテクスチャメッシュを生成することができる。
論文 参考訳(メタデータ) (2022-09-22T17:16:19Z) - FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection [78.00922683083776]
一般的な2D検出器をこの3Dタスクで動作させることは簡単ではない。
本報告では,完全畳み込み型単段検出器を用いた手法を用いてこの問題を考察する。
私たちのソリューションは、NeurIPS 2020のnuScenes 3D検出チャレンジのすべてのビジョンのみの方法の中で1位を獲得します。
論文 参考訳(メタデータ) (2021-04-22T09:35:35Z) - A Convolutional Architecture for 3D Model Embedding [1.3858051019755282]
入力として3Dモデルを扱うディープラーニングアーキテクチャを提案する。
埋め込み表現は3Dオブジェクトの類似性評価を扱うのに役立つセマンティック情報を伝えることを示した。
論文 参考訳(メタデータ) (2021-03-05T15:46:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。