Fugu-MT 論文翻訳(概要): VISTA3D: Versatile Imaging SegmenTation and Annotation model for 3D Computed Tomography

論文の概要: VISTA3D: Versatile Imaging SegmenTation and Annotation model for 3D Computed Tomography

arxiv url: http://arxiv.org/abs/2406.05285v1
Date: Fri, 7 Jun 2024 22:41:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-11 20:34:04.672653
Title: VISTA3D: Versatile Imaging SegmenTation and Annotation model for 3D Computed Tomography
Title（参考訳）: VISTA3D:3次元CTのためのVersatile Imaging Segmentationとアノテーションモデル
Authors: Yufan He, Pengfei Guo, Yucheng Tang, Andriy Myronenko, Vishwesh Nath, Ziyue Xu, Dong Yang, Can Zhao, Benjamin Simon, Mason Belue, Stephanie Harmon, Baris Turkbey, Daguang Xu, Wenqi Li,
Abstract要約: VISTA3D, Versatile Imaging SegmenTation などの3次元CTセグメンテーションモデルが持つべき特徴について論じる。このモデルは、1454巻に117種類のヒト解剖学的構造と様々な病変を含む体系的に訓練されている。モデルの設計は、最先端のゼロショットインタラクティブセグメンテーションを3Dで実現している。
参考スコア（独自算出の注目度）: 18.111368889931885
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Segmentation foundation models have attracted great interest, however, none of them are adequate enough for the use cases in 3D computed tomography scans (CT) images. Existing works finetune on medical images with 2D foundation models trained on natural images, but interactive segmentation, especially in 2D, is too time-consuming for 3D scans and less useful for large cohort analysis. Models that can perform out-of-the-box automatic segmentation are more desirable. However, the model trained in this way lacks the ability to perform segmentation on unseen objects like novel tumors. Thus for 3D medical image analysis, an ideal segmentation solution might expect two features: accurate out-of-the-box performance covering major organ classes, and effective adaptation or zero-shot ability to novel structures. In this paper, we discuss what features a 3D CT segmentation foundation model should have, and introduce VISTA3D, Versatile Imaging SegmenTation and Annotation model. The model is trained systematically on 11454 volumes encompassing 127 types of human anatomical structures and various lesions and provides accurate out-of-the-box segmentation. The model's design also achieves state-of-the-art zero-shot interactive segmentation in 3D. The novel model design and training recipe represent a promising step toward developing a versatile medical image foundation model. Code and model weights will be released shortly. The early version of online demo can be tried on https://build.nvidia.com/nvidia/vista-3d.
Abstract（参考訳）: セグメンテーション基礎モデルは非常に注目されているが、3DCT(CT)画像のユースケースに十分なものではない。既存の作業は、自然画像に基づいて訓練された2Dファンデーションモデルで医療画像に微調整されるが、インタラクティブセグメンテーション(特に2D)は、3Dスキャンには時間がかかりすぎて、大規模なコホート分析には役に立たない。アウト・オブ・ボックスの自動セグメンテーションを行うモデルの方が望ましい。しかし、この方法で訓練されたモデルは、新しい腫瘍のような見えない物体に対してセグメンテーションを行う能力に欠ける。したがって、3D画像解析では、理想的なセグメンテーションソリューションは、主要な臓器クラスをカバーする正確なアウト・オブ・ザ・ボックスのパフォーマンスと、新規構造への効果的な適応またはゼロショット能力の2つの特徴を期待できる。本稿では,VISTA3D,Versatile Imaging SegmenTation, Annotationモデルを紹介する。このモデルは、1454巻に117種類のヒト解剖学的構造と様々な病変を含む体系的に訓練され、正確なアウト・オブ・ザ・ボックスのセグメンテーションを提供する。モデルの設計は、最先端のゼロショットインタラクティブセグメンテーションを3Dで実現している。新規なモデル設計およびトレーニングレシピは、多目的な医用画像基盤モデルを開発するための有望なステップである。コードとモデルの重み付けはまもなくリリースされる。オンラインデモの初期バージョンはhttps://build.nvidia.com/nvidia/vista-3d.comで試すことができる。

関連論文リスト

3D-Fixup: Advancing Photo Editing with 3D Priors [32.83193513442457]
3D-Fixupは、学習した3Dプリエントによってガイドされた2Dイメージを編集する新しいフレームワークである。拡散モデルの生成力を利用するトレーニングベースアプローチを利用する。 3D-Fixupは複雑でアイデンティティの整合した3D認識編集を効果的にサポートする。
論文参考訳（メタデータ） (2025-05-15T17:59:51Z)
DINO in the Room: Leveraging 2D Foundation Models for 3D Segmentation [51.43837087865105]
大規模な画像データセットに基づいてトレーニングされた視覚基礎モデル(VFM)は、非常に高度な2D視覚認識を備えた高品質な機能を提供する。 3D画像と3Dポイントクラウドデータセットの共通利用にもかかわらず、彼らの3Dビジョンのポテンシャルは依然としてほとんど未解決のままである。 2Dファンデーションモデルの特徴を抽出し,それを3Dに投影し,最終的に3Dポイントクラウドセグメンテーションモデルに注入する,シンプルで効果的なアプローチであるDITRを導入する。
論文参考訳（メタデータ） (2025-03-24T17:59:11Z)
Unifying 2D and 3D Vision-Language Understanding [85.84054120018625]
2次元および3次元視覚言語学習のための統一アーキテクチャUniVLGを紹介する。 UniVLGは、既存の2D中心モデルと、エンボディシステムで利用可能なリッチな3Dセンサーデータのギャップを埋める。
論文参考訳（メタデータ） (2025-03-13T17:56:22Z)
A Lesson in Splats: Teacher-Guided Diffusion for 3D Gaussian Splats Generation with 2D Supervision [65.33043028101471]
本稿では,2次元監視のみを用いた3次元画像調和拡散モデルの学習フレームワークを提案する。既存の3D生成モデルは、大規模な3Dデータセットが不足しているため、完全に3Dの監視に依存している。
論文参考訳（メタデータ） (2024-12-01T00:29:57Z)
ConDense: Consistent 2D/3D Pre-training for Dense and Sparse Features from Multi-View Images [47.682942867405224]
ConDenseは既存の2Dネットワークと大規模マルチビューデータセットを利用した3D事前トレーニングのためのフレームワークである。組込み型2Dと3Dの特徴をエンドツーエンドのパイプラインで抽出する新しい2D-3Dジョイントトレーニング手法を提案する。
論文参考訳（メタデータ） (2024-08-30T05:57:01Z)
Improving 2D Feature Representations by 3D-Aware Fine-Tuning [17.01280751430423]
現在の視覚基礎モデルは、構造化されていない2Dデータに基づいて純粋に訓練されている。 3次元認識データの微調整により,出現するセマンティックな特徴の質が向上することを示す。
論文参考訳（メタデータ） (2024-07-29T17:59:21Z)
DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文参考訳（メタデータ） (2024-06-06T17:58:15Z)
Probing the 3D Awareness of Visual Foundation Models [56.68380136809413]
視覚基礎モデルの3次元認識を解析する。凍結した特徴に対するタスク固有プローブとゼロショット推論手法を用いて実験を行う。
論文参考訳（メタデータ） (2024-04-12T17:58:04Z)
PonderV2: Pave the Way for 3D Foundation Model with A Universal Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。 PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文参考訳（メタデータ） (2023-10-12T17:59:57Z)
Uni3D: Exploring Unified 3D Representation at Scale [66.26710717073372]
大規模に統一された3次元表現を探索する3次元基礎モデルであるUni3Dを提案する。 Uni3Dは、事前にトレーニングされた2D ViTのエンドツーエンドを使用して、3Dポイントクラウド機能と画像テキスト整列機能とを一致させる。強力なUni3D表現は、野生での3D絵画や検索などの応用を可能にする。
論文参考訳（メタデータ） (2023-10-10T16:49:21Z)
GET3D: A Generative Model of High Quality 3D Textured Shapes Learned from Images [72.15855070133425]
本稿では,複雑なトポロジ,リッチな幾何学的ディテール,高忠実度テクスチャを備えたExplicit Textured 3Dメッシュを直接生成する生成モデルであるGET3Dを紹介する。 GET3Dは、車、椅子、動物、バイク、人間キャラクターから建物まで、高品質な3Dテクスチャメッシュを生成することができる。
論文参考訳（メタデータ） (2022-09-22T17:16:19Z)
FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection [78.00922683083776]
一般的な2D検出器をこの3Dタスクで動作させることは簡単ではない。本報告では,完全畳み込み型単段検出器を用いた手法を用いてこの問題を考察する。私たちのソリューションは、NeurIPS 2020のnuScenes 3D検出チャレンジのすべてのビジョンのみの方法の中で1位を獲得します。
論文参考訳（メタデータ） (2021-04-22T09:35:35Z)
A Convolutional Architecture for 3D Model Embedding [1.3858051019755282]
入力として3Dモデルを扱うディープラーニングアーキテクチャを提案する。埋め込み表現は3Dオブジェクトの類似性評価を扱うのに役立つセマンティック情報を伝えることを示した。
論文参考訳（メタデータ） (2021-03-05T15:46:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。