論文の概要: Medverse: A Universal Model for Full-Resolution 3D Medical Image Segmentation, Transformation and Enhancement
- arxiv url: http://arxiv.org/abs/2509.09232v1
- Date: Thu, 11 Sep 2025 08:10:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 16:52:24.285339
- Title: Medverse: A Universal Model for Full-Resolution 3D Medical Image Segmentation, Transformation and Enhancement
- Title(参考訳): Medverse: 完全解像3次元画像分割・変換・拡張のためのユニバーサルモデル
- Authors: Jiesi Hu, Jianfeng Cao, Yanwu Yang, Chenfei Ye, Yixuan Zhang, Hanyang Peng, Ting Ma,
- Abstract要約: インコンテキスト学習は、普遍的な医用画像解析に有望なパラダイムを提供する。
我々は22のデータセットで訓練された3次元医用画像の汎用ICLモデルである textbfMedverse を提案する。
Medverseは、予測を粗いものから細かいものへと段階的に洗練する、次世代の自己回帰型インコンテキスト学習フレームワークを採用している。
- 参考スコア(独自算出の注目度): 15.28003304776022
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In-context learning (ICL) offers a promising paradigm for universal medical image analysis, enabling models to perform diverse image processing tasks without retraining. However, current ICL models for medical imaging remain limited in two critical aspects: they cannot simultaneously achieve high-fidelity predictions and global anatomical understanding, and there is no unified model trained across diverse medical imaging tasks (e.g., segmentation and enhancement) and anatomical regions. As a result, the full potential of ICL in medical imaging remains underexplored. Thus, we present \textbf{Medverse}, a universal ICL model for 3D medical imaging, trained on 22 datasets covering diverse tasks in universal image segmentation, transformation, and enhancement across multiple organs, imaging modalities, and clinical centers. Medverse employs a next-scale autoregressive in-context learning framework that progressively refines predictions from coarse to fine, generating consistent, full-resolution volumetric outputs and enabling multi-scale anatomical awareness. We further propose a blockwise cross-attention module that facilitates long-range interactions between context and target inputs while preserving computational efficiency through spatial sparsity. Medverse is extensively evaluated on a broad collection of held-out datasets covering previously unseen clinical centers, organs, species, and imaging modalities. Results demonstrate that Medverse substantially outperforms existing ICL baselines and establishes a novel paradigm for in-context learning. Code and model weights will be made publicly available. Our model are publicly available at https://github.com/jiesihu/Medverse.
- Abstract(参考訳): In-context Learning (ICL)は、普遍的な医用画像解析のための有望なパラダイムを提供する。
しかし、現在の医用画像用ICLモデルは、高忠実度予測とグローバル解剖学的理解を同時に達成することはできず、多様な医用画像タスク(例えば、セグメンテーションとエンハンスメント)と解剖学的領域で訓練された統一モデルも存在しない。
その結果、医用画像におけるICLの潜在能力は未解明のままである。
そこで,3次元医用画像の汎用ICLモデルであるtextbf{Medverse}を,複数の臓器,画像モダリティ,臨床センターにまたがる多様なタスクをカバーする22のデータセットで訓練した。
Medverseは、粗いものから細かいものまで予測を段階的に洗練し、一貫性のある完全なボリュームアウトプットを生成し、マルチスケールの解剖学的認識を可能にする、次世代の自己回帰型インコンテキスト学習フレームワークを採用している。
さらに,空間空間空間を通した計算効率を保ちながら,コンテキストとターゲット入力の長距離相互作用を容易にするブロックワイズ・クロスアテンション・モジュールを提案する。
Medverseは、これまで見つからなかった臨床センター、臓器、種、画像のモダリティを網羅した、広範囲に蓄積されたデータセットで広く評価されている。
その結果、Medverseは既存のICLベースラインを大幅に上回り、文脈内学習のための新しいパラダイムを確立していることがわかった。
コードとモデルの重み付けは公開されます。
私たちのモデルはhttps://github.com/jiesihu/Medverse.comで公開されています。
関連論文リスト
- M3Ret: Unleashing Zero-shot Multimodal Medical Image Retrieval via Self-Supervision [24.846428105192405]
我々は、モダリティ固有のカスタマイズなしで、統一されたビジュアルエンコーダであるM3Retを訓練する。
生成的(MAE)およびコントラスト的(SimDINO)自己教師型学習(SSL)パラダイムを用いて、転送可能な表現をうまく学習する。
提案手法は,DINOv3 やテキスト教師付き BMC-CLIP などの強力なベースラインを超越して,すべてのモダリティを横断するゼロショット画像画像検索において,新たな最先端技術を実現する。
論文 参考訳(メタデータ) (2025-09-01T10:59:39Z) - Multimodal Causal-Driven Representation Learning for Generalizable Medical Image Segmentation [56.52520416420957]
医用画像セグメンテーションにおける領域一般化に取り組むために, MCDRL(Multimodal Causal-Driven Representation Learning)を提案する。
MCDRLは競合する手法より一貫して優れ、セグメンテーション精度が優れ、堅牢な一般化性を示す。
論文 参考訳(メタデータ) (2025-08-07T03:41:41Z) - ClinKD: Cross-Modal Clinical Knowledge Distiller For Multi-Task Medical Images [4.353855760968461]
画像テキストアライメントを強化し、より効果的な医療知識変換機構を確立するために設計されたクロスモーダル臨床知識障害(ClinKD)。
ClinKDは、Med-VQAタスクでは難しいいくつかのデータセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-02-09T15:08:10Z) - Building Universal Foundation Models for Medical Image Analysis with
Spatially Adaptive Networks [5.661631789478932]
医用画像解析のための普遍的基礎モデルを提案する。
55の公開医用画像データセット上のマスク画像モデリング(MIM)を用いて、空間適応型視覚トークンーザ(SPAD-VT)と空間適応型視覚変換器(SPAD-ViT)を事前訓練する。
下流の医用画像分類とセグメンテーションタスクの実験結果から,本モデルの性能とラベルの効率が向上したことを示す。
論文 参考訳(メタデータ) (2023-12-12T08:33:45Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Training Like a Medical Resident: Context-Prior Learning Toward Universal Medical Image Segmentation [38.61227663176952]
医用画像理解基盤モデルの構築を目的としたパラダイムであるユニバーサル・メディカルイメージ・セグメンテーションへのシフトを提案する。
医用画像セグメンテーションにおけるデータの異質性やアノテーションの違いに対処する新しい文脈優先学習手法であるHermesを開発した。
論文 参考訳(メタデータ) (2023-06-04T17:39:08Z) - Multi-task Paired Masking with Alignment Modeling for Medical
Vision-Language Pre-training [55.56609500764344]
本稿では,マルチタスク・ペアド・マスキング・アライメント(MPMA)に基づく統合フレームワークを提案する。
また, メモリ拡張クロスモーダルフュージョン (MA-CMF) モジュールを導入し, 視覚情報を完全統合し, レポート再構築を支援する。
論文 参考訳(メタデータ) (2023-05-13T13:53:48Z) - Generalizable multi-task, multi-domain deep segmentation of sparse
pediatric imaging datasets via multi-scale contrastive regularization and
multi-joint anatomical priors [0.41998444721319217]
本稿では,複数のデータセットに対して単一セグメンテーションネットワークを最適化する,新しいマルチタスク・マルチドメイン学習フレームワークを提案する。
足関節, 膝関節, 肩関節の3つの軽度, 小児画像データセットを用いた骨分節術の成績について検討した。
論文 参考訳(メタデータ) (2022-07-27T12:59:16Z) - Few-shot Medical Image Segmentation using a Global Correlation Network
with Discriminative Embedding [60.89561661441736]
医療画像分割のための新しい手法を提案する。
深層畳み込みネットワークを用いた数ショット画像セグメンタを構築します。
深層埋め込みの識別性を高め,同一クラスの特徴領域のクラスタリングを促進する。
論文 参考訳(メタデータ) (2020-12-10T04:01:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。