論文の概要: Medverse: A Universal Model for Full-Resolution 3D Medical Image Segmentation, Transformation and Enhancement
- arxiv url: http://arxiv.org/abs/2509.09232v1
- Date: Thu, 11 Sep 2025 08:10:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 16:52:24.285339
- Title: Medverse: A Universal Model for Full-Resolution 3D Medical Image Segmentation, Transformation and Enhancement
- Title(参考訳): Medverse: 完全解像3次元画像分割・変換・拡張のためのユニバーサルモデル
- Authors: Jiesi Hu, Jianfeng Cao, Yanwu Yang, Chenfei Ye, Yixuan Zhang, Hanyang Peng, Ting Ma,
- Abstract要約: インコンテキスト学習は、普遍的な医用画像解析に有望なパラダイムを提供する。
我々は22のデータセットで訓練された3次元医用画像の汎用ICLモデルである textbfMedverse を提案する。
Medverseは、予測を粗いものから細かいものへと段階的に洗練する、次世代の自己回帰型インコンテキスト学習フレームワークを採用している。
- 参考スコア(独自算出の注目度): 15.28003304776022
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In-context learning (ICL) offers a promising paradigm for universal medical image analysis, enabling models to perform diverse image processing tasks without retraining. However, current ICL models for medical imaging remain limited in two critical aspects: they cannot simultaneously achieve high-fidelity predictions and global anatomical understanding, and there is no unified model trained across diverse medical imaging tasks (e.g., segmentation and enhancement) and anatomical regions. As a result, the full potential of ICL in medical imaging remains underexplored. Thus, we present \textbf{Medverse}, a universal ICL model for 3D medical imaging, trained on 22 datasets covering diverse tasks in universal image segmentation, transformation, and enhancement across multiple organs, imaging modalities, and clinical centers. Medverse employs a next-scale autoregressive in-context learning framework that progressively refines predictions from coarse to fine, generating consistent, full-resolution volumetric outputs and enabling multi-scale anatomical awareness. We further propose a blockwise cross-attention module that facilitates long-range interactions between context and target inputs while preserving computational efficiency through spatial sparsity. Medverse is extensively evaluated on a broad collection of held-out datasets covering previously unseen clinical centers, organs, species, and imaging modalities. Results demonstrate that Medverse substantially outperforms existing ICL baselines and establishes a novel paradigm for in-context learning. Code and model weights will be made publicly available. Our model are publicly available at https://github.com/jiesihu/Medverse.
- Abstract(参考訳): In-context Learning (ICL)は、普遍的な医用画像解析のための有望なパラダイムを提供する。
しかし、現在の医用画像用ICLモデルは、高忠実度予測とグローバル解剖学的理解を同時に達成することはできず、多様な医用画像タスク(例えば、セグメンテーションとエンハンスメント)と解剖学的領域で訓練された統一モデルも存在しない。
その結果、医用画像におけるICLの潜在能力は未解明のままである。
そこで,3次元医用画像の汎用ICLモデルであるtextbf{Medverse}を,複数の臓器,画像モダリティ,臨床センターにまたがる多様なタスクをカバーする22のデータセットで訓練した。
Medverseは、粗いものから細かいものまで予測を段階的に洗練し、一貫性のある完全なボリュームアウトプットを生成し、マルチスケールの解剖学的認識を可能にする、次世代の自己回帰型インコンテキスト学習フレームワークを採用している。
さらに,空間空間空間を通した計算効率を保ちながら,コンテキストとターゲット入力の長距離相互作用を容易にするブロックワイズ・クロスアテンション・モジュールを提案する。
Medverseは、これまで見つからなかった臨床センター、臓器、種、画像のモダリティを網羅した、広範囲に蓄積されたデータセットで広く評価されている。
その結果、Medverseは既存のICLベースラインを大幅に上回り、文脈内学習のための新しいパラダイムを確立していることがわかった。
コードとモデルの重み付けは公開されます。
私たちのモデルはhttps://github.com/jiesihu/Medverse.comで公開されています。
関連論文リスト
- DuPLUS: Dual-Prompt Vision-Language Framework for Universal Medical Image Segmentation and Prognosis [5.494301428436596]
効率的なマルチモーダル医療画像解析のためのディープラーニングフレームワークであるDuPLUSを紹介する。
DuPLUSは、階層的セマンティックプロンプトを利用して分析タスクのきめ細かい制御を行う新しい視覚言語フレームワークを導入した。
セグメンテーションのために、DuPLUSは、30以上の臓器と腫瘍タイプを含む10の異なる医療データセットである3つの画像モダリティを一般化することができる。
論文 参考訳(メタデータ) (2025-10-03T20:01:00Z) - M3Ret: Unleashing Zero-shot Multimodal Medical Image Retrieval via Self-Supervision [24.846428105192405]
我々は、モダリティ固有のカスタマイズなしで、統一されたビジュアルエンコーダであるM3Retを訓練する。
生成的(MAE)およびコントラスト的(SimDINO)自己教師型学習(SSL)パラダイムを用いて、転送可能な表現をうまく学習する。
提案手法は,DINOv3 やテキスト教師付き BMC-CLIP などの強力なベースラインを超越して,すべてのモダリティを横断するゼロショット画像画像検索において,新たな最先端技術を実現する。
論文 参考訳(メタデータ) (2025-09-01T10:59:39Z) - Multimodal Causal-Driven Representation Learning for Generalizable Medical Image Segmentation [56.52520416420957]
医用画像セグメンテーションにおける領域一般化に取り組むために, MCDRL(Multimodal Causal-Driven Representation Learning)を提案する。
MCDRLは競合する手法より一貫して優れ、セグメンテーション精度が優れ、堅牢な一般化性を示す。
論文 参考訳(メタデータ) (2025-08-07T03:41:41Z) - ClinKD: Cross-Modal Clinical Knowledge Distiller For Multi-Task Medical Images [4.353855760968461]
画像テキストアライメントを強化し、より効果的な医療知識変換機構を確立するために設計されたクロスモーダル臨床知識障害(ClinKD)。
ClinKDは、Med-VQAタスクでは難しいいくつかのデータセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-02-09T15:08:10Z) - QUBIQ: Uncertainty Quantification for Biomedical Image Segmentation Challenge [93.61262892578067]
医用画像分割作業の不確実性、特にラター間変動性は重要な課題である。
この可変性は、自動セグメンテーションアルゴリズムの開発と評価に直接影響を及ぼす。
バイオメディカル画像量化チャレンジ(QUBIQ)における不確実性の定量化のベンチマーク結果を報告する。
論文 参考訳(メタデータ) (2024-03-19T17:57:24Z) - Building Universal Foundation Models for Medical Image Analysis with
Spatially Adaptive Networks [5.661631789478932]
医用画像解析のための普遍的基礎モデルを提案する。
55の公開医用画像データセット上のマスク画像モデリング(MIM)を用いて、空間適応型視覚トークンーザ(SPAD-VT)と空間適応型視覚変換器(SPAD-ViT)を事前訓練する。
下流の医用画像分類とセグメンテーションタスクの実験結果から,本モデルの性能とラベルの効率が向上したことを示す。
論文 参考訳(メタデータ) (2023-12-12T08:33:45Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Training Like a Medical Resident: Context-Prior Learning Toward Universal Medical Image Segmentation [38.61227663176952]
医用画像理解基盤モデルの構築を目的としたパラダイムであるユニバーサル・メディカルイメージ・セグメンテーションへのシフトを提案する。
医用画像セグメンテーションにおけるデータの異質性やアノテーションの違いに対処する新しい文脈優先学習手法であるHermesを開発した。
論文 参考訳(メタデータ) (2023-06-04T17:39:08Z) - Multi-task Paired Masking with Alignment Modeling for Medical
Vision-Language Pre-training [55.56609500764344]
本稿では,マルチタスク・ペアド・マスキング・アライメント(MPMA)に基づく統合フレームワークを提案する。
また, メモリ拡張クロスモーダルフュージョン (MA-CMF) モジュールを導入し, 視覚情報を完全統合し, レポート再構築を支援する。
論文 参考訳(メタデータ) (2023-05-13T13:53:48Z) - Understanding the Tricks of Deep Learning in Medical Image Segmentation:
Challenges and Future Directions [66.40971096248946]
本稿では,モデル実装の異なるフェーズに対して,MedISegの一連のトリックを収集する。
本稿では,これらの手法の有効性を一貫したベースライン上で実験的に検討する。
私たちはまた、それぞれのコンポーネントがプラグインとプレイの利点を持つ強力なMedISegリポジトリをオープンソースにしました。
論文 参考訳(メタデータ) (2022-09-21T12:30:05Z) - Generalizable multi-task, multi-domain deep segmentation of sparse
pediatric imaging datasets via multi-scale contrastive regularization and
multi-joint anatomical priors [0.41998444721319217]
本稿では,複数のデータセットに対して単一セグメンテーションネットワークを最適化する,新しいマルチタスク・マルチドメイン学習フレームワークを提案する。
足関節, 膝関節, 肩関節の3つの軽度, 小児画像データセットを用いた骨分節術の成績について検討した。
論文 参考訳(メタデータ) (2022-07-27T12:59:16Z) - A Data-scalable Transformer for Medical Image Segmentation:
Architecture, Model Efficiency, and Benchmark [45.543140413399506]
MedFormerは、一般化可能な3次元医用画像セグメンテーションのために設計されたデータスケーリング可能なトランスフォーマーである。
提案手法には, 望ましい帰納バイアス, 線形複雑度を考慮した階層的モデリング, マルチスケール特徴融合の3つの要素が組み込まれている。
論文 参考訳(メタデータ) (2022-02-28T22:59:42Z) - Few-shot Medical Image Segmentation using a Global Correlation Network
with Discriminative Embedding [60.89561661441736]
医療画像分割のための新しい手法を提案する。
深層畳み込みネットワークを用いた数ショット画像セグメンタを構築します。
深層埋め込みの識別性を高め,同一クラスの特徴領域のクラスタリングを促進する。
論文 参考訳(メタデータ) (2020-12-10T04:01:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。