論文の概要: MedUniSeg: 2D and 3D Medical Image Segmentation via a Prompt-driven Universal Model
- arxiv url: http://arxiv.org/abs/2410.05905v1
- Date: Tue, 8 Oct 2024 11:04:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 12:10:29.785847
- Title: MedUniSeg: 2D and 3D Medical Image Segmentation via a Prompt-driven Universal Model
- Title(参考訳): MedUniSeg: プロンプト駆動ユニバーサルモデルによる2次元および3次元医用画像セグメンテーション
- Authors: Yiwen Ye, Ziyang Chen, Jianpeng Zhang, Yutong Xie, Yong Xia,
- Abstract要約: MedUniSegは、2次元および3次元マルチタスクセグメンテーションのためのプロンプト駆動のユニバーサルセグメンテーションモデルである。
MedUniSegは複数のモーダル固有のプロンプトとユニバーサルタスクプロンプトを使用して、モーダルとタスクを正確に特徴づける。
我々は17のサブデータセットからなる総合的マルチモーダル上流データセット上でMedUniSegを評価する。
- 参考スコア(独自算出の注目度): 27.58715707047272
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Universal segmentation models offer significant potential in addressing a wide range of tasks by effectively leveraging discrete annotations. As the scope of tasks and modalities expands, it becomes increasingly important to generate and strategically position task- and modal-specific priors within the universal model. However, existing universal models often overlook the correlations between different priors, and the optimal placement and frequency of these priors remain underexplored. In this paper, we introduce MedUniSeg, a prompt-driven universal segmentation model designed for 2D and 3D multi-task segmentation across diverse modalities and domains. MedUniSeg employs multiple modal-specific prompts alongside a universal task prompt to accurately characterize the modalities and tasks. To generate the related priors, we propose the modal map (MMap) and the fusion and selection (FUSE) modules, which transform modal and task prompts into corresponding priors. These modal and task priors are systematically introduced at the start and end of the encoding process. We evaluate MedUniSeg on a comprehensive multi-modal upstream dataset consisting of 17 sub-datasets. The results demonstrate that MedUniSeg achieves superior multi-task segmentation performance, attaining a 1.2% improvement in the mean Dice score across the 17 upstream tasks compared to nnUNet baselines, while using less than 1/10 of the parameters. For tasks that underperform during the initial multi-task joint training, we freeze MedUniSeg and introduce new modules to re-learn these tasks. This approach yields an enhanced version, MedUniSeg*, which consistently outperforms MedUniSeg across all tasks. Moreover, MedUniSeg surpasses advanced self-supervised and supervised pre-trained models on six downstream tasks, establishing itself as a high-quality, highly generalizable pre-trained segmentation model.
- Abstract(参考訳): ユニバーサルセグメンテーションモデルは、離散アノテーションを効果的に活用することによって、幅広いタスクに対処する上で大きな可能性を提供する。
タスクとモダリティの範囲が拡大するにつれて、ユニバーサルモデル内でタスクとモダリティ固有の事前情報を生成し、戦略的に位置づけることがますます重要になる。
しかし、既存の普遍モデルは、しばしば異なる先行の相関を見落とし、これらの先行の最適な配置と頻度は、未探索のままである。
本稿では,多様なモダリティや領域にまたがる2次元および3次元マルチタスクセグメンテーションのために設計された,プロンプト駆動のユニバーサルセグメンテーションモデルであるMedUniSegを紹介する。
MedUniSegは複数のモーダル固有のプロンプトとユニバーサルタスクプロンプトを使用して、モーダルとタスクを正確に特徴づける。
そこで本研究では,モーダルマップ (MMap) とフュージョン・アンド・セレクション (FUSE) モジュールを提案する。
これらのモーダルおよびタスク先行は、エンコーディングプロセスの開始と終了で体系的に導入される。
我々は17のサブデータセットからなる総合的マルチモーダル上流データセット上でMedUniSegを評価する。
その結果、MedUniSegは、パラメータの1/10未満を使用しながら、17上流タスクの平均DiceスコアをnUNetベースラインと比較して1.2%改善し、マルチタスクセグメンテーション性能が向上することを示した。
最初のマルチタスクのジョイントトレーニングで不足したタスクに対しては、MedUniSegを凍結し、これらのタスクを再学習するための新しいモジュールを導入します。
このアプローチは拡張バージョンであるMedUniSeg*をもたらし、すべてのタスクでMedUniSegを一貫して上回っている。
さらに、MedUniSegは、6つの下流タスクにおける高度な自己教師付きおよび教師付き事前訓練モデルを超え、高品質で、高度に一般化可能な事前訓練セグメンテーションモデルとして確立している。
関連論文リスト
- Towards a Generalist and Blind RGB-X Tracker [91.36268768952755]
我々は、推論時間中に任意のモダリティ X を無視できる単一のモデルトラッカーを開発する。
トレーニングプロセスは非常にシンプルで,複数ラベルの分類損失をルーティング関数に統合する。
我々のジェネラリストとブラインドトラッカーは、確立されたモーダル固有モデルと比較して、競争性能を達成することができる。
論文 参考訳(メタデータ) (2024-05-28T03:00:58Z) - Enhancing Visual Grounding and Generalization: A Multi-Task Cycle Training Approach for Vision-Language Models [41.64717254672843]
視覚接地は多モード視覚言語モデルにおいて重要な位置を占める。
本稿では,VGのマルチタスクをサポートする大規模なマルチモーダリティモデルであるViLaMを提案する。
ViLaMは幅広い命令を拡張し、一般化と相互作用ポテンシャルを大幅に強化する。
論文 参考訳(メタデータ) (2023-11-21T03:40:09Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - UniSeg: A Prompt-driven Universal Segmentation Model as well as A Strong
Representation Learner [32.698493660851035]
マルチタスク画像分割のためのプロンプト駆動ユニバーサルモデル(UniSeg)を提案する。
我々は、進行中のタスクのモデル「アウェア」を早期に作成し、デコーダ全体のタスク固有のトレーニングを強化する。
提案したUniSegは,11の上流タスクにおいて,他のユニバーサルモデルやシングルタスクモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-04-07T06:28:51Z) - OFASys: A Multi-Modal Multi-Task Learning System for Building Generalist
Models [72.8156832931841]
ジェネリストモデルは、単一のモデル内でタスクに依存しない方法で多様なマルチモーダルタスクを実行することができる。
マルチモーダル命令と呼ばれる宣言型タスクインタフェース上に構築された汎用モデル学習システムOFASysをリリースする。
論文 参考訳(メタデータ) (2022-12-08T17:07:09Z) - Uni-Perceiver v2: A Generalist Model for Large-Scale Vision and
Vision-Language Tasks [86.66733026149892]
大規模ビジョンと視覚非依存タスクを扱える最初のジェネラリストモデルであるUni-Perceiver v2を提案する。
具体的には、画像は一般領域の提案としてエンコードされ、テキストはTransformerベースの言語モデルを介してエンコードされる。
Uni-Perceiver v2は、幅広いビジョンとビジョン言語タスクで競争力を発揮する。
論文 参考訳(メタデータ) (2022-11-17T18:59:52Z) - Deep Multimodal Fusion for Generalizable Person Re-identification [15.250738959921872]
DMF(ディープ・マルチモーダル・フュージョン)は、個人再識別タスクの一般的なシナリオのためのディープ・マルチモーダル・フュージョン・ネットワークである。
事前学習段階における特徴表現学習を支援するために、リッチな意味知識が導入される。
実世界の分散アライメントのための事前訓練されたモデルを微調整するために、現実的なデータセットが採用されている。
論文 参考訳(メタデータ) (2022-11-02T07:42:48Z) - Uni-Perceiver: Pre-training Unified Architecture for Generic Perception
for Zero-shot and Few-shot Tasks [73.63892022944198]
我々はUni-Perceiverという汎用認識アーキテクチャを提案する。
様々なモダリティやタスクを、統一されたモデリングと共有パラメータで処理します。
その結果、チューニングなしで事前学習したモデルは、新しいタスクでも合理的なパフォーマンスを達成できることがわかった。
論文 参考訳(メタデータ) (2021-12-02T18:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。