論文の概要: Medal S: Spatio-Textual Prompt Model for Medical Segmentation
- arxiv url: http://arxiv.org/abs/2511.13001v1
- Date: Mon, 17 Nov 2025 05:44:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.697881
- Title: Medal S: Spatio-Textual Prompt Model for Medical Segmentation
- Title(参考訳): メダルS : 医療セグメント化のための時空間テキストプロンプトモデル
- Authors: Pengcheng Shi, Jiawei Chen, Jiaqi Liu, Xinglin Zhang, Tao Chen, Lei Li,
- Abstract要約: Medal Sは、エンドツーエンドのトレーニング可能なフレームワーク内で、ネイティブ解像度の空間プロンプトとテキストプロンプトをサポートする。
複数のネイティブ解像度マスクを並列に処理し、マルチクラスのセグメンテーション性能を向上させる。
軽量な3D畳み込みモジュールは、両方のプロンプト型によってガイドされる正確なボクセル空間の洗練を可能にする。
- 参考スコア(独自算出の注目度): 19.872612663709656
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Medal S, a medical segmentation foundation model that supports native-resolution spatial and textual prompts within an end-to-end trainable framework. Unlike text-only methods lacking spatial awareness, Medal S achieves channel-wise alignment between volumetric prompts and text embeddings, mitigating inaccuracies from resolution mismatches. By preserving full 3D context, it efficiently processes multiple native-resolution masks in parallel, enhancing multi-class segmentation performance. A lightweight 3D convolutional module enables precise voxel-space refinement guided by both prompt types, supporting up to 243 classes across CT, MRI, PET, ultrasound, and microscopy modalities in the BiomedSegFM dataset. Medal S offers two prompting modes: a text-only mode, where model predictions serve as spatial prompts for self-refinement without human input, and a hybrid mode, incorporating manual annotations for enhanced flexibility. For 24-class segmentation, parallel spatial prompting reduces inference time by more than 90% compared to sequential prompting. We propose dynamic resampling to address target-patch ratio imbalance, extending SAT and nnU-Net for data augmentation. Furthermore, we develop optimized text preprocessing, a two-stage inference strategy, and post-processing techniques to improve memory efficiency, precision, and inference speed. On the five-modality average on the validation set, Medal S outperforms SAT with a DSC of 75.44 (vs. 69.83), NSD of 77.34 (vs. 71.06), F1 of 38.24 (vs. 24.88), and DSC TP of 65.46 (vs. 46.97). Medal S achieves excellent performance by harmonizing spatial precision with semantic textual guidance, demonstrating superior efficiency and accuracy in multi-class medical segmentation tasks compared to sequential prompt-based approaches. Medal S will be publicly available at https://github.com/yinghemedical/Medal-S.
- Abstract(参考訳): エンド・ツー・エンドのトレーニング可能なフレームワーク内で、ネイティブ解像度の空間的およびテキスト的プロンプトをサポートする医療セグメンテーション基盤モデルであるメダルSを紹介する。
空間的認識を欠くテキストのみの手法とは異なり、メダルSはボリュームプロンプトとテキスト埋め込みのチャネルワイドなアライメントを実現し、解像度のミスマッチから不正確さを軽減している。
完全な3Dコンテキストを保存することで、複数のネイティブ解像度マスクを並列に処理し、マルチクラスのセグメンテーション性能を向上させる。
軽量な3D畳み込みモジュールにより、BiomedSegFMデータセットの最大243のクラスをCT、MRI、PET、超音波、顕微鏡でサポートする。
Medal Sは2つのプロンプトモードを提供する: テキストのみのモードで、モデル予測は人間の入力なしに自己修正のための空間的プロンプトとして機能する。
24クラスのセグメンテーションでは、並列空間プロンプトはシーケンシャルプロンプトに比べて推論時間を90%以上削減する。
本研究では、データ拡張のためにSATとnnU-Netを拡張し、ターゲットパッチ比の不均衡に対処する動的再サンプリングを提案する。
さらに、メモリ効率、精度、推論速度を改善するために、最適化されたテキスト前処理、二段階推論戦略および後処理技術を開発した。
検証セットの5つのモード平均において、メダルSはSATを75.44(vs.69.83)、SDを77.34(vs.71.06)、F1を38.24(vs.24.88)、DSC TPを65.46(vs.46.97)で上回る。
メダルSは、意味的テキスト誘導と空間精度を調和させ、シーケンシャルなプロンプトベースアプローチと比較して、マルチクラスの医療セグメンテーションタスクにおいて、優れた効率と精度を示す。
Medal Sはhttps://github.com/yinghemedical/Medal-S.comで公開される。
関連論文リスト
- BiPrompt-SAM: Enhancing Image Segmentation via Explicit Selection between Point and Text Prompts [2.2261951153501274]
BiPrompt-SAMは、新しいデュアルモーダルプロンプトセグメンテーションフレームワークである。
複雑なモデル修正なしに、空間的精度と意味的文脈を融合する。
これはEndovis17の医療データセット上で強力なゼロショットパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-25T15:38:55Z) - Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language Model [51.83436609094658]
本稿では,2次元画像を入力として,MLLMの時空間推論を強化する軽量な手法である粗対応を導入する。
本手法は,映像のフレーム間や異なる視点における主物体の対応性を特定するために,軽量な追跡モデルを用いている。
この単純なトレーニングフリーアプローチは、4つのベンチマークでGPT4-V/Oに一定の利得をもたらすことを実証する。
論文 参考訳(メタデータ) (2024-08-01T17:57:12Z) - AToM: Amortized Text-to-Mesh using 2D Diffusion [107.02696990299032]
Amortized Text-to-Mesh (AToM) は複数のテキストプロンプトに同時に最適化されたフィードフォワードフレームワークである。
AToMはトレーニングコストの約10倍の削減とともに、1秒未満で高品質なテクスチャメッシュを直接生成する。
AToMは4倍以上の精度で最先端のアモルト化アプローチを著しく上回っている。
論文 参考訳(メタデータ) (2024-02-01T18:59:56Z) - Large-Vocabulary Segmentation for Medical Images with Text Prompts [68.9193694019039]
本稿では,SATと呼ばれるテキストプロンプトとして医療用語を駆使した3次元医用画像に任意のセグメンテーションを組み込むモデルを構築することを目的とする。
6502個の解剖学的用語を含む,ヒト解剖学上の最初のマルチモーダル知識ツリーを構築した。
トレーニング用の最大かつ最も包括的なセグメンテーションデータセットを構築し、72データセットから22K以上の3Dスキャンを収集します。
論文 参考訳(メタデータ) (2023-12-28T18:16:00Z) - Towards Robust Real-Time Scene Text Detection: From Semantic to Instance
Representation Learning [19.856492291263102]
リアルタイムなシーンテキスト検出のための表現学習を提案する。
意味表現学習のために,GDSC(Global-dense semantic contrast)とトップダウンモデリング(TDM)を提案する。
提案したGDSCとTDMにより、推論中にパラメータや計算を導入することなく、エンコーダネットワークはより強力な表現を学習する。
提案手法は,全テキスト上で48.2FPS,MSRA-TD500で89.6%FPS,MSRA-TD500で36.9FPS,87.2%FPSを達成する。
論文 参考訳(メタデータ) (2023-08-14T15:14:37Z) - Automatic size and pose homogenization with spatial transformer network
to improve and accelerate pediatric segmentation [51.916106055115755]
空間変換器ネットワーク(STN)を利用することにより、ポーズとスケール不変の新たなCNNアーキテクチャを提案する。
私たちのアーキテクチャは、トレーニング中に一緒に見積もられる3つのシーケンシャルモジュールで構成されています。
腹部CTスキャナーを用いた腎および腎腫瘍の分節法について検討した。
論文 参考訳(メタデータ) (2021-07-06T14:50:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。