論文の概要: Concept-to-Pixel: Prompt-Free Universal Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2603.17746v1
- Date: Wed, 18 Mar 2026 14:13:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.740034
- Title: Concept-to-Pixel: Prompt-Free Universal Medical Image Segmentation
- Title(参考訳): Concept-to-Pixel: Prompt-free Universal Medical Image Segmentation
- Authors: Haoyun Chen, Fenghe Tang, Wenxin Ma, Shaohua Kevin Zhou,
- Abstract要約: Concept-to-Pixel (C2P) は、新しいプロンプトフリーのユニバーサルセグメンテーションフレームワークである。
C2Pは解剖学的知識を幾何学的表現とセマンティック表現の2つの構成要素に分ける。
- 参考スコア(独自算出の注目度): 2.5026850988034797
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Universal medical image segmentation seeks to use a single foundational model to handle diverse tasks across multiple imaging modalities. However, existing approaches often rely heavily on manual visual prompts or retrieved reference images, which limits their automation and robustness. In addition, naive joint training across modalities often fails to address large domain shifts. To address these limitations, we propose Concept-to-Pixel (C2P), a novel prompt-free universal segmentation framework. C2P explicitly separates anatomical knowledge into two components: Geometric and Semantic representations. It leverages Multimodal Large Language Models (MLLMs) to distill abstract, high-level medical concepts into learnable Semantic Tokens and introduces explicitly supervised Geometric Tokens to enforce universal physical and structural constraints. These disentangled tokens interact deeply with image features to generate input-specific dynamic kernels for precise mask prediction. Furthermore, we introduce a Geometry-Aware Inference Consensus mechanism, which utilizes the model's predicted geometric constraints to assess prediction reliability and suppress outliers. Extensive experiments and analysis on a unified benchmark comprising eight diverse datasets across seven modalities demonstrate the significant superiority of our jointly trained approach, compared to universe- or single-model approaches. Remarkably, our unified model demonstrates strong generalization, achieving impressive results not only on zero-shot tasks involving unseen cases but also in cross-modal transfers across similar tasks. Code is available at: https://github.com/Yundi218/Concept-to-Pixel
- Abstract(参考訳): ユニバーサル・メディカル・イメージ・セグメンテーション (Universal Medical Image segmentation) は、複数の画像モダリティにわたる多様なタスクを処理するために、単一の基礎モデルを使用することを目指している。
しかし、既存のアプローチは、しばしば手動の視覚的プロンプトや参照画像の取得に大きく依存しており、自動化と堅牢性を制限する。
さらに、モダリティを越えたナイーブなジョイントトレーニングは、大きなドメインシフトに対応できないことが多い。
これらの制約に対処するために,新しいプロンプトフリーユニバーサルセグメンテーションフレームワークであるConcept-to-Pixel (C2P)を提案する。
C2Pは解剖学的知識を、幾何学的表現とセマンティック表現の2つの構成要素に明確に分けている。
MLLM(Multimodal Large Language Models)を活用して、抽象的でハイレベルな医療概念を学習可能なセマンティックトークンに抽出し、普遍的な物理的および構造的制約を強制するために、明示的に監督された幾何学的トークンを導入する。
これらの歪んだトークンは画像の特徴と深く相互作用し、正確なマスク予測のために入力固有の動的カーネルを生成する。
さらに,モデルが予測した幾何制約を利用して予測信頼性を評価し,外れ値を抑制する幾何学的推論合意機構を導入する。
7つのモダリティにまたがる8つの多様なデータセットからなる統一されたベンチマークに関する大規模な実験と分析は、宇宙や単一モデルアプローチと比較して、共同で訓練されたアプローチの顕著な優位性を示している。
注目すべきことに、我々の統一モデルは強力な一般化を示し、目に見えないケースを含むゼロショットタスクだけでなく、類似タスク間のクロスモーダル転送においても印象的な結果が得られる。
コードは、https://github.com/Yundi218/Concept-to-Pixelで入手できる。
関連論文リスト
- Perception-Aware Multimodal Spatial Reasoning from Monocular Images [57.42071289037214]
単眼画像からの空間的推論は 自律運転には不可欠です
現在のヴィジュアルランゲージモデル(VLM)は、微粒な幾何学的知覚に苦慮している。
本稿では,VLMを明示的な対象中心の接地能力を持つ知覚認識型マルチモーダル推論フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-07T02:05:12Z) - Towards Generalized Multi-Image Editing for Unified Multimodal Models [56.620038824933566]
統一マルチモーダルモデル(UMM)は、マルチモーダル理解と生成を統合する。
UMMは、複数の入力画像にまたがる詳細を参照する場合、視覚的一貫性の維持と視覚的手がかりの曖昧さに制限される。
画像の同一性を明確に識別し、可変入力数に一般化するUMMのためのスケーラブルなマルチイメージ編集フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-09T06:42:49Z) - Point Cloud Quantization through Multimodal Prompting for 3D Understanding [20.397232104616574]
本稿では,ポイントクラウド解析のための簡易なマルチモーダルプロンプト駆動量子化フレームワークを提案する。
1) 事前訓練されたモデルからのテキスト埋め込みは、視覚的意味論を本質的にエンコードする。
我々は、量子化空間を維持しながら微分可能な離散化を実現するために、Gumbel-Softmax緩和を用いる。
論文 参考訳(メタデータ) (2025-11-15T07:51:10Z) - Libra-MIL: Multimodal Prototypes Stereoscopic Infused with Task-specific Language Priors for Few-shot Whole Slide Image Classification [18.928408687991368]
大規模言語モデル(LLM)は、計算病理学において有望な方向性として現れつつある。
既存の視覚言語によるMIL(Multi-Instance Learning)手法では、一方向指導を用いることが多い。
本稿では,双方向インタラクションを促進するマルチモーダルプロトタイプベースのマルチインスタンス学習を提案する。
論文 参考訳(メタデータ) (2025-11-11T07:46:38Z) - Visual Bridge: Universal Visual Perception Representations Generating [27.034175361589572]
複数のタスクにまたがる多様な視覚表現を生成できるフローマッチングに基づく普遍的な視覚認識フレームワークを提案する。
提案手法は,画像パッチトークンからタスク固有の表現への共通フローマッチング問題を定式化したものである。
我々のモデルはゼロショットと微調整の両方で競争性能を達成し、事前のジェネラリストやいくつかのスペシャリストモデルよりも優れています。
論文 参考訳(メタデータ) (2025-11-11T06:25:30Z) - UniPixel: Unified Object Referring and Segmentation for Pixel-Level Visual Reasoning [83.68366772745689]
視覚的なプロンプト入力を柔軟に解釈し,マスクによる応答を生成できる大規模マルチモーダルモデルUniPixelを提案する。
具体的には、UniPixelは、要求に応じて視覚的なプロンプトを処理し、関連するマスクを生成し、推論中にこれらの中間ポインタに対してその後の推論条件を実行する。
提案手法の有効性は,画素レベルの参照/セグメンテーションや画像・ビデオにおけるオブジェクト中心の理解など,多種多様なタスクを対象とした10のベンチマークで検証されている。
論文 参考訳(メタデータ) (2025-09-22T17:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。