論文の概要: MedP-CLIP: Medical CLIP with Region-Aware Prompt Integration
- arxiv url: http://arxiv.org/abs/2604.11197v1
- Date: Mon, 13 Apr 2026 08:53:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.440946
- Title: MedP-CLIP: Medical CLIP with Region-Aware Prompt Integration
- Title(参考訳): MedP-CLIP: 地域対応プロンプト統合型医療用CLIP
- Authors: Jiahui Peng, He Yao, Jingwen Li, Yanzhou Su, Sibo Ju, Yujie Lu, Jin Ye, Hongchun Lu, Xue Li, Lincheng Jiang, Min Zhu, Junlong Cheng,
- Abstract要約: 地域対応医療ビジョン言語モデル(VLM)であるMedP-CLIPを提案する。
我々は、精密に構築された大規模データセット上でモデルを事前訓練する。
実験により,MedP-CLIPは各種医療タスクにおいて,ベースライン法よりも有意に優れていた。
- 参考スコア(独自算出の注目度): 22.87996664536728
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive Language-Image Pre-training (CLIP) has demonstrated outstanding performance in global image understanding and zero-shot transfer through large-scale text-image alignment. However, the core of medical image analysis often lies in the fine-grained understanding of specific anatomical structures or lesion regions. Therefore, precisely comprehending region-of-interest (RoI) information provided by medical professionals or perception models becomes crucial. To address this need, we propose MedP-CLIP, a region-aware medical vision-language model (VLM). MedP-CLIP innovatively integrates medical prior knowledge and designs a feature-level region prompt integration mechanism, enabling it to flexibly respond to various prompt forms (e.g., points, bounding boxes, masks) while maintaining global contextual awareness when focusing on local regions. We pre-train the model on a meticulously constructed large-scale dataset (containing over 6.4 million medical images and 97.3 million region-level annotations), equipping it with cross-disease and cross-modality fine-grained spatial semantic understanding capabilities. Experiments demonstrate that MedP-CLIP significantly outperforms baseline methods in various medical tasks, including zero-shot recognition, interactive segmentation, and empowering multimodal large language models. This model provides a scalable, plug-and-play visual backbone for medical AI, combining holistic image understanding with precise regional analysis.
- Abstract(参考訳): Contrastive Language-Image Pre-Training (CLIP) は,大規模テキスト画像アライメントによるグローバルな画像理解とゼロショット転送において,優れた性能を示した。
しかし、医用画像解析の核心は、特定の解剖学的構造や病変領域のきめ細かい理解にあることが多い。
したがって、医療専門家や知覚モデルによって提供される関心領域(RoI)情報を正確に理解することが重要である。
そこで本研究では,領域対応医療ビジョン言語モデル(VLM)であるMedP-CLIPを提案する。
MedP-CLIPは、医学的先行知識を革新的に統合し、特徴レベル領域のプロンプト統合機構を設計し、ローカル領域にフォーカスする際のグローバルな文脈認識を維持しながら、様々なプロンプトフォーム(例えば、ポイント、バウンディングボックス、マスク)に柔軟に対応できるようにする。
我々は、精密に構築された大規模なデータセット(640万以上の医療画像と9730万の地域レベルのアノテーションを含む)でモデルを事前訓練し、クロスディスリーズとクロスモーダルな空間意味理解機能を備える。
MedP-CLIPは、ゼロショット認識、対話的セグメンテーション、マルチモーダルな大規模言語モデルの強化など、様々な医療タスクにおいて、ベースライン手法を著しく上回ることを示した。
このモデルは、医用AIのためのスケーラブルでプラグアンドプレイのビジュアルバックボーンを提供し、全体像理解と正確な地域分析を組み合わせる。
関連論文リスト
- RegionMed-CLIP: A Region-Aware Multimodal Contrastive Learning Pre-trained Model for Medical Image Understanding [0.0]
RegionMed-CLIPは、局所的な病理信号と全体論的意味表現を組み込んだマルチモーダルコントラスト学習フレームワークである。
MedRegion-500kは、広範囲な地域アノテーションと多段階の臨床的記述を特徴とする総合的な医用画像テキストコーパスである。
本研究は,マルチモーダル医用画像理解の基盤として,地域対応型コントラスト事前訓練の重要性を強調した。
論文 参考訳(メタデータ) (2025-08-07T10:32:03Z) - Multimodal Causal-Driven Representation Learning for Generalizable Medical Image Segmentation [56.52520416420957]
医用画像セグメンテーションにおける領域一般化に取り組むために, MCDRL(Multimodal Causal-Driven Representation Learning)を提案する。
MCDRLは競合する手法より一貫して優れ、セグメンテーション精度が優れ、堅牢な一般化性を示す。
論文 参考訳(メタデータ) (2025-08-07T03:41:41Z) - Reinforced Correlation Between Vision and Language for Precise Medical AI Assistant [11.187690318227514]
RCMedは、入力と出力の両方におけるマルチモーダルアライメントを改善するフルスタックAIアシスタントである。
不規則な病変と微妙な解剖学的境界の文脈化において最先端の精度を達成する。
論文 参考訳(メタデータ) (2025-05-06T10:00:08Z) - Interpretable Bilingual Multimodal Large Language Model for Diverse Biomedical Tasks [13.016940516468674]
本研究の目的は,医学的MLLMの解剖学的領域全体を理解する能力を高めることである。
本稿では,最初のバイリンガル・ジェネリスト医療用AIシステムである領域認識型医療用MLLM MedRegAを提案する。
我々のモデルは、バイリンガル設定における様々な医療ビジョン言語タスクにおける強力なパフォーマンスを達成するだけでなく、マルチモーダル・メディカルスキャンにおける構造を認識し、検出することができる。
論文 参考訳(メタデータ) (2024-10-24T02:55:41Z) - Unlocking the Power of Spatial and Temporal Information in Medical Multimodal Pre-training [99.2891802841936]
我々は,空間的・時間的微粒なモデリングのためのMed-STフレームワークを提案する。
空間モデリングでは、Med-STはMixture of View Expert (MoVE)アーキテクチャを使用して、正面と横の両方のビューから異なる視覚的特徴を統合する。
時間的モデリングのために,フォワードマッピング分類 (FMC) とリバースマッピング回帰 (RMR) による新たな双方向サイクル整合性目標を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:15:09Z) - Multi-task Paired Masking with Alignment Modeling for Medical
Vision-Language Pre-training [55.56609500764344]
本稿では,マルチタスク・ペアド・マスキング・アライメント(MPMA)に基づく統合フレームワークを提案する。
また, メモリ拡張クロスモーダルフュージョン (MA-CMF) モジュールを導入し, 視覚情報を完全統合し, レポート再構築を支援する。
論文 参考訳(メタデータ) (2023-05-13T13:53:48Z) - Few-shot Medical Image Segmentation using a Global Correlation Network
with Discriminative Embedding [60.89561661441736]
医療画像分割のための新しい手法を提案する。
深層畳み込みネットワークを用いた数ショット画像セグメンタを構築します。
深層埋め込みの識別性を高め,同一クラスの特徴領域のクラスタリングを促進する。
論文 参考訳(メタデータ) (2020-12-10T04:01:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。