論文の概要: DuPLUS: Dual-Prompt Vision-Language Framework for Universal Medical Image Segmentation and Prognosis
- arxiv url: http://arxiv.org/abs/2510.03483v1
- Date: Fri, 03 Oct 2025 20:01:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.066561
- Title: DuPLUS: Dual-Prompt Vision-Language Framework for Universal Medical Image Segmentation and Prognosis
- Title(参考訳): DuPLUS:Universal Medical Image Segmentation and PrognosisのためのDual-Prompt Vision-Language Framework
- Authors: Numan Saeed, Tausifa Jan Saleem, Fadillah Maani, Muhammad Ridzuan, Hu Wang, Mohammad Yaqub,
- Abstract要約: 効率的なマルチモーダル医療画像解析のためのディープラーニングフレームワークであるDuPLUSを紹介する。
DuPLUSは、階層的セマンティックプロンプトを利用して分析タスクのきめ細かい制御を行う新しい視覚言語フレームワークを導入した。
セグメンテーションのために、DuPLUSは、30以上の臓器と腫瘍タイプを含む10の異なる医療データセットである3つの画像モダリティを一般化することができる。
- 参考スコア(独自算出の注目度): 5.494301428436596
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning for medical imaging is hampered by task-specific models that lack generalizability and prognostic capabilities, while existing 'universal' approaches suffer from simplistic conditioning and poor medical semantic understanding. To address these limitations, we introduce DuPLUS, a deep learning framework for efficient multi-modal medical image analysis. DuPLUS introduces a novel vision-language framework that leverages hierarchical semantic prompts for fine-grained control over the analysis task, a capability absent in prior universal models. To enable extensibility to other medical tasks, it includes a hierarchical, text-controlled architecture driven by a unique dual-prompt mechanism. For segmentation, DuPLUS is able to generalize across three imaging modalities, ten different anatomically various medical datasets, encompassing more than 30 organs and tumor types. It outperforms the state-of-the-art task specific and universal models on 8 out of 10 datasets. We demonstrate extensibility of its text-controlled architecture by seamless integration of electronic health record (EHR) data for prognosis prediction, and on a head and neck cancer dataset, DuPLUS achieved a Concordance Index (CI) of 0.69. Parameter-efficient fine-tuning enables rapid adaptation to new tasks and modalities from varying centers, establishing DuPLUS as a versatile and clinically relevant solution for medical image analysis. The code for this work is made available at: https://anonymous.4open.science/r/DuPLUS-6C52
- Abstract(参考訳): 医用画像の深層学習は、汎用性と予後能力に欠けるタスク固有のモデルによって妨げられ、一方、既存の'ユニバーサル'アプローチは、単純化された条件付けと医療意味理解の欠如に悩まされている。
これらの制約に対処するために,効率的なマルチモーダル医療画像解析のためのディープラーニングフレームワークであるDuPLUSを紹介する。
DuPLUSは、階層的セマンティックプロンプトを利用して分析タスクのきめ細かい制御を行う新しいビジョン言語フレームワークを導入した。
他の医療タスクへの拡張を可能にするために、ユニークなデュアルプロンプト機構によって駆動される階層的でテキスト制御アーキテクチャを含んでいる。
セグメンテーションのために、DuPLUSは、30以上の臓器と腫瘍タイプを含む10の異なる解剖学的異なる医学データセットである3つの画像モダリティを一般化することができる。
10のデータセットのうち8つでは、最先端のタスク特化および普遍的なモデルよりも優れています。
予後予測のための電子健康記録(EHR)データをシームレスに統合することにより,テキスト制御アーキテクチャの拡張性を実証し,頭頸部癌データセット上でDuPLUSはコンコーダンス指標(CI)0.69を達成した。
パラメータ効率の良い微調整は、様々な中心からの新しいタスクやモダリティに迅速に適応し、DuPLUSを医療画像解析のための汎用的で臨床的に関係のあるソリューションとして確立する。
https://anonymous.4open.science/r/DuPLUS-6C52
関連論文リスト
- A Fully Open and Generalizable Foundation Model for Ultrasound Clinical Applications [77.3888788549565]
一般臨床用超音波基礎モデルであるEchoCareについて紹介する。
我々は、キュレートされた、一般公開された大規模なデータセットであるEchoCareData上で、自己教師付き学習を通じてEchoCareを開発した。
最小限のトレーニングで、EchoCareは10の代表的なベンチマークで最先端の比較モデルを上回っている。
論文 参考訳(メタデータ) (2025-09-15T10:05:31Z) - Medverse: A Universal Model for Full-Resolution 3D Medical Image Segmentation, Transformation and Enhancement [15.28003304776022]
インコンテキスト学習は、普遍的な医用画像解析に有望なパラダイムを提供する。
我々は22のデータセットで訓練された3次元医用画像の汎用ICLモデルである textbfMedverse を提案する。
Medverseは、予測を粗いものから細かいものへと段階的に洗練する、次世代の自己回帰型インコンテキスト学習フレームワークを採用している。
論文 参考訳(メタデータ) (2025-09-11T08:10:49Z) - Multimodal Causal-Driven Representation Learning for Generalizable Medical Image Segmentation [56.52520416420957]
医用画像セグメンテーションにおける領域一般化に取り組むために, MCDRL(Multimodal Causal-Driven Representation Learning)を提案する。
MCDRLは競合する手法より一貫して優れ、セグメンテーション精度が優れ、堅牢な一般化性を示す。
論文 参考訳(メタデータ) (2025-08-07T03:41:41Z) - PRISM2: Unlocking Multi-Modal General Pathology AI with Clinical Dialogue [2.657193510259712]
PRISM2は、臨床対話を通して訓練された多モードスライドレベルの基礎モデルであり、スケーラブルで一般化可能な病理学AIを実現する。
PRISM2は、70万近い標本(230万WSI)と実際の臨床診断報告を2段階のプロセスで組み合わせて訓練されている。
PRISMやTITANといった従来のスライドレベルのモデルよりも優れており、診断およびバイオマーカー予測タスクにおいて高い性能を発揮する。
論文 参考訳(メタデータ) (2025-06-16T03:12:51Z) - Reinforced Correlation Between Vision and Language for Precise Medical AI Assistant [11.187690318227514]
RCMedは、入力と出力の両方におけるマルチモーダルアライメントを改善するフルスタックAIアシスタントである。
不規則な病変と微妙な解剖学的境界の文脈化において最先端の精度を達成する。
論文 参考訳(メタデータ) (2025-05-06T10:00:08Z) - Zeus: Zero-shot LLM Instruction for Union Segmentation in Multimodal Medical Imaging [4.341503087761129]
マルチモーダル学習の実行には、ソリューションとして示される視覚とテキストのモダリティが含まれるが、ペア化されたビジョン言語データセットの収集は高価で時間を要する。
大規模言語モデル(LLM)における多くのクロスモーダルタスクの優れた能力に触発されて、我々はこの問題に対処する新しいビジョン・LLM統合フレームワークを提案しました。
論文 参考訳(メタデータ) (2025-04-09T23:33:35Z) - RadIR: A Scalable Framework for Multi-Grained Medical Image Retrieval via Radiology Report Mining [64.66825253356869]
本稿では,複数の粒度で画像の類似度を決定するために,高密度ラジオロジーレポートを利用した新しい手法を提案する。
我々は、胸部X線用MIMIC-IRとCTスキャン用CTRATE-IRの2つの総合的な医用画像検索データセットを構築した。
RadIR-CXR と Model-ChestCT という2つの検索システムを開発し,従来の画像画像検索と画像レポート検索に優れた性能を示す。
論文 参考訳(メタデータ) (2025-03-06T17:43:03Z) - A Generative Framework for Bidirectional Image-Report Understanding in Chest Radiography [1.2289361708127877]
Multi-Stage Adaptive Vision-Language Tuning (MAViLT)は、視覚に基づく理解のためのマルチモーダル推論と生成を強化するために設計された新しいフレームワークである。
MAViLTは、臨床勾配重み付きトークン化プロセスと階層的な微調整戦略を取り入れており、正確な放射線学レポートを生成し、テキストから現実的なCXRを合成し、視覚に基づく臨床質問に答えることができる。
我々は、MIMIC-CXRとインディアナ大学CXRの2つのベンチマークデータセット上でMAViLTを評価し、すべてのタスクで最先端の結果を得る。
論文 参考訳(メタデータ) (2025-02-09T15:02:57Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - XrayGPT: Chest Radiographs Summarization using Medical Vision-Language Models [72.8965643836841]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。
胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。
自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文 参考訳(メタデータ) (2023-06-13T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。