論文の概要: Sim4Seg: Boosting Multimodal Multi-disease Medical Diagnosis Segmentation with Region-Aware Vision-Language Similarity Masks
- arxiv url: http://arxiv.org/abs/2511.06665v1
- Date: Mon, 10 Nov 2025 03:22:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.052873
- Title: Sim4Seg: Boosting Multimodal Multi-disease Medical Diagnosis Segmentation with Region-Aware Vision-Language Similarity Masks
- Title(参考訳): Sim4Seg: 領域認識型視覚・言語類似性マスクを用いたマルチモーダル多次元診断セグメンテーション
- Authors: Lingran Song, Yucheng Zhou, Jianbing Shen,
- Abstract要約: 医療診断(MDS)という医用視覚言語タスクについて紹介する。
MDSは、医療画像に対する臨床クエリを理解し、対応するセグメンテーションマスクと診断結果を生成することを目的としている。
診断セグメンテーションの性能を向上させる新しいフレームワークであるSim4Segを提案する。
- 参考スコア(独自算出の注目度): 54.00822479127598
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite significant progress in pixel-level medical image analysis, existing medical image segmentation models rarely explore medical segmentation and diagnosis tasks jointly. However, it is crucial for patients that models can provide explainable diagnoses along with medical segmentation results. In this paper, we introduce a medical vision-language task named Medical Diagnosis Segmentation (MDS), which aims to understand clinical queries for medical images and generate the corresponding segmentation masks as well as diagnostic results. To facilitate this task, we first present the Multimodal Multi-disease Medical Diagnosis Segmentation (M3DS) dataset, containing diverse multimodal multi-disease medical images paired with their corresponding segmentation masks and diagnosis chain-of-thought, created via an automated diagnosis chain-of-thought generation pipeline. Moreover, we propose Sim4Seg, a novel framework that improves the performance of diagnosis segmentation by taking advantage of the Region-Aware Vision-Language Similarity to Mask (RVLS2M) module. To improve overall performance, we investigate a test-time scaling strategy for MDS tasks. Experimental results demonstrate that our method outperforms the baselines in both segmentation and diagnosis.
- Abstract(参考訳): ピクセルレベルの医用画像解析の進歩にもかかわらず、既存の医用画像分割モデルは、医療用画像分割と診断タスクを共同で行うことは滅多にない。
しかし、モデルが診断可能な診断と診断結果を提供するためには、患者にとって極めて重要である。
本稿では、医用画像の臨床的クエリを理解し、診断結果だけでなく、対応するセグメンテーションマスクを生成することを目的とした医療用視覚言語タスク「MDS」について紹介する。
この作業を容易にするために,我々はまずM3DS(Multimodal Multi-disease Medical diagnosis Segmentation)データセットを提示する。
さらに,Sim4Segを提案する。Sim4Segは診断セグメンテーションの性能を向上させるための新しいフレームワークで,Rerea-Aware Vision-Language similarity to Mask (RVLS2M)モジュールを利用する。
総合的な性能向上のために,MDSタスクのテスト時間スケーリング戦略について検討する。
実験結果から,本手法はセグメンテーションと診断の両方において,ベースラインよりも優れていることが示された。
関連論文リスト
- RadDiagSeg-M: A Vision Language Model for Joint Diagnosis and Multi-Target Segmentation in Radiology [5.502516603909592]
RadDiagSeg-Dは,異常検出,診断,マルチターゲットセグメンテーションを統合タスクに組み合わせたデータセットである。
次に,新しい視覚言語モデルRadDiagSeg-Mを提案する。
論文 参考訳(メタデータ) (2025-10-21T00:28:13Z) - Multimodal Causal-Driven Representation Learning for Generalizable Medical Image Segmentation [56.52520416420957]
医用画像セグメンテーションにおける領域一般化に取り組むために, MCDRL(Multimodal Causal-Driven Representation Learning)を提案する。
MCDRLは競合する手法より一貫して優れ、セグメンテーション精度が優れ、堅牢な一般化性を示す。
論文 参考訳(メタデータ) (2025-08-07T03:41:41Z) - MedSeg-R: Reasoning Segmentation in Medical Images with Multimodal Large Language Models [48.24824129683951]
本稿では,複雑で暗黙的な医療指導に基づくセグメンテーションマスク作成を目的とした新しい課題である医用画像推論セグメンテーションを紹介する。
そこで本稿では,MLLMの推論能力を利用して臨床問題を理解するエンドツーエンドフレームワークであるMedSeg-Rを提案する。
1)画像の解釈と複雑な医用命令の理解を行い,マルチモーダルな中間トークンを生成するグローバルコンテキスト理解モジュール,2)これらのトークンをデコードして正確なセグメンテーションマスクを生成するピクセルレベルのグラウンドモジュールである。
論文 参考訳(メタデータ) (2025-06-12T08:13:38Z) - Dynamically evolving segment anything model with continuous learning for medical image segmentation [50.92344083895528]
ダイナミックに進化する医療画像セグメンテーションモデルであるEvoSAMを紹介する。
EvoSAMは、継続的に拡張されるシナリオとタスクの配列から新しい知識を蓄積する。
血管セグメンテーションに関する外科医による実験により、EvoSAMはユーザプロンプトに基づいてセグメンテーション効率を高めることが確認された。
論文 参考訳(メタデータ) (2025-03-08T14:37:52Z) - Enhanced MRI Representation via Cross-series Masking [48.09478307927716]
自己教師型でMRI表現を効果的に学習するためのクロスシリーズ・マスキング(CSM)戦略
メソッドは、パブリックデータセットと社内データセットの両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-10T10:32:09Z) - MedCLIP-SAMv2: Towards Universal Text-Driven Medical Image Segmentation [2.2585213273821716]
MedCLIP-SAMv2はCLIPとSAMモデルを統合して臨床スキャンのセグメンテーションを行う新しいフレームワークである。
提案手法は,DHN-NCE(Decoupled Hard Negative Noise Contrastive Estimation)によるBiomedCLIPモデルの微調整を含む。
また,ゼロショットセグメンテーションラベルを弱教師付きパラダイム内で使用することにより,セグメンテーション品質をさらに向上する。
論文 参考訳(メタデータ) (2024-09-28T23:10:37Z) - A Transformer-based representation-learning model with unified
processing of multimodal input for clinical diagnostics [63.106382317917344]
本稿では,マルチモーダル入力を統一的に処理する臨床診断支援として,トランスフォーマーを用いた表現学習モデルについて報告する。
統一モデルは, 肺疾患の同定において, 画像のみのモデル, 非統一型マルチモーダル診断モデルより優れていた。
論文 参考訳(メタデータ) (2023-06-01T16:23:47Z) - SeATrans: Learning Segmentation-Assisted diagnosis model via Transforme [13.63128987400635]
本稿では,視覚支援型診断変換器(SeATrans)を提案する。
まず、各低レベル診断特徴とマルチスケールセグメンテーション特徴とを相関させる非対称なマルチスケールインタラクション戦略を提案する。
セグメンテーション-診断相互作用をモデル化するために、SeAブロックはまず、エンコーダを介してセグメンテーション情報に基づいて診断特徴を埋め込み、デコーダによりその埋め込みを診断特徴空間に戻す。
論文 参考訳(メタデータ) (2022-06-12T15:10:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。