論文の概要: RadDiagSeg-M: A Vision Language Model for Joint Diagnosis and Multi-Target Segmentation in Radiology
- arxiv url: http://arxiv.org/abs/2510.18188v1
- Date: Tue, 21 Oct 2025 00:28:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.741632
- Title: RadDiagSeg-M: A Vision Language Model for Joint Diagnosis and Multi-Target Segmentation in Radiology
- Title(参考訳): RadDiagSeg-M:放射線学における共同診断と多目的セグメンテーションのための視覚言語モデル
- Authors: Chengrun Li, Corentin Royer, Haozhe Luo, Bastian Wittmann, Xia Li, Ibrahim Hamamci, Sezgin Er, Anjany Sekuboyina, Bjoern Menze,
- Abstract要約: RadDiagSeg-Dは,異常検出,診断,マルチターゲットセグメンテーションを統合タスクに組み合わせたデータセットである。
次に,新しい視覚言語モデルRadDiagSeg-Mを提案する。
- 参考スコア(独自算出の注目度): 5.502516603909592
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most current medical vision language models struggle to jointly generate diagnostic text and pixel-level segmentation masks in response to complex visual questions. This represents a major limitation towards clinical application, as assistive systems that fail to provide both modalities simultaneously offer limited value to medical practitioners. To alleviate this limitation, we first introduce RadDiagSeg-D, a dataset combining abnormality detection, diagnosis, and multi-target segmentation into a unified and hierarchical task. RadDiagSeg-D covers multiple imaging modalities and is precisely designed to support the development of models that produce descriptive text and corresponding segmentation masks in tandem. Subsequently, we leverage the dataset to propose a novel vision-language model, RadDiagSeg-M, capable of joint abnormality detection, diagnosis, and flexible segmentation. RadDiagSeg-M provides highly informative and clinically useful outputs, effectively addressing the need to enrich contextual information for assistive diagnosis. Finally, we benchmark RadDiagSeg-M and showcase its strong performance across all components involved in the task of multi-target text-and-mask generation, establishing a robust and competitive baseline.
- Abstract(参考訳): 現在の医療ビジョン言語モデルのほとんどは、複雑な視覚的質問に応答して、診断テキストとピクセルレベルのセグメンテーションマスクを共同で生成するのに苦労している。
両方のモダリティを同時に提供できない補助システムは、医療従事者には限定的な価値を提供する。
この制限を軽減するために、まずRadDiagSeg-Dという異常検出、診断、マルチターゲットセグメンテーションを組み合わせたデータセットを統一的で階層的なタスクに導入する。
RadDiagSeg-Dは複数の画像モダリティをカバーしており、記述テキストと対応するセグメンテーションマスクをタンデムで生成するモデルの開発を支援するように設計されている。
次に、このデータセットを利用して、新しい視覚言語モデルRadDiagSeg-Mを提案し、共同で異常検出、診断、フレキシブルセグメンテーションを行う。
RadDiagSeg-Mは、高度に情報的かつ臨床的に有用なアウトプットを提供する。
最後に、RadDiagSeg-Mをベンチマークし、マルチターゲットテキスト・マスク生成タスクに関わるすべてのコンポーネントに対して強力なパフォーマンスを示し、堅牢で競争力のあるベースラインを確立する。
関連論文リスト
- Multimodal Causal-Driven Representation Learning for Generalizable Medical Image Segmentation [56.52520416420957]
医用画像セグメンテーションにおける領域一般化に取り組むために, MCDRL(Multimodal Causal-Driven Representation Learning)を提案する。
MCDRLは競合する手法より一貫して優れ、セグメンテーション精度が優れ、堅牢な一般化性を示す。
論文 参考訳(メタデータ) (2025-08-07T03:41:41Z) - TextBraTS: Text-Guided Volumetric Brain Tumor Segmentation with Innovative Dataset Development and Fusion Module Exploration [17.408476262703086]
我々は、ペア化されたMRIボリュームとリッチなテキストアノテーションを含む、初めて公開されたボリュームレベルのマルチモーダルデータセットであるTextBraTSデータセットを紹介する。
提案手法は,脳腫瘍のセグメンテーション精度を大幅に向上させ,効果的なマルチモーダル統合技術に関する貴重な知見を提供する。
論文 参考訳(メタデータ) (2025-06-20T06:57:56Z) - MedSeg-R: Reasoning Segmentation in Medical Images with Multimodal Large Language Models [48.24824129683951]
本稿では,複雑で暗黙的な医療指導に基づくセグメンテーションマスク作成を目的とした新しい課題である医用画像推論セグメンテーションを紹介する。
そこで本稿では,MLLMの推論能力を利用して臨床問題を理解するエンドツーエンドフレームワークであるMedSeg-Rを提案する。
1)画像の解釈と複雑な医用命令の理解を行い,マルチモーダルな中間トークンを生成するグローバルコンテキスト理解モジュール,2)これらのトークンをデコードして正確なセグメンテーションマスクを生成するピクセルレベルのグラウンドモジュールである。
論文 参考訳(メタデータ) (2025-06-12T08:13:38Z) - Zeus: Zero-shot LLM Instruction for Union Segmentation in Multimodal Medical Imaging [4.341503087761129]
マルチモーダル学習の実行には、ソリューションとして示される視覚とテキストのモダリティが含まれるが、ペア化されたビジョン言語データセットの収集は高価で時間を要する。
大規模言語モデル(LLM)における多くのクロスモーダルタスクの優れた能力に触発されて、我々はこの問題に対処する新しいビジョン・LLM統合フレームワークを提案しました。
論文 参考訳(メタデータ) (2025-04-09T23:33:35Z) - A Generative Framework for Bidirectional Image-Report Understanding in Chest Radiography [1.2289361708127877]
Multi-Stage Adaptive Vision-Language Tuning (MAViLT)は、視覚に基づく理解のためのマルチモーダル推論と生成を強化するために設計された新しいフレームワークである。
MAViLTは、臨床勾配重み付きトークン化プロセスと階層的な微調整戦略を取り入れており、正確な放射線学レポートを生成し、テキストから現実的なCXRを合成し、視覚に基づく臨床質問に答えることができる。
我々は、MIMIC-CXRとインディアナ大学CXRの2つのベンチマークデータセット上でMAViLTを評価し、すべてのタスクで最先端の結果を得る。
論文 参考訳(メタデータ) (2025-02-09T15:02:57Z) - MRGen: Segmentation Data Engine for Underrepresented MRI Modalities [59.61465292965639]
稀ながら臨床的に重要な画像モダリティのための医用画像分割モデルの訓練は、注釈付きデータの不足により困難である。
本稿では,データ合成における生成モデルの利用について検討する。
本稿では,テキストプロンプトとセグメンテーションマスクを条件とした医用画像合成のためのデータエンジンMRGenを提案する。
論文 参考訳(メタデータ) (2024-12-04T16:34:22Z) - Eye-gaze Guided Multi-modal Alignment for Medical Representation Learning [65.54680361074882]
アイゲイズガイドマルチモーダルアライメント(EGMA)フレームワークは、アイゲイズデータを利用して、医用視覚的特徴とテキスト的特徴のアライメントを改善する。
我々は4つの医療データセット上で画像分類と画像テキスト検索の下流タスクを行う。
論文 参考訳(メタデータ) (2024-03-19T03:59:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。