論文の概要: UMind-VL: A Generalist Ultrasound Vision-Language Model for Unified Grounded Perception and Comprehensive Interpretation
- arxiv url: http://arxiv.org/abs/2511.22256v1
- Date: Thu, 27 Nov 2025 09:33:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.48314
- Title: UMind-VL: A Generalist Ultrasound Vision-Language Model for Unified Grounded Perception and Comprehensive Interpretation
- Title(参考訳): UMind-VL:Unified Grounded Perception and Comprehensive Interpretationのための一般超音波ビジョンランゲージモデル
- Authors: Dengbo Chen, Ziwei Zhao, Kexin Zhang, Shishuang Zhao, Junjie Hou, Yaqian Wang, Nianxi Liao, Anlan Sun, Fei Gao, Jia Ding, Yuhang Liu, Dong Wang,
- Abstract要約: UMind-VLは、複雑な臨床推論とピクセルレベルの構造的理解を相乗化するために設計された統一基盤モデルである。
UMind-DSは16の解剖学的領域にわたる120万の超音波画像テキストペアからなる大規模マルチモーダルデータセットである。
- 参考スコア(独自算出の注目度): 11.608721320550108
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Despite significant strides in medical foundation models, the ultrasound domain lacks a comprehensive solution capable of bridging low-level Ultrasound Grounded Perception (e.g., segmentation, localization) and high-level Ultrasound Comprehensive Interpretation (e.g., diagnosis, reasoning). To bridge this gap, we propose UMind-VL, a unified foundation model designed to synergize pixel-level structural understanding with complex clinical reasoning. We first introduce UMind-DS, a large-scale multimodal dataset comprising 1.2 million ultrasound image-text pairs across 16 anatomical regions, enriching standard data with pixel-level annotations and clinician-validated rationales. Architecturally, UMind-VL incorporates a lightweight Dynamic Convolutional Mask Decoder that generates masks via dynamic kernels conditioned on LLM outputs. This design, combined with task-specific tokens, unifies segmentation, detection, geometric measurement, and diagnosis tasks within a single framework. Extensive evaluations demonstrate that UMind-VL significantly outperforms existing generalist multimodal models and achieves performance on par with, or superior to, state-of-the-art specialist models across segmentation, detection, keypoint localization, and diagnostic reasoning benchmarks, while maintaining strong generalization ability. We demonstrate the capability of UMind-VL in Figure 1.
- Abstract(参考訳): 医療基盤モデルに大きな進歩があったにもかかわらず、超音波領域には低レベルの超音波接地知覚(例えば、セグメンテーション、ローカライゼーション)と高レベルの超音波包括的解釈(例えば、診断、推論)をブリッジできる包括的解決策が欠けている。
このギャップを埋めるために、複雑な臨床推論とピクセルレベルの構造的理解を相乗化するために設計された統一基盤モデルUMind-VLを提案する。
UMind-DSは16の解剖領域にわたる120万の超音波画像テキストペアからなる大規模マルチモーダルデータセットである。
アーキテクチャ上、UMind-VLは軽量のDynamic Convolutional Mask Decoderを内蔵しており、LCM出力に条件付き動的カーネルを介してマスクを生成する。
この設計は、タスク固有のトークンと組み合わせて、単一のフレームワーク内でセグメンテーション、検出、幾何計測、診断タスクを統一する。
UMind-VLは既存の汎用マルチモーダルモデルよりも大幅に優れており、セグメンテーション、検出、キーポイントローカライゼーション、診断推論ベンチマークにまたがる最先端のスペシャリストモデルと同等かそれ以上の性能を達成し、強力な一般化能力を維持している。
図1でUMind-VLの能力を実証する。
関連論文リスト
- HEDGE: Hallucination Estimation via Dense Geometric Entropy for VQA with Vision-Language Models [4.099133096025821]
視覚言語モデル(VLM)は、オープンエンドの視覚的質問応答を可能にするが、幻覚に苦しむ傾向にある。
我々は、制御された視覚摂動、セマンティッククラスタリング、堅牢な不確実性メトリクスを組み合わせた幻覚検出のための統合フレームワークであるHEDGEを提案する。
論文 参考訳(メタデータ) (2025-11-16T17:16:31Z) - RAU: Reference-based Anatomical Understanding with Vision Language Models [26.06602931463068]
視覚言語モデル(VLM)を用いた参照型解剖学的理解のためのフレームワークであるRAUを紹介する。
まず,VLMが参照画像と対象画像の相対的空間的推論により解剖学的領域の同定を学習することを示す。
次に, VLM由来の空間的手がかりをSAM2の細粒度セグメンテーション能力とシームレスに統合できることを実証した。
論文 参考訳(メタデータ) (2025-09-26T14:32:03Z) - EchoVLM: Dynamic Mixture-of-Experts Vision-Language Model for Universal Ultrasound Intelligence [9.731550105507457]
本稿では,超音波医療画像に特化して設計された視覚言語モデルであるEchoVLMを提案する。
このモデルは、7つの解剖学的領域にまたがるデータに基づいてトレーニングされたMixture of Experts (MoE)アーキテクチャを採用している。
EchoVLMは、それぞれBLEU-1スコアとROUGE-1スコアで10.15点と4.77点を大きく改善した。
論文 参考訳(メタデータ) (2025-09-18T14:07:53Z) - A Fully Open and Generalizable Foundation Model for Ultrasound Clinical Applications [77.3888788549565]
一般臨床用超音波基礎モデルであるEchoCareについて紹介する。
我々は、キュレートされた、一般公開された大規模なデータセットであるEchoCareData上で、自己教師付き学習を通じてEchoCareを開発した。
最小限のトレーニングで、EchoCareは10の代表的なベンチマークで最先端の比較モデルを上回っている。
論文 参考訳(メタデータ) (2025-09-15T10:05:31Z) - Large Language Model Evaluated Stand-alone Attention-Assisted Graph Neural Network with Spatial and Structural Information Interaction for Precise Endoscopic Image Segmentation [16.773882069530426]
本研究では,空間グラフと構造グラフを融合したFOCUS-Medを提案する。
FOCUS-Medは、Dual Graph Convolutional Network (Dual-GCN)モジュールを統合し、コンテキスト空間および位相構造上の依存関係をキャプチャする。
公開ベンチマークの実験では、FOCUS-Medが5つの主要な指標で最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2025-08-09T15:53:19Z) - Multimodal Causal-Driven Representation Learning for Generalizable Medical Image Segmentation [56.52520416420957]
医用画像セグメンテーションにおける領域一般化に取り組むために, MCDRL(Multimodal Causal-Driven Representation Learning)を提案する。
MCDRLは競合する手法より一貫して優れ、セグメンテーション精度が優れ、堅牢な一般化性を示す。
論文 参考訳(メタデータ) (2025-08-07T03:41:41Z) - ViKL: A Mammography Interpretation Framework via Multimodal Aggregation of Visual-knowledge-linguistic Features [54.37042005469384]
MVKLは,マルチビュー画像,詳細な表示,報告を含む最初のマルチモーダルマンモグラフィーデータセットである。
このデータセットに基づいて、教師なし事前学習のチャラリングタスクに焦点を当てる。
視覚,知識,言語機能を相乗化するフレームワークであるViKLを提案する。
論文 参考訳(メタデータ) (2024-09-24T05:01:23Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - G-MIND: An End-to-End Multimodal Imaging-Genetics Framework for
Biomarker Identification and Disease Classification [49.53651166356737]
診断によって誘導される画像データと遺伝データを統合し、解釈可能なバイオマーカーを提供する新しいディープニューラルネットワークアーキテクチャを提案する。
2つの機能的MRI(fMRI)パラダイムとSingle Nucleotide Polymorphism (SNP)データを含む統合失調症の集団研究で本モデルを評価した。
論文 参考訳(メタデータ) (2021-01-27T19:28:04Z) - Towards Robust Partially Supervised Multi-Structure Medical Image
Segmentation on Small-Scale Data [123.03252888189546]
データ不足下における部分教師付き学習(PSL)における方法論的ギャップを埋めるために,不確実性下でのビシナルラベル(VLUU)を提案する。
マルチタスク学習とヴィジナルリスク最小化によって動機づけられたVLUUは、ビジナルラベルを生成することによって、部分的に教師付き問題を完全な教師付き問題に変換する。
本研究は,ラベル効率の高い深層学習における新たな研究の方向性を示唆するものである。
論文 参考訳(メタデータ) (2020-11-28T16:31:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。