論文の概要: UniMedVL: Unifying Medical Multimodal Understanding And Generation Through Observation-Knowledge-Analysis
- arxiv url: http://arxiv.org/abs/2510.15710v2
- Date: Mon, 27 Oct 2025 19:55:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.21368
- Title: UniMedVL: Unifying Medical Multimodal Understanding And Generation Through Observation-Knowledge-Analysis
- Title(参考訳): UniMedVL:観察知識分析による医療マルチモーダル理解と生成の統合
- Authors: Junzhi Ning, Wei Li, Cheng Tang, Jiashi Lin, Chenglong Ma, Chaoyang Zhang, Jiyao Liu, Ying Chen, Shujian Gao, Lihao Liu, Yuandong Pu, Huihui Xu, Chenhui Gou, Ziyan Huang, Yi Xin, Qi Qin, Zhongying Deng, Diping Song, Bin Fu, Guang Yang, Yuanfeng Ji, Tianbin Li, Yanzhou Su, Jin Ye, Shixiang Tang, Ming Hu, Junjun He,
- Abstract要約: 画像理解と生成タスクの同時解析のための医用統合マルチモーダルモデルUniMedVLを紹介する。
UniMedVLは5つの医用画像理解ベンチマークにおいて優れた性能を示し、8つの医用画像モダリティにまたがる生成品質のモデルに適合する。
- 参考スコア(独自算出の注目度): 41.864457631668806
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medical diagnostic applications require models that can process multimodal medical inputs (images, patient histories, lab results) and generate diverse outputs including both textual reports and visual content (annotations, segmentation masks, and images). Despite this need, existing medical AI systems disrupt this unified process: medical image understanding models interpret images but cannot generate visual outputs, while medical image generation models synthesize images but cannot provide textual explanations. This leads to gaps in data representation, feature integration, and task-level multimodal capabilities. To this end, we propose a multi-level framework that draws inspiration from diagnostic workflows through the Observation-Knowledge-Analysis (OKA) paradigm. Specifically, at the observation level, we construct UniMed-5M, a dataset comprising over 5.6M samples that reformat diverse unimodal data into multimodal pairs for foundational observation. At the knowledge level, we propose Progressive Curriculum Learning that systematically introduces medical multimodal knowledge. At the analysis level, we introduce UniMedVL, the first medical unified multimodal model for the simultaneous analysis of image understanding and generation tasks within a single architecture. UniMedVL achieves superior performance on five medical image understanding benchmarks, while matching specialized models in generation quality across eight medical imaging modalities. Crucially, our unified architecture enables bidirectional knowledge sharing: generation tasks enhance visual understanding features, demonstrating that integrating traditionally separate capabilities within a single medical framework unlocks improvements across diverse medical vision-language tasks. Code is available at https://github.com/uni-medical/UniMedVL.
- Abstract(参考訳): 医療診断アプリケーションは、マルチモーダルな医療入力(画像、患者の履歴、実験結果)を処理し、テキストレポートとビジュアルコンテンツ(注釈、セグメンテーションマスク、画像)を含む多様なアウトプットを生成するモデルを必要とする。
医用画像理解モデルはイメージを解釈するが、視覚的な出力は生成できないが、医用画像生成モデルは画像を合成するが、テキストによる説明は提供できない。
これにより、データ表現、機能統合、タスクレベルのマルチモーダル能力のギャップが生じる。
そこで本研究では,診断ワークフローからインスピレーションを得るための多層フレームワークを提案する。
具体的には、観測レベルでは、5.6M以上のサンプルからなるデータセットであるUniMed-5Mを構築し、基礎的な観測のために多様な単調データをマルチモーダルペアに再構成する。
知識レベルでは,医学的マルチモーダル知識を体系的に導入するプログレッシブカリキュラム学習を提案する。
解析レベルでは、単一のアーキテクチャ内での画像理解と生成タスクを同時解析する最初の医用統合マルチモーダルモデルUniMedVLを導入する。
UniMedVLは5つの医用画像理解ベンチマークにおいて優れた性能を示し、8つの医用画像モダリティにまたがる生成品質のモデルに適合する。
私たちの統合アーキテクチャは、双方向の知識共有を可能にします。生成タスクは、視覚的理解機能を強化し、単一の医療フレームワークに伝統的に分離された機能を統合することで、さまざまな医療ビジョン言語タスクの改善を可能にします。
コードはhttps://github.com/uni-medical/UniMedVLで入手できる。
関連論文リスト
- Lingshu: A Generalist Foundation Model for Unified Multimodal Medical Understanding and Reasoning [57.873833577058]
医療知識の豊富なマルチモーダルデータセットを構築した。
次に医学専門のMLLMであるLingshuを紹介します。
Lingshuは、医療専門知識の組み込みとタスク解決能力の向上のために、マルチステージトレーニングを行っている。
論文 参考訳(メタデータ) (2025-06-08T08:47:30Z) - MEDMKG: Benchmarking Medical Knowledge Exploitation with Multimodal Knowledge Graph [28.79000907242469]
医用マルチモーダル知識グラフであるMEDMKGを提案する。
我々は,3つのタスクにまたがるMEDMKGを2つの実験的な設定で評価し,24のベースライン法と4つの最先端のビジョン言語バックボーンを6つのデータセットでベンチマークした。
その結果,MEDMKGは下流医療タスクの性能向上だけでなく,医療人工知能におけるマルチモーダル知識統合のための適応的かつ堅牢な戦略開発のための強力な基盤を提供することがわかった。
論文 参考訳(メタデータ) (2025-05-22T18:41:46Z) - A Survey of Medical Vision-and-Language Applications and Their Techniques [48.268198631277315]
医療ビジョン・アンド・ランゲージモデル(MVLM)は、複雑な医療データを解釈するための自然言語インタフェースを提供する能力から、大きな関心を集めている。
本稿では,MVLMの概要と適用した各種医療課題について概観する。
また、これらのタスクに使用するデータセットについても検討し、標準化された評価指標に基づいて異なるモデルの性能を比較した。
論文 参考訳(メタデータ) (2024-11-19T03:27:05Z) - MedViLaM: A multimodal large language model with advanced generalizability and explainability for medical data understanding and generation [40.9095393430871]
MedViLaMは、医用データの汎用モデルに向けた統合視覚言語モデルである。
MedViLaMは、臨床言語や画像など、様々な形の医療データを柔軟にエンコードし、解釈することができる。
ゼロショットの一般化を新しい医療概念やタスクに適用し、異なるタスク間で効果的な伝達学習を行い、ゼロショットの医学推論が出現する事例を提示する。
論文 参考訳(メタデータ) (2024-09-29T12:23:10Z) - AliFuse: Aligning and Fusing Multi-modal Medical Data for Computer-Aided Diagnosis [1.64647940449869]
マルチモーダル医療データの整合と融合のためのトランスフォーマーベースのフレームワークであるAlifuseを提案する。
医用画像と非構造化および構造化された臨床記録を視覚と言語トークンに変換する。
Alifuseを使ってアルツハイマー病を分類し、5つのパブリックデータセットで最先端のパフォーマンスを達成し、8つのベースラインを上回ります。
論文 参考訳(メタデータ) (2024-01-02T07:28:21Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Multi-modal Understanding and Generation for Medical Images and Text via
Vision-Language Pre-Training [5.119201893752376]
本稿では,トランスフォーマーアーキテクチャと新しいマルチモーダルアテンションマスキング手法を組み合わせた医療ビジョン言語学習システム(MedViLL)を提案する。
我々は,タスク固有のアーキテクチャを含む様々なベースラインに対して,MedViLLのより優れたダウンストリームタスク性能を実証的に示す。
論文 参考訳(メタデータ) (2021-05-24T15:14:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。