論文の概要: OmniV-Med: Scaling Medical Vision-Language Model for Universal Visual Understanding
- arxiv url: http://arxiv.org/abs/2504.14692v1
- Date: Sun, 20 Apr 2025 17:53:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-29 20:47:00.519093
- Title: OmniV-Med: Scaling Medical Vision-Language Model for Universal Visual Understanding
- Title(参考訳): OmniV-Med:Universal Visual Understandingのための医療ビジョンランゲージモデルのスケーリング
- Authors: Songtao Jiang, Yuan Wang, Sibo Song, Yan Zhang, Zijie Meng, Bohan Lei, Jian Wu, Jimeng Sun, Zuozhu Liu,
- Abstract要約: 我々はマルチモーダル医療理解のための統合フレームワークであるOmniV-Medを紹介する。
我々は,多解像度2D/3D画像と映像を統一アーキテクチャで処理する回転位置適応エンコーダを考案した。
本稿では,ボリュームデータと医用ビデオの空間的冗長性を生かした,医療対応型トークンプルーニング機構を提案する。
- 参考スコア(独自算出の注目度): 35.35197484810533
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The practical deployment of medical vision-language models (Med-VLMs) necessitates seamless integration of textual data with diverse visual modalities, including 2D/3D images and videos, yet existing models typically employ separate encoders for different modalities. To address this limitation, we present OmniV-Med, a unified framework for multimodal medical understanding. Our technical contributions are threefold: First, we construct OmniV-Med-Instruct, a comprehensive multimodal medical dataset containing 252K instructional samples spanning 14 medical image modalities and 11 clinical tasks. Second, we devise a rotary position-adaptive encoder that processes multi-resolution 2D/3D images and videos within a unified architecture, diverging from conventional modality-specific encoders. Third, we introduce a medical-aware token pruning mechanism that exploits spatial-temporal redundancy in volumetric data (e.g., consecutive CT slices) and medical videos, effectively reducing 60\% of visual tokens without performance degradation. Empirical evaluations demonstrate that OmniV-Med-7B achieves state-of-the-art performance on 7 benchmarks spanning 2D/3D medical imaging and video understanding tasks. Notably, our lightweight variant (OmniV-Med-1.5B) attains comparable performance while requiring only 8 RTX3090 GPUs for training and supporting efficient long-video inference. Data, code and model will be released.
- Abstract(参考訳): 医療ビジョン言語モデル(Med-VLMs)の実践的な展開は、2D/3D画像やビデオを含む様々な視覚的モダリティとテキストデータのシームレスな統合を必要とするが、既存のモデルは典型的には異なるモダリティのエンコーダを使用する。
この制限に対処するため,マルチモーダル医療理解のための統合フレームワークであるOmniV-Medを提案する。
OmniV-Med-Instructは、14の医用画像モダリティと11の臨床的タスクにまたがる252Kの指導用サンプルを含む総合的なマルチモーダル医療データセットである。
第2に,従来のモダリティ特化エンコーダから切り離された多解像度2D/3D画像と映像を統一アーキテクチャで処理する回転位置適応エンコーダを考案する。
第3に、ボリュームデータ(例えば、連続CTスライス)と医用ビデオの空間的冗長性を生かし、性能劣化のない視覚的トークンの60%を効果的に削減する医療意識型トークンプルーニング機構を導入する。
OmniV-Med-7Bは、2D/3D医療画像とビデオ理解タスクにまたがる7つのベンチマークで最先端のパフォーマンスを実現している。
特に、我々の軽量版(OmniV-Med-1.5B)は、トレーニングのためにRTX3090のGPUを8つだけ必要としながら、同等のパフォーマンスを実現しています。
データ、コード、モデルがリリースされる。
関連論文リスト
- MedM-VL: What Makes a Good Medical LVLM? [17.94998411263113]
大規模視覚言語モデル(LVLM)は、複雑な医療課題を解決するための新しいソリューションを提供する。
2次元および3次元の医療用LVLMのモデルアーキテクチャとトレーニング戦略を探求するために、人気のあるLLaVAフレームワークを構築した。
MedM-VL-2D, MedM-VL-CT-Chest, MedM-VL-CT-Chestの2つの事前訓練モデルをリリースする。
論文 参考訳(メタデータ) (2025-04-06T01:44:46Z) - Med-2E3: A 2D-Enhanced 3D Medical Multimodal Large Language Model [16.93216342922561]
我々は、3Dエンコーダと2Dエンコーダを統合した3次元医用画像解析のための新しいMLLMであるMed-2E3を提案する。
より効果的に2D特徴を集約するために,スライス内容とタスク命令に基づいて各2Dスライスに注目したテキストガイド型インタースライス(TG-IS)スコアリングモジュールを設計する。
大規模でオープンソースの3D医療マルチモーダルベンチマークの実験では、Med-2E3がタスク固有の注意分布を示し、現在の最先端モデルよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2024-11-19T09:59:59Z) - CT-GLIP: 3D Grounded Language-Image Pretraining with CT Scans and Radiology Reports for Full-Body Scenarios [53.94122089629544]
我々は,CT-GLIP(Grounded Language- Image Pretraining with CT scans)を導入する。
本手法は,104臓器にわたる17,702症例を対象に,44,011例の臓器レベルの視覚テキストペアからなるマルチモーダルCTデータセットを用いて訓練し,自然言語を用いて臓器と異常をゼロショットで識別できることを実証した。
論文 参考訳(メタデータ) (2024-04-23T17:59:01Z) - M3D: Advancing 3D Medical Image Analysis with Multi-Modal Large Language Models [49.5030774873328]
これまでの研究は主に2Dの医療画像に焦点を合わせてきた。
120K画像テキスト対と62K命令応答対からなる大規模3次元マルチモーダル医療データセットM3D-Dataを提案する。
また,新しい3次元マルチモーダル・メディカル・ベンチマークであるM3D-Benchを導入し,8つのタスクにまたがる自動評価を容易にする。
論文 参考訳(メタデータ) (2024-03-31T06:55:12Z) - CMViM: Contrastive Masked Vim Autoencoder for 3D Multi-modal Representation Learning for AD classification [8.843907586879475]
アルツハイマー病(英語: Alzheimer's disease, AD)は、認知機能低下につながる神経変性疾患である。
本稿では,3次元マルチモーダルデータに適した最初の効率的な表現学習法であるContrastive Masked Vim Autoencoder (CMViM)を提案する。
論文 参考訳(メタデータ) (2024-03-25T08:02:41Z) - Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images [68.42215385041114]
本稿では,CLIPモデルを用いた医用異常検出のための軽量な多レベル適応と比較フレームワークを提案する。
提案手法では,複数の残像アダプタを事前学習した視覚エンコーダに統合し,視覚的特徴の段階的向上を実現する。
医学的異常検出ベンチマーク実験により,本手法が現在の最先端モデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-03-19T09:28:19Z) - Med3DInsight: Enhancing 3D Medical Image Understanding with 2D
Multi-Modal Large Language Models [1.64647940449869]
既存の3D畳み込みとトランスフォーマーベースの手法は、画像ボリュームのセマンティックな理解が限られている。
既存の3D画像エンコーダを2D MLLMでマージし,PSAT(Plane-Slice-Aware Transformer)モジュールを介してブリッジするMed3DInsightを提案する。
論文 参考訳(メタデータ) (2024-03-08T08:15:53Z) - Building Universal Foundation Models for Medical Image Analysis with
Spatially Adaptive Networks [5.661631789478932]
医用画像解析のための普遍的基礎モデルを提案する。
55の公開医用画像データセット上のマスク画像モデリング(MIM)を用いて、空間適応型視覚トークンーザ(SPAD-VT)と空間適応型視覚変換器(SPAD-ViT)を事前訓練する。
下流の医用画像分類とセグメンテーションタスクの実験結果から,本モデルの性能とラベルの効率が向上したことを示す。
論文 参考訳(メタデータ) (2023-12-12T08:33:45Z) - Unified Medical Image Pre-training in Language-Guided Common Semantic Space [39.61770813855078]
我々はUnified Medical Image Pre-Trainingフレームワーク(UniMedI)を提案する。
UniMedIは、診断レポートを一般的な意味空間として使用し、医療画像の多様なモダリティの統一表現を作成する。
10種類のデータセットにまたがる2次元画像と3次元画像の性能評価を行った。
論文 参考訳(メタデータ) (2023-11-24T22:01:12Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - MedSegDiff-V2: Diffusion based Medical Image Segmentation with
Transformer [53.575573940055335]
我々は、MedSegDiff-V2と呼ばれるトランスフォーマーベースの拡散フレームワークを提案する。
画像の異なる20種類の画像分割作業において,その有効性を検証する。
論文 参考訳(メタデータ) (2023-01-19T03:42:36Z) - UNetFormer: A Unified Vision Transformer Model and Pre-Training
Framework for 3D Medical Image Segmentation [14.873473285148853]
UNetFormerと呼ばれる2つのアーキテクチャで構成され,3D Swin TransformerベースのエンコーダとConal Neural Network(CNN)とTransformerベースのデコーダを備えている。
提案モデルでは, 5つの異なる解像度でのスキップ接続により, エンコーダをデコーダにリンクする。
本稿では,ランダムにマスクされたトークンを予測する学習を通じて,エンコーダバックボーンの自己教師付き事前学習手法を提案する。
論文 参考訳(メタデータ) (2022-04-01T17:38:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。