論文の概要: Med3DVLM: An Efficient Vision-Language Model for 3D Medical Image Analysis
- arxiv url: http://arxiv.org/abs/2503.20047v1
- Date: Tue, 25 Mar 2025 20:09:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 13:20:04.427109
- Title: Med3DVLM: An Efficient Vision-Language Model for 3D Medical Image Analysis
- Title(参考訳): Med3DVLM:3次元医用画像解析のための高能率視覚言語モデル
- Authors: Yu Xin, Gorkem Can Ates, Kuang Gong, Wei Shao,
- Abstract要約: ビジョン言語モデル(VLM)は、2Dの医療画像解析において有望であるが、3Dに拡張することは依然として困難である。
Med3DVLMは3つの重要なイノベーションを通じてこれらの課題に対処するために設計された3D VLMである。
我々は,120,084個の医用画像に対して,放射線学報告とVQAデータを含むM3Dデータセットを用いて本モデルを評価した。
- 参考スコア(独自算出の注目度): 6.464464511743737
- License:
- Abstract: Vision-language models (VLMs) have shown promise in 2D medical image analysis, but extending them to 3D remains challenging due to the high computational demands of volumetric data and the difficulty of aligning 3D spatial features with clinical text. We present Med3DVLM, a 3D VLM designed to address these challenges through three key innovations: (1) DCFormer, an efficient encoder that uses decomposed 3D convolutions to capture fine-grained spatial features at scale; (2) SigLIP, a contrastive learning strategy with pairwise sigmoid loss that improves image-text alignment without relying on large negative batches; and (3) a dual-stream MLP-Mixer projector that fuses low- and high-level image features with text embeddings for richer multi-modal representations. We evaluate our model on the M3D dataset, which includes radiology reports and VQA data for 120,084 3D medical images. Results show that Med3DVLM achieves superior performance across multiple benchmarks. For image-text retrieval, it reaches 61.00% R@1 on 2,000 samples, significantly outperforming the current state-of-the-art M3D model (19.10%). For report generation, it achieves a METEOR score of 36.42% (vs. 14.38%). In open-ended visual question answering (VQA), it scores 36.76% METEOR (vs. 33.58%), and in closed-ended VQA, it achieves 79.95% accuracy (vs. 75.78%). These results highlight Med3DVLM's ability to bridge the gap between 3D imaging and language, enabling scalable, multi-task reasoning across clinical applications. Our code is publicly available at https://github.com/mirthAI/Med3DVLM.
- Abstract(参考訳): ヴィジュアル言語モデル(VLM)は2次元医用画像解析において有望であるが,ボリュームデータの高い計算要求と3次元空間特徴と臨床テキストとの整合が難しいため,これらを3次元に拡張することは依然として困難である。
Med3DVLMは,(1)分解された3次元畳み込みを用いた高効率エンコーダ,(2)大きめの空間的特徴を抽出するコントラスト学習戦略であるSigLIP,(3)よりリッチなマルチモーダル表現のための低レベルの画像特徴と高レベルの画像特徴を融合したデュアルストリームMLP-Mixerプロジェクタである。
我々は,120,084個の医用画像に対して,放射線学報告とVQAデータを含むM3Dデータセットを用いて本モデルを評価した。
その結果,Med3DVLMは複数のベンチマークで優れた性能を発揮することがわかった。
画像テキスト検索では、2000のサンプルに対して61.00% R@1に達し、現在の最先端のM3Dモデル(19.10%)を著しく上回っている。
レポート生成では、METEORスコアは36.42%(vs.14.38%)に達する。
VQAでは36.76% METEOR(vs. 33.58%)、VQAでは79.95%(vs. 75.78%)である。
これらの結果は、3Dイメージングと言語の間のギャップを埋めるMed3DVLMの能力を強調し、臨床応用におけるスケーラブルでマルチタスク推論を可能にした。
私たちのコードはhttps://github.com/mirthAI/Med3DVLM.comで公開されています。
関連論文リスト
- DCFormer: Efficient 3D Vision-Language Modeling with Decomposed Convolutions [4.173963073705872]
我々は,3次元畳み込みを深さ,高さ,幅の3つの平行1次元畳み込みに分解する,効率的な3次元医用画像エンコーダDCFormerを紹介する。
DCFormerは、DCFormer-Tinyの精度が62.0%、F1スコアが46.3%である。
論文 参考訳(メタデータ) (2025-02-07T17:10:22Z) - Med-2E3: A 2D-Enhanced 3D Medical Multimodal Large Language Model [16.93216342922561]
我々は、3Dエンコーダと2Dエンコーダを統合した3次元医用画像解析のための新しいMLLMであるMed-2E3を提案する。
より効果的に2D特徴を集約するために,スライス内容とタスク命令に基づいて各2Dスライスに注目したテキストガイド型インタースライス(TG-IS)スコアリングモジュールを設計する。
大規模でオープンソースの3D医療マルチモーダルベンチマークの実験では、Med-2E3がタスク固有の注意分布を示し、現在の最先端モデルよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2024-11-19T09:59:59Z) - E3D-GPT: Enhanced 3D Visual Foundation for Medical Vision-Language Model [23.56751925900571]
3次元医用視覚言語モデルの開発は、疾患の診断と患者の治療に有意な可能性を秘めている。
自己教師付き学習を用いて3次元視覚特徴抽出のための3次元視覚基盤モデルを構築した。
本研究では,3次元空間畳み込みを高精細画像の特徴の集約・投影に応用し,計算複雑性を低減した。
本モデルは,既存の報告生成法,視覚的質問応答法,疾患診断法と比較して,優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-18T06:31:40Z) - CT-GLIP: 3D Grounded Language-Image Pretraining with CT Scans and Radiology Reports for Full-Body Scenarios [53.94122089629544]
我々は,CT-GLIP(Grounded Language- Image Pretraining with CT scans)を導入する。
本手法は,104臓器にわたる17,702症例を対象に,44,011例の臓器レベルの視覚テキストペアからなるマルチモーダルCTデータセットを用いて訓練し,自然言語を用いて臓器と異常をゼロショットで識別できることを実証した。
論文 参考訳(メタデータ) (2024-04-23T17:59:01Z) - M3D: Advancing 3D Medical Image Analysis with Multi-Modal Large Language Models [49.5030774873328]
これまでの研究は主に2Dの医療画像に焦点を合わせてきた。
120K画像テキスト対と62K命令応答対からなる大規模3次元マルチモーダル医療データセットM3D-Dataを提案する。
また,新しい3次元マルチモーダル・メディカル・ベンチマークであるM3D-Benchを導入し,8つのタスクにまたがる自動評価を容易にする。
論文 参考訳(メタデータ) (2024-03-31T06:55:12Z) - Generative Enhancement for 3D Medical Images [74.17066529847546]
本稿では,3次元医用画像合成の新しい生成手法であるGEM-3Dを提案する。
本手法は2次元スライスから始まり,3次元スライスマスクを用いて患者に提供するための情報スライスとして機能し,生成過程を伝搬する。
3D医療画像をマスクと患者の事前情報に分解することで、GEM-3Dは多目的な3D画像を生成する柔軟な、かつ効果的なソリューションを提供する。
論文 参考訳(メタデータ) (2024-03-19T15:57:04Z) - Beyond First Impressions: Integrating Joint Multi-modal Cues for
Comprehensive 3D Representation [72.94143731623117]
既存の方法は、単に3D表現を単一ビューの2D画像と粗い親カテゴリテキストに整列させる。
十分でないシナジーは、堅牢な3次元表現は共同視覚言語空間と一致すべきという考えを無視している。
我々は,JM3Dと呼ばれる多視点共同モダリティモデリング手法を提案し,点雲,テキスト,画像の統一表現を求める。
論文 参考訳(メタデータ) (2023-08-06T01:11:40Z) - 3D-GMIC: an efficient deep neural network to find small objects in large
3D images [41.334361182700164]
3Dイメージングは、臓器解剖に関する空間情報を提供することにより、より正確な診断を可能にする。
AIモデルのトレーニングに3Dイメージを使用することは、その2Dモデルよりも数十から数百倍のピクセルで構成されているため、計算的に困難である。
本稿では,3次元医用画像の完全解像度で計算効率の良い分類を可能にするニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-10-16T21:58:54Z) - MedMNIST v2: A Large-Scale Lightweight Benchmark for 2D and 3D
Biomedical Image Classification [59.10015984688104]
MedMNIST v2は、MNISTに似た大規模データセットコレクションである。
得られたデータセットは708,069個の2D画像と10,214個の3D画像で構成されている。
論文 参考訳(メタデータ) (2021-10-27T22:02:04Z) - Automated Model Design and Benchmarking of 3D Deep Learning Models for
COVID-19 Detection with Chest CT Scans [72.04652116817238]
3D胸部CTスキャン分類のための3D DLモデルを自動的に検索するための差別化可能なニューラルネットワーク探索(DNAS)フレームワークを提案する。
また,我々のモデルのクラスアクティベーションマッピング(cam)技術を利用して,結果の解釈可能性を提供する。
論文 参考訳(メタデータ) (2021-01-14T03:45:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。