論文の概要: Enhancing 3D Medical Image Understanding with Pretraining Aided by 2D Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2509.09064v1
- Date: Thu, 11 Sep 2025 00:12:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 16:52:24.175119
- Title: Enhancing 3D Medical Image Understanding with Pretraining Aided by 2D Multimodal Large Language Models
- Title(参考訳): 2次元多モード大言語モデルによる事前学習による3次元医用画像理解の強化
- Authors: Qiuhui Chen, Xuancheng Yao, Huping Ye, Yi Hong,
- Abstract要約: 既存の3D医療畳み込みとトランスフォーマーベースの自己教師付き学習(SSL)手法は、しばしば深い意味理解を欠いている。
マルチモーダル大規模言語モデル(MLLM)の最近の進歩は、テキスト記述による画像理解を強化するための有望なアプローチを提供する。
Med3DInsightは、3D画像エンコーダと2D MLLMを特別に設計された平面スライス対応トランスモジュールを介して統合する新しい事前学習フレームワークである。
- 参考スコア(独自算出の注目度): 5.020980730631682
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding 3D medical image volumes is critical in the medical field, yet existing 3D medical convolution and transformer-based self-supervised learning (SSL) methods often lack deep semantic comprehension. Recent advancements in multimodal large language models (MLLMs) provide a promising approach to enhance image understanding through text descriptions. To leverage these 2D MLLMs for improved 3D medical image understanding, we propose Med3DInsight, a novel pretraining framework that integrates 3D image encoders with 2D MLLMs via a specially designed plane-slice-aware transformer module. Additionally, our model employs a partial optimal transport based alignment, demonstrating greater tolerance to noise introduced by potential noises in LLM-generated content. Med3DInsight introduces a new paradigm for scalable multimodal 3D medical representation learning without requiring human annotations. Extensive experiments demonstrate our state-of-the-art performance on two downstream tasks, i.e., segmentation and classification, across various public datasets with CT and MRI modalities, outperforming current SSL methods. Med3DInsight can be seamlessly integrated into existing 3D medical image understanding networks, potentially enhancing their performance. Our source code, generated datasets, and pre-trained models will be available at https://github.com/Qybc/Med3DInsight.
- Abstract(参考訳): 3次元医用画像のボリュームを理解することは医療分野において重要であるが、既存の3次元医用畳み込みとトランスフォーマーベースの自己教師あり学習(SSL)手法は深い意味理解を欠いていることが多い。
マルチモーダル大規模言語モデル(MLLM)の最近の進歩は、テキスト記述による画像理解を強化するための有望なアプローチを提供する。
Med3DInsightは3次元画像エンコーダと2次元MLLMを特別な設計の平面スライス対応トランスフォーマーモジュールを介して統合する新しい事前学習フレームワークである。
さらに、本モデルでは、LLM生成コンテンツの潜在的なノイズによるノイズに対する耐性を高めるために、部分最適輸送に基づくアライメントを採用している。
Med3DInsightは、人間のアノテーションを必要とせず、スケーラブルなマルチモーダルな3D医療表現学習のための新しいパラダイムを導入している。
大規模な実験により、CTとMRIによる様々な公開データセットにまたがる2つの下流タスク(セグメンテーションと分類)における最先端のパフォーマンスが、現在のSSLメソッドよりも優れています。
Med3DInsightは既存の3D医療画像理解ネットワークにシームレスに統合され、パフォーマンスが向上する可能性がある。
私たちのソースコード、生成されたデータセット、事前トレーニングされたモデルは、https://github.com/Qybc/Med3DInsight.orgで公開されます。
関連論文リスト
- Read Like a Radiologist: Efficient Vision-Language Model for 3D Medical Imaging Interpretation [40.73779035606757]
3次元医用画像解釈において,放射線技師のワークフローを模倣したMS-VLMを導入する。
特に、放射線学者は、個々のスライスを連続的に分析し、スライスとビューにまたがる情報を合成することによって、3Dの医療画像を分析する。
MS-VLMは、スライス長の3次元医用画像と、異なる平面と位相から取得した複数の画像から有用なボリューム表現を得ることができる。
論文 参考訳(メタデータ) (2024-12-18T07:19:48Z) - Med-2E3: A 2D-Enhanced 3D Medical Multimodal Large Language Model [16.93216342922561]
我々は、3Dエンコーダと2Dエンコーダを統合した3次元医用画像解析のための新しいMLLMであるMed-2E3を提案する。
より効果的に2D特徴を集約するために,スライス内容とタスク命令に基づいて各2Dスライスに注目したテキストガイド型インタースライス(TG-IS)スコアリングモジュールを設計する。
大規模でオープンソースの3D医療マルチモーダルベンチマークの実験では、Med-2E3がタスク固有の注意分布を示し、現在の最先端モデルよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2024-11-19T09:59:59Z) - Cross-D Conv: Cross-Dimensional Transferable Knowledge Base via Fourier Shifting Operation [3.69758875412828]
クロスD Conv 演算はフーリエ領域における位相シフトを学習することで次元ギャップを橋渡しする。
本手法は2次元と3次元の畳み込み操作間のシームレスな重み移動を可能にする。
論文 参考訳(メタデータ) (2024-11-02T13:03:44Z) - M3D: Advancing 3D Medical Image Analysis with Multi-Modal Large Language Models [49.5030774873328]
これまでの研究は主に2Dの医療画像に焦点を合わせてきた。
120K画像テキスト対と62K命令応答対からなる大規模3次元マルチモーダル医療データセットM3D-Dataを提案する。
また,新しい3次元マルチモーダル・メディカル・ベンチマークであるM3D-Benchを導入し,8つのタスクにまたがる自動評価を容易にする。
論文 参考訳(メタデータ) (2024-03-31T06:55:12Z) - Generative Enhancement for 3D Medical Images [74.17066529847546]
本稿では,3次元医用画像合成の新しい生成手法であるGEM-3Dを提案する。
本手法は2次元スライスから始まり,3次元スライスマスクを用いて患者に提供するための情報スライスとして機能し,生成過程を伝搬する。
3D医療画像をマスクと患者の事前情報に分解することで、GEM-3Dは多目的な3D画像を生成する柔軟な、かつ効果的なソリューションを提供する。
論文 参考訳(メタデータ) (2024-03-19T15:57:04Z) - Med3DInsight: Enhancing 3D Medical Image Understanding with 2D
Multi-Modal Large Language Models [1.64647940449869]
既存の3D畳み込みとトランスフォーマーベースの手法は、画像ボリュームのセマンティックな理解が限られている。
既存の3D画像エンコーダを2D MLLMでマージし,PSAT(Plane-Slice-Aware Transformer)モジュールを介してブリッジするMed3DInsightを提案する。
論文 参考訳(メタデータ) (2024-03-08T08:15:53Z) - Beyond First Impressions: Integrating Joint Multi-modal Cues for
Comprehensive 3D Representation [72.94143731623117]
既存の方法は、単に3D表現を単一ビューの2D画像と粗い親カテゴリテキストに整列させる。
十分でないシナジーは、堅牢な3次元表現は共同視覚言語空間と一致すべきという考えを無視している。
我々は,JM3Dと呼ばれる多視点共同モダリティモデリング手法を提案し,点雲,テキスト,画像の統一表現を求める。
論文 参考訳(メタデータ) (2023-08-06T01:11:40Z) - ULIP-2: Towards Scalable Multimodal Pre-training for 3D Understanding [96.95120198412395]
本稿では,3次元形状の全体言語記述を自動的に生成するトリオモーダル事前学習フレームワークを提案する。
入力として3Dデータしか必要とせず、手動の3Dアノテーションを必要としないため、大規模なデータセットにスケーラブルである。
NNとShapeNetの2つの大規模3Dデータセットの実験を行い、これらを3Dポイントクラウド、キャプション、トレーニングのための言語という3つのモーダルデータセットで拡張する。
実験により、NN-2は、ゼロショット3D分類、ファインタニングによる標準3D分類、3D3Dという3つの下流タスクにおいて有意義な利点を示すことが示された。
論文 参考訳(メタデータ) (2023-05-14T23:14:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。