論文の概要: Adapting 2D Multi-Modal Large Language Model for 3D CT Image Analysis
- arxiv url: http://arxiv.org/abs/2604.10233v1
- Date: Sat, 11 Apr 2026 14:36:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.914304
- Title: Adapting 2D Multi-Modal Large Language Model for 3D CT Image Analysis
- Title(参考訳): 3次元CT画像解析のための2次元多モード大言語モデルの適用
- Authors: Yang Yu, Dunyuan Xu, Yaoqian Li, Xiaomeng Li, Jinpeng Li, Pheng-Ann Heng,
- Abstract要約: マルチモーダル大言語モデル(MLLM)は、堅牢な知覚能力、強力なクロスモーダルアライメント、有望な一般化性を示す。
3D医療画像の不足により、既存の3D医療MLLMは、十分に事前訓練された視覚エンコーダと、カスタマイズされた画像の特徴を抽出することができない。
本稿では,テキストプロンプトの指導の下でタスクを識別できるテキストガイド型階層型MoEフレームワークを提案する。
- 参考スコア(独自算出の注目度): 52.32262701215441
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D medical image analysis is of great importance in disease diagnosis and treatment. Recently, multimodal large language models (MLLMs) have exhibited robust perceptual capacity, strong cross-modal alignment, and promising generalizability. Therefore, they have great potential to improve the performance of medical report generation (MRG) and medical visual question answering (MVQA), which serve as two important tasks in clinical scenarios. However, due to the scarcity of 3D medical images, existing 3D medical MLLMs suffer from insufficiently pretrained vision encoder and inability to extract customized image features for different kinds of tasks. In this paper, we propose to first transfer a 2D MLLM, which is well trained with 2D natural images, to support 3D medical volumetric inputs while reusing all of its pre-trained parameters. To enable the vision encoder to extract tailored image features for various tasks, we then design a Text-Guided Hierarchical MoE (TGH-MoE) framework, which can distinguish tasks under the guidance of the text prompt. Furthermore, we propose a two-stage training strategy to learn both task-shared and task-specific image features. As demonstrated empirically, our method outperforms existing 3D medical MLLMs in both MRG and MVQA tasks. Our code will be released once this paper is accepted.
- Abstract(参考訳): 3次元医用画像解析は、疾患の診断と治療において非常に重要である。
近年,マルチモーダル大言語モデル (MLLM) は,頑健な知覚能力,強力なクロスモーダルアライメント,そして有望な一般化性を示した。
そのため,医療報告生成(MRG)と医用視覚質問応答(MVQA)の性能向上には大きな可能性があり,臨床シナリオにおいて2つの重要な課題となっている。
しかし、3D医療画像の不足により、既存の3D医療MLLMは、十分に事前訓練された視覚エンコーダに悩まされ、様々なタスクのためにカスタマイズされた画像の特徴を抽出できない。
本稿では,2次元の自然画像でよく訓練された2次元MLLMを,事前学習されたパラメータをすべて再利用しながら,3次元の医療用ボリューム入力をサポートするために,まず転送することを提案する。
視覚エンコーダは,様々なタスクに適した画像特徴を抽出するために,テキストプロンプトの指導の下でタスクを識別可能なテキストガイド型階層型MoE (TGH-MoE) フレームワークを設計する。
さらに,タスク共有とタスク特化の両方のイメージ特徴を学習するための2段階のトレーニング戦略を提案する。
本手法はMRGおよびMVQAタスクにおいて既存の3次元医療MLLMよりも優れていた。
この論文が受け入れられたら、私たちのコードはリリースされます。
関連論文リスト
- MedPruner: Training-Free Hierarchical Token Pruning for Efficient 3D Medical Image Understanding in Vision-Language Models [59.180043227905294]
MedPrunerは、3次元医用画像の効率的な理解のためのトレーニング不要でモデルに依存しない階層的トークンプレーニングフレームワークである。
我々は、MedPrunerによって、MedGemmaのようなモデルが元の性能を維持したり、超えたりすることが可能であり、ビジュアルトークンの5%以下を維持していることを示す。
論文 参考訳(メタデータ) (2026-03-12T07:37:00Z) - 3D Modality-Aware Pre-training for Vision-Language Model in MRI Multi-organ Abnormality Detection [0.31351527202068447]
3次元MRIにおける視覚言語表現学習を支援するフレームワークであるMedMAPを提案する。
MedMAPは、モダリティ対応の視覚言語アライメントステージと、多臓器異常検出のための微調整ステージとを備える。
MedMoM-MRI3Dを用いた実験により,MedMAPは3次元MRIによる多臓器異常検出において既存のVLMよりも有意に優れていることが示された。
論文 参考訳(メタデータ) (2026-02-27T03:37:55Z) - Enhancing 3D Medical Image Understanding with Pretraining Aided by 2D Multimodal Large Language Models [5.020980730631682]
既存の3D医療畳み込みとトランスフォーマーベースの自己教師付き学習(SSL)手法は、しばしば深い意味理解を欠いている。
マルチモーダル大規模言語モデル(MLLM)の最近の進歩は、テキスト記述による画像理解を強化するための有望なアプローチを提供する。
Med3DInsightは、3D画像エンコーダと2D MLLMを特別に設計された平面スライス対応トランスモジュールを介して統合する新しい事前学習フレームワークである。
論文 参考訳(メタデータ) (2025-09-11T00:12:59Z) - Does DINOv3 Set a New Medical Vision Standard? [67.33543059306938]
本報告は、DINOv3が、ドメイン固有の事前トレーニングなしで、医用視覚タスクのための強力な統合エンコーダとして機能するかどうかを考察する。
我々はDINOv3を2D/3D分類やセグメンテーションを含む一般的な医療ビジョンタスクでベンチマークした。
注目すべきは、いくつかのタスクでBiomedCLIPやCT-Netといった医療固有の基礎モデルよりも優れていることだ。
論文 参考訳(メタデータ) (2025-09-08T09:28:57Z) - Med-2E3: A 2D-Enhanced 3D Medical Multimodal Large Language Model [17.69323209661274]
デュアル3D-2Dエンコーダアーキテクチャを統合した3次元医療MLLMであるMed-2E3を提案する。
2次元特徴を効果的に集約するために,テキストガイド型インタースライス(TG-IS)スコアリングモジュールを設計する。
大規模でオープンソースの医療用マルチモーダルデータセットの実験は、TG-ISがタスク固有の注意分布を示すことを示した。
論文 参考訳(メタデータ) (2024-11-19T09:59:59Z) - M3D: Advancing 3D Medical Image Analysis with Multi-Modal Large Language Models [49.5030774873328]
これまでの研究は主に2Dの医療画像に焦点を合わせてきた。
120K画像テキスト対と62K命令応答対からなる大規模3次元マルチモーダル医療データセットM3D-Dataを提案する。
また,新しい3次元マルチモーダル・メディカル・ベンチマークであるM3D-Benchを導入し,8つのタスクにまたがる自動評価を容易にする。
論文 参考訳(メタデータ) (2024-03-31T06:55:12Z) - Generative Enhancement for 3D Medical Images [74.17066529847546]
本稿では,3次元医用画像合成の新しい生成手法であるGEM-3Dを提案する。
本手法は2次元スライスから始まり,3次元スライスマスクを用いて患者に提供するための情報スライスとして機能し,生成過程を伝搬する。
3D医療画像をマスクと患者の事前情報に分解することで、GEM-3Dは多目的な3D画像を生成する柔軟な、かつ効果的なソリューションを提供する。
論文 参考訳(メタデータ) (2024-03-19T15:57:04Z) - Med3DInsight: Enhancing 3D Medical Image Understanding with 2D
Multi-Modal Large Language Models [1.64647940449869]
既存の3D畳み込みとトランスフォーマーベースの手法は、画像ボリュームのセマンティックな理解が限られている。
既存の3D画像エンコーダを2D MLLMでマージし,PSAT(Plane-Slice-Aware Transformer)モジュールを介してブリッジするMed3DInsightを提案する。
論文 参考訳(メタデータ) (2024-03-08T08:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。