論文の概要: Med3DInsight: Enhancing 3D Medical Image Understanding with 2D
Multi-Modal Large Language Models
- arxiv url: http://arxiv.org/abs/2403.05141v1
- Date: Fri, 8 Mar 2024 08:15:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 20:26:01.526630
- Title: Med3DInsight: Enhancing 3D Medical Image Understanding with 2D
Multi-Modal Large Language Models
- Title(参考訳): med3dinsight: 2次元マルチモーダル大言語モデルによる3次元医用画像理解の強化
- Authors: Qiuhui Chen, Huping Ye, Yi Hong
- Abstract要約: 既存の3D畳み込みとトランスフォーマーベースの手法は、画像ボリュームのセマンティックな理解が限られている。
既存の3D画像エンコーダを2D MLLMでマージし,PSAT(Plane-Slice-Aware Transformer)モジュールを介してブリッジするMed3DInsightを提案する。
- 参考スコア(独自算出の注目度): 1.64647940449869
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding 3D medical image volumes is a critical task in the medical
domain. However, existing 3D convolution and transformer-based methods have
limited semantic understanding of an image volume and also need a large set of
volumes for training. Recent advances in multi-modal large language models
(MLLMs) provide a new and promising way to understand images with the help of
text descriptions. However, most current MLLMs are designed for 2D natural
images. To enhance the 3D medical image understanding with 2D MLLMs, we propose
a novel pre-training framework called Med3DInsight, which marries existing 3D
image encoders with 2D MLLMs and bridges them via a designed Plane-Slice-Aware
Transformer (PSAT) module. Extensive experiments demonstrate our SOTA
performance on two downstream segmentation and classification tasks, including
three public datasets with CT and MRI modalities and comparison to more than
ten baselines. Med3DInsight can be easily integrated into any current 3D
medical image understanding network and improves its performance by a good
margin.
- Abstract(参考訳): 3次元医用画像の量を理解することは医療分野において重要な課題である。
しかし、既存の3D畳み込みとトランスフォーマーベースの手法は、画像ボリュームのセマンティックな理解が限られており、トレーニングには大量のボリュームを必要とする。
マルチモーダル大言語モデル(MLLM)の最近の進歩は、テキスト記述の助けを借りて画像を理解するための、新しくて有望な方法を提供する。
しかし、現在のMLLMのほとんどは2次元の自然画像のために設計されている。
2次元MLLMを用いた3次元医用画像理解を強化するために,既存の3次元画像エンコーダを2次元MLLMでマージし,設計したPSATモジュールを介してブリッジする,Med3DInsightという新しい事前学習フレームワークを提案する。
大規模な実験では,2つの下流セグメンテーションと分類タスクにおけるSOTAの性能を実証し,CTとMRIの3つの公開データセットと10以上のベースラインとの比較を行った。
med3dinsightは、現在の3d医療画像理解ネットワークに容易に統合でき、その性能を良いマージンで改善できる。
関連論文リスト
- 3D-MoE: A Mixture-of-Experts Multi-modal LLM for 3D Vision and Pose Diffusion via Rectified Flow [69.94527569577295]
3次元の視覚と空間的推論は、長い間、我々の3次元の世界を正確に知覚するのに好ましいと認識されてきた。
高品質な3Dデータ収集の難しさから,近年,この領域の研究が勢いを増している。
我々は,既存の高密度活性化LDMをマルチモーダルデータ処理に有効であることが証明されたMix-of-experts(MoE)モデルに変換することを提案する。
論文 参考訳(メタデータ) (2025-01-28T04:31:19Z) - 3UR-LLM: An End-to-End Multimodal Large Language Model for 3D Scene Understanding [49.15555885075644]
オープンソースの2D MLLMとLCMをベースとしたパイプラインを開発し,高品質な3Dテキストペアを生成する。
本稿では,3次元シーンの正確な解釈を目的としたエンドツーエンド3次元MLLMである3UR-LLMモデルを紹介する。
論文 参考訳(メタデータ) (2025-01-14T03:50:23Z) - Read Like a Radiologist: Efficient Vision-Language Model for 3D Medical Imaging Interpretation [40.73779035606757]
3次元医用画像解釈において,放射線技師のワークフローを模倣したMS-VLMを導入する。
特に、放射線学者は、個々のスライスを連続的に分析し、スライスとビューにまたがる情報を合成することによって、3Dの医療画像を分析する。
MS-VLMは、スライス長の3次元医用画像と、異なる平面と位相から取得した複数の画像から有用なボリューム表現を得ることができる。
論文 参考訳(メタデータ) (2024-12-18T07:19:48Z) - RefSAM3D: Adapting SAM with Cross-modal Reference for 3D Medical Image Segmentation [17.69664156349825]
Segment Anything Model(SAM)は、2Dの自然画像のグローバルなパターンを捉えるのに優れています。
本稿では,3次元画像アダプティブと相互参照プロンプト生成を組み込むことにより,SAMを3次元医用画像に適応させるRefSAM3Dを紹介する。
医療画像における複雑な解剖学的構造を正確に区分する上で,SAMの応用を推し進めた。
論文 参考訳(メタデータ) (2024-12-07T10:22:46Z) - Med-2E3: A 2D-Enhanced 3D Medical Multimodal Large Language Model [16.93216342922561]
我々は、3Dエンコーダと2Dエンコーダを統合した3次元医用画像解析のための新しいMLLMであるMed-2E3を提案する。
より効果的に2D特徴を集約するために,スライス内容とタスク命令に基づいて各2Dスライスに注目したテキストガイド型インタースライス(TG-IS)スコアリングモジュールを設計する。
大規模でオープンソースの3D医療マルチモーダルベンチマークの実験では、Med-2E3がタスク固有の注意分布を示し、現在の最先端モデルよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2024-11-19T09:59:59Z) - Cross-D Conv: Cross-Dimensional Transferable Knowledge Base via Fourier Shifting Operation [3.69758875412828]
クロスD Conv 演算はフーリエ領域における位相シフトを学習することで次元ギャップを橋渡しする。
本手法は2次元と3次元の畳み込み操作間のシームレスな重み移動を可能にする。
論文 参考訳(メタデータ) (2024-11-02T13:03:44Z) - M3D: Advancing 3D Medical Image Analysis with Multi-Modal Large Language Models [49.5030774873328]
これまでの研究は主に2Dの医療画像に焦点を合わせてきた。
120K画像テキスト対と62K命令応答対からなる大規模3次元マルチモーダル医療データセットM3D-Dataを提案する。
また,新しい3次元マルチモーダル・メディカル・ベンチマークであるM3D-Benchを導入し,8つのタスクにまたがる自動評価を容易にする。
論文 参考訳(メタデータ) (2024-03-31T06:55:12Z) - Generative Enhancement for 3D Medical Images [74.17066529847546]
本稿では,3次元医用画像合成の新しい生成手法であるGEM-3Dを提案する。
本手法は2次元スライスから始まり,3次元スライスマスクを用いて患者に提供するための情報スライスとして機能し,生成過程を伝搬する。
3D医療画像をマスクと患者の事前情報に分解することで、GEM-3Dは多目的な3D画像を生成する柔軟な、かつ効果的なソリューションを提供する。
論文 参考訳(メタデータ) (2024-03-19T15:57:04Z) - JM3D & JM3D-LLM: Elevating 3D Understanding with Joint Multi-modal Cues [68.76032126906743]
私たちは、ポイントクラウド、テキスト、イメージを統合する包括的なアプローチであるJM3Dを紹介します。
SMO(Structured Multimodal Organizer)は、複数のビューと階層的なテキストによる視覚言語表現の強化である。
我々の高度なモデルであるJM3D-LLMは、効率的な微調整により、大規模言語モデルと3D表現を結合する。
論文 参考訳(メタデータ) (2023-10-14T06:13:20Z) - ULIP-2: Towards Scalable Multimodal Pre-training for 3D Understanding [96.95120198412395]
本稿では,3次元形状の全体言語記述を自動的に生成するトリオモーダル事前学習フレームワークを提案する。
入力として3Dデータしか必要とせず、手動の3Dアノテーションを必要としないため、大規模なデータセットにスケーラブルである。
NNとShapeNetの2つの大規模3Dデータセットの実験を行い、これらを3Dポイントクラウド、キャプション、トレーニングのための言語という3つのモーダルデータセットで拡張する。
実験により、NN-2は、ゼロショット3D分類、ファインタニングによる標準3D分類、3D3Dという3つの下流タスクにおいて有意義な利点を示すことが示された。
論文 参考訳(メタデータ) (2023-05-14T23:14:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。