論文の概要: Med3DInsight: Enhancing 3D Medical Image Understanding with 2D
Multi-Modal Large Language Models
- arxiv url: http://arxiv.org/abs/2403.05141v1
- Date: Fri, 8 Mar 2024 08:15:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 20:26:01.526630
- Title: Med3DInsight: Enhancing 3D Medical Image Understanding with 2D
Multi-Modal Large Language Models
- Title(参考訳): med3dinsight: 2次元マルチモーダル大言語モデルによる3次元医用画像理解の強化
- Authors: Qiuhui Chen, Huping Ye, Yi Hong
- Abstract要約: 既存の3D畳み込みとトランスフォーマーベースの手法は、画像ボリュームのセマンティックな理解が限られている。
既存の3D画像エンコーダを2D MLLMでマージし,PSAT(Plane-Slice-Aware Transformer)モジュールを介してブリッジするMed3DInsightを提案する。
- 参考スコア(独自算出の注目度): 1.64647940449869
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding 3D medical image volumes is a critical task in the medical
domain. However, existing 3D convolution and transformer-based methods have
limited semantic understanding of an image volume and also need a large set of
volumes for training. Recent advances in multi-modal large language models
(MLLMs) provide a new and promising way to understand images with the help of
text descriptions. However, most current MLLMs are designed for 2D natural
images. To enhance the 3D medical image understanding with 2D MLLMs, we propose
a novel pre-training framework called Med3DInsight, which marries existing 3D
image encoders with 2D MLLMs and bridges them via a designed Plane-Slice-Aware
Transformer (PSAT) module. Extensive experiments demonstrate our SOTA
performance on two downstream segmentation and classification tasks, including
three public datasets with CT and MRI modalities and comparison to more than
ten baselines. Med3DInsight can be easily integrated into any current 3D
medical image understanding network and improves its performance by a good
margin.
- Abstract(参考訳): 3次元医用画像の量を理解することは医療分野において重要な課題である。
しかし、既存の3D畳み込みとトランスフォーマーベースの手法は、画像ボリュームのセマンティックな理解が限られており、トレーニングには大量のボリュームを必要とする。
マルチモーダル大言語モデル(MLLM)の最近の進歩は、テキスト記述の助けを借りて画像を理解するための、新しくて有望な方法を提供する。
しかし、現在のMLLMのほとんどは2次元の自然画像のために設計されている。
2次元MLLMを用いた3次元医用画像理解を強化するために,既存の3次元画像エンコーダを2次元MLLMでマージし,設計したPSATモジュールを介してブリッジする,Med3DInsightという新しい事前学習フレームワークを提案する。
大規模な実験では,2つの下流セグメンテーションと分類タスクにおけるSOTAの性能を実証し,CTとMRIの3つの公開データセットと10以上のベースラインとの比較を行った。
med3dinsightは、現在の3d医療画像理解ネットワークに容易に統合でき、その性能を良いマージンで改善できる。
関連論文リスト
- VisionGPT-3D: A Generalized Multimodal Agent for Enhanced 3D Vision Understanding [47.58359136198136]
VisionGPT-3Dはマルチモーダル基盤モデルの強みを基盤として多目的なマルチモーダルフレームワークを提供する。
様々なSOTAビジョンモデルをシームレスに統合し、SOTAビジョンモデルの選択に自動化をもたらす。
2次元深度マップ解析に対応する適切な3次元メッシュ生成アルゴリズムを特定し、多様なマルチモーダル入力に基づいて最適な結果を生成する。
論文 参考訳(メタデータ) (2024-03-14T16:13:00Z) - TAMM: TriAdapter Multi-Modal Learning for 3D Shape Understanding [31.59552321961767]
TriAdapter Multi-Modal Learning (TAMM)は3つの相乗的アダプタに基づく新しい2段階学習手法である。
TAMMは、広範囲の3Dエンコーダアーキテクチャ、事前トレーニングデータセット、下流タスクの3D表現を一貫して強化する。
論文 参考訳(メタデータ) (2024-02-28T17:18:38Z) - T3D: Towards 3D Medical Image Understanding through Vision-Language
Pre-training [33.548818136506334]
我々は、高解像度の3D医療画像用に設計された最初のフレームワークであるT3Dを紹介する。
T3Dには2つのテキストインフォームド・プレテキストタスクが含まれている: (lowerromannumeral1) テキストインフォームド・コントラスト学習; (lowerromannumeral2) テキストインフォームド・イメージ復元。
T3Dは、臓器や腫瘍のセグメンテーションなどのタスクや疾患の分類において、現在のvSSLメソッドよりも大幅に優れている。
論文 参考訳(メタデータ) (2023-12-03T23:03:22Z) - JM3D & JM3D-LLM: Elevating 3D Understanding with Joint Multi-modal Cues [68.76032126906743]
私たちは、ポイントクラウド、テキスト、イメージを統合する包括的なアプローチであるJM3Dを紹介します。
SMO(Structured Multimodal Organizer)は、複数のビューと階層的なテキストによる視覚言語表現の強化である。
我々の高度なモデルであるJM3D-LLMは、効率的な微調整により、大規模言語モデルと3D表現を結合する。
論文 参考訳(メタデータ) (2023-10-14T06:13:20Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Spatiotemporal Modeling Encounters 3D Medical Image Analysis:
Slice-Shift UNet with Multi-View Fusion [0.0]
本稿では,2次元CNNにおける3次元特徴をエンコードする2次元モデルSlice SHift UNetを提案する。
より正確にマルチビュー機能は、ボリュームの3次元平面に沿って2次元の畳み込みを実行することで協調的に学習される。
提案手法の有効性は,多モード腹部多臓器軸 (AMOS) と Cranial Vault (BTCV) データセットを越えたマルチアトラスラベリング (Multi-Atlas Labeling Beyond the Cranial Vault) で検証した。
論文 参考訳(メタデータ) (2023-07-24T14:53:23Z) - Multi-CLIP: Contrastive Vision-Language Pre-training for Question
Answering tasks in 3D Scenes [68.61199623705096]
一般的な言語知識と視覚概念を2次元画像から3次元シーン理解に適用するためのトレーニングモデルは、研究者が最近探求を始めたばかりの有望な方向である。
そこで本研究では,モデルによる3次元シーンポイントクラウド表現の学習を可能にする,新しい3次元事前学習手法であるMulti-CLIPを提案する。
論文 参考訳(メタデータ) (2023-06-04T11:08:53Z) - 3D Matting: A Soft Segmentation Method Applied in Computed Tomography [26.25446145993599]
CT、MRI、PETなどの3次元画像は、医用画像の分野では一般的であり、臨床診断において重要である。
セマンティック曖昧さは多くの医用画像ラベルの典型的な特徴である。
2次元医用画像では、画像マッチングによって生成された2次元マスクの代わりにソフトマスクを用いることで、病変を特徴づけることができる。
論文 参考訳(メタデータ) (2022-09-16T10:18:59Z) - Super Images -- A New 2D Perspective on 3D Medical Imaging Analysis [0.0]
トレーニング中に3次元知識を効率的に埋め込んで3次元データを扱うための,シンプルで効果的な2次元手法を提案する。
本手法は3次元画像にスライスを並べて超高分解能画像を生成する。
2次元ネットワークのみを利用した3次元ネットワークを実現する一方で、モデルの複雑さはおよそ3倍に減少する。
論文 参考訳(メタデータ) (2022-05-05T09:59:03Z) - MedMNIST v2: A Large-Scale Lightweight Benchmark for 2D and 3D
Biomedical Image Classification [59.10015984688104]
MedMNIST v2は、MNISTに似た大規模データセットコレクションである。
得られたデータセットは708,069個の2D画像と10,214個の3D画像で構成されている。
論文 参考訳(メタデータ) (2021-10-27T22:02:04Z) - Weakly Supervised Volumetric Image Segmentation with Deformed Templates [80.04326168716493]
対象対象物の表面にスパースな3次元点のセットのみを提供する必要があるという意味で、真に弱い教師付きアプローチを提案する。
監督コストの削減により、3Dの弱スーパービジョンに対する従来のアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-07T22:09:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。