Fugu-MT 論文翻訳(概要): Med3DInsight: Enhancing 3D Medical Image Understanding with 2D Multi-Modal Large Language Models

論文の概要: Med3DInsight: Enhancing 3D Medical Image Understanding with 2D Multi-Modal Large Language Models

arxiv url: http://arxiv.org/abs/2403.05141v1
Date: Fri, 8 Mar 2024 08:15:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-11 20:26:01.526630
Title: Med3DInsight: Enhancing 3D Medical Image Understanding with 2D Multi-Modal Large Language Models
Title（参考訳）: med3dinsight: 2次元マルチモーダル大言語モデルによる3次元医用画像理解の強化
Authors: Qiuhui Chen, Huping Ye, Yi Hong
Abstract要約: 既存の3D畳み込みとトランスフォーマーベースの手法は、画像ボリュームのセマンティックな理解が限られている。既存の3D画像エンコーダを2D MLLMでマージし,PSAT(Plane-Slice-Aware Transformer)モジュールを介してブリッジするMed3DInsightを提案する。
参考スコア（独自算出の注目度）: 1.64647940449869
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Understanding 3D medical image volumes is a critical task in the medical domain. However, existing 3D convolution and transformer-based methods have limited semantic understanding of an image volume and also need a large set of volumes for training. Recent advances in multi-modal large language models (MLLMs) provide a new and promising way to understand images with the help of text descriptions. However, most current MLLMs are designed for 2D natural images. To enhance the 3D medical image understanding with 2D MLLMs, we propose a novel pre-training framework called Med3DInsight, which marries existing 3D image encoders with 2D MLLMs and bridges them via a designed Plane-Slice-Aware Transformer (PSAT) module. Extensive experiments demonstrate our SOTA performance on two downstream segmentation and classification tasks, including three public datasets with CT and MRI modalities and comparison to more than ten baselines. Med3DInsight can be easily integrated into any current 3D medical image understanding network and improves its performance by a good margin.
Abstract（参考訳）: 3次元医用画像の量を理解することは医療分野において重要な課題である。しかし、既存の3D畳み込みとトランスフォーマーベースの手法は、画像ボリュームのセマンティックな理解が限られており、トレーニングには大量のボリュームを必要とする。マルチモーダル大言語モデル(MLLM)の最近の進歩は、テキスト記述の助けを借りて画像を理解するための、新しくて有望な方法を提供する。しかし、現在のMLLMのほとんどは2次元の自然画像のために設計されている。 2次元MLLMを用いた3次元医用画像理解を強化するために,既存の3次元画像エンコーダを2次元MLLMでマージし,設計したPSATモジュールを介してブリッジする,Med3DInsightという新しい事前学習フレームワークを提案する。大規模な実験では,2つの下流セグメンテーションと分類タスクにおけるSOTAの性能を実証し,CTとMRIの3つの公開データセットと10以上のベースラインとの比較を行った。 med3dinsightは、現在の3d医療画像理解ネットワークに容易に統合でき、その性能を良いマージンで改善できる。

関連論文リスト

Unifying 2D and 3D Vision-Language Understanding [85.84054120018625]
2次元および3次元視覚言語学習のための統一アーキテクチャUniVLGを紹介する。 UniVLGは、既存の2D中心モデルと、エンボディシステムで利用可能なリッチな3Dセンサーデータのギャップを埋める。
論文参考訳（メタデータ） (2025-03-13T17:56:22Z)
DCFormer: Efficient 3D Vision-Language Modeling with Decomposed Convolutions [6.464464511743737]
我々は,3次元畳み込みを深さ,高さ,幅の3つの平行1次元畳み込みに分解する,効率的な3次元画像エンコーダDCFormerを紹介する。ゼロショットと微調整による18の病理診断では、DCFormerは最先端の3Dビジョンエンコーダよりも一貫して優れている。
論文参考訳（メタデータ） (2025-02-07T17:10:22Z)
3D-MoE: A Mixture-of-Experts Multi-modal LLM for 3D Vision and Pose Diffusion via Rectified Flow [69.94527569577295]
3次元の視覚と空間的推論は、長い間、我々の3次元の世界を正確に知覚するのに好ましいと認識されてきた。高品質な3Dデータ収集の難しさから,近年,この領域の研究が勢いを増している。我々は,既存の高密度活性化LDMをマルチモーダルデータ処理に有効であることが証明されたMix-of-experts(MoE)モデルに変換することを提案する。
論文参考訳（メタデータ） (2025-01-28T04:31:19Z)
Read Like a Radiologist: Efficient Vision-Language Model for 3D Medical Imaging Interpretation [40.73779035606757]
3次元医用画像解釈において,放射線技師のワークフローを模倣したMS-VLMを導入する。特に、放射線学者は、個々のスライスを連続的に分析し、スライスとビューにまたがる情報を合成することによって、3Dの医療画像を分析する。 MS-VLMは、スライス長の3次元医用画像と、異なる平面と位相から取得した複数の画像から有用なボリューム表現を得ることができる。
論文参考訳（メタデータ） (2024-12-18T07:19:48Z)
Med-2E3: A 2D-Enhanced 3D Medical Multimodal Large Language Model [16.93216342922561]
我々は、3Dエンコーダと2Dエンコーダを統合した3次元医用画像解析のための新しいMLLMであるMed-2E3を提案する。より効果的に2D特徴を集約するために,スライス内容とタスク命令に基づいて各2Dスライスに注目したテキストガイド型インタースライス(TG-IS)スコアリングモジュールを設計する。大規模でオープンソースの3D医療マルチモーダルベンチマークの実験では、Med-2E3がタスク固有の注意分布を示し、現在の最先端モデルよりも大幅に優れていることが示された。
論文参考訳（メタデータ） (2024-11-19T09:59:59Z)
Cross-D Conv: Cross-Dimensional Transferable Knowledge Base via Fourier Shifting Operation [3.69758875412828]
クロスD Conv 演算はフーリエ領域における位相シフトを学習することで次元ギャップを橋渡しする。本手法は2次元と3次元の畳み込み操作間のシームレスな重み移動を可能にする。
論文参考訳（メタデータ） (2024-11-02T13:03:44Z)
M3D: Advancing 3D Medical Image Analysis with Multi-Modal Large Language Models [49.5030774873328]
これまでの研究は主に2Dの医療画像に焦点を合わせてきた。 120K画像テキスト対と62K命令応答対からなる大規模3次元マルチモーダル医療データセットM3D-Dataを提案する。また,新しい3次元マルチモーダル・メディカル・ベンチマークであるM3D-Benchを導入し,8つのタスクにまたがる自動評価を容易にする。
論文参考訳（メタデータ） (2024-03-31T06:55:12Z)
Generative Enhancement for 3D Medical Images [74.17066529847546]
本稿では,3次元医用画像合成の新しい生成手法であるGEM-3Dを提案する。本手法は2次元スライスから始まり,3次元スライスマスクを用いて患者に提供するための情報スライスとして機能し,生成過程を伝搬する。 3D医療画像をマスクと患者の事前情報に分解することで、GEM-3Dは多目的な3D画像を生成する柔軟な、かつ効果的なソリューションを提供する。
論文参考訳（メタデータ） (2024-03-19T15:57:04Z)
TAMM: TriAdapter Multi-Modal Learning for 3D Shape Understanding [28.112402580426174]
TriAdapter Multi-Modal Learning (TAMM)は3つの相乗的アダプタに基づく新しい2段階学習手法である。 TAMMは、広範囲の3Dエンコーダアーキテクチャ、事前トレーニングデータセット、下流タスクの3D表現を一貫して強化する。
論文参考訳（メタデータ） (2024-02-28T17:18:38Z)
T3D: Towards 3D Medical Image Understanding through Vision-Language Pre-training [33.548818136506334]
我々は、高解像度の3D医療画像用に設計された最初のフレームワークであるT3Dを紹介する。 T3Dには2つのテキストインフォームド・プレテキストタスクが含まれている: (lowerromannumeral1) テキストインフォームド・コントラスト学習; (lowerromannumeral2) テキストインフォームド・イメージ復元。 T3Dは、臓器や腫瘍のセグメンテーションなどのタスクや疾患の分類において、現在のvSSLメソッドよりも大幅に優れている。
論文参考訳（メタデータ） (2023-12-03T23:03:22Z)
JM3D & JM3D-LLM: Elevating 3D Understanding with Joint Multi-modal Cues [68.76032126906743]
私たちは、ポイントクラウド、テキスト、イメージを統合する包括的なアプローチであるJM3Dを紹介します。 SMO(Structured Multimodal Organizer)は、複数のビューと階層的なテキストによる視覚言語表現の強化である。我々の高度なモデルであるJM3D-LLMは、効率的な微調整により、大規模言語モデルと3D表現を結合する。
論文参考訳（メタデータ） (2023-10-14T06:13:20Z)
Spatiotemporal Modeling Encounters 3D Medical Image Analysis: Slice-Shift UNet with Multi-View Fusion [0.0]
本稿では,2次元CNNにおける3次元特徴をエンコードする2次元モデルSlice SHift UNetを提案する。より正確にマルチビュー機能は、ボリュームの3次元平面に沿って2次元の畳み込みを実行することで協調的に学習される。提案手法の有効性は,多モード腹部多臓器軸 (AMOS) と Cranial Vault (BTCV) データセットを越えたマルチアトラスラベリング (Multi-Atlas Labeling Beyond the Cranial Vault) で検証した。
論文参考訳（メタデータ） (2023-07-24T14:53:23Z)
Multi-CLIP: Contrastive Vision-Language Pre-training for Question Answering tasks in 3D Scenes [68.61199623705096]
一般的な言語知識と視覚概念を2次元画像から3次元シーン理解に適用するためのトレーニングモデルは、研究者が最近探求を始めたばかりの有望な方向である。そこで本研究では,モデルによる3次元シーンポイントクラウド表現の学習を可能にする,新しい3次元事前学習手法であるMulti-CLIPを提案する。
論文参考訳（メタデータ） (2023-06-04T11:08:53Z)
ULIP-2: Towards Scalable Multimodal Pre-training for 3D Understanding [96.95120198412395]
本稿では,3次元形状の全体言語記述を自動的に生成するトリオモーダル事前学習フレームワークを提案する。入力として3Dデータしか必要とせず、手動の3Dアノテーションを必要としないため、大規模なデータセットにスケーラブルである。 NNとShapeNetの2つの大規模3Dデータセットの実験を行い、これらを3Dポイントクラウド、キャプション、トレーニングのための言語という3つのモーダルデータセットで拡張する。実験により、NN-2は、ゼロショット3D分類、ファインタニングによる標準3D分類、3D3Dという3つの下流タスクにおいて有意義な利点を示すことが示された。
論文参考訳（メタデータ） (2023-05-14T23:14:09Z)
MedMNIST v2: A Large-Scale Lightweight Benchmark for 2D and 3D Biomedical Image Classification [59.10015984688104]
MedMNIST v2は、MNISTに似た大規模データセットコレクションである。得られたデータセットは708,069個の2D画像と10,214個の3D画像で構成されている。
論文参考訳（メタデータ） (2021-10-27T22:02:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。