論文の概要: Read Like a Radiologist: Efficient Vision-Language Model for 3D Medical Imaging Interpretation
- arxiv url: http://arxiv.org/abs/2412.13558v1
- Date: Wed, 18 Dec 2024 07:19:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 16:49:53.619213
- Title: Read Like a Radiologist: Efficient Vision-Language Model for 3D Medical Imaging Interpretation
- Title(参考訳): 放射線科医の読み方:3次元医用画像解釈のための高能率視覚言語モデル
- Authors: Changsun Lee, Sangjoon Park, Cheong-Il Shin, Woo Hee Choi, Hyun Jeong Park, Jeong Eun Lee, Jong Chul Ye,
- Abstract要約: 3次元医用画像解釈において,放射線技師のワークフローを模倣したMS-VLMを導入する。
特に、放射線学者は、個々のスライスを連続的に分析し、スライスとビューにまたがる情報を合成することによって、3Dの医療画像を分析する。
MS-VLMは、スライス長の3次元医用画像と、異なる平面と位相から取得した複数の画像から有用なボリューム表現を得ることができる。
- 参考スコア(独自算出の注目度): 40.73779035606757
- License:
- Abstract: Recent medical vision-language models (VLMs) have shown promise in 2D medical image interpretation. However extending them to 3D medical imaging has been challenging due to computational complexities and data scarcity. Although a few recent VLMs specified for 3D medical imaging have emerged, all are limited to learning volumetric representation of a 3D medical image as a set of sub-volumetric features. Such process introduces overly correlated representations along the z-axis that neglect slice-specific clinical details, particularly for 3D medical images where adjacent slices have low redundancy. To address this limitation, we introduce MS-VLM that mimic radiologists' workflow in 3D medical image interpretation. Specifically, radiologists analyze 3D medical images by examining individual slices sequentially and synthesizing information across slices and views. Likewise, MS-VLM leverages self-supervised 2D transformer encoders to learn a volumetric representation that capture inter-slice dependencies from a sequence of slice-specific features. Unbound by sub-volumetric patchification, MS-VLM is capable of obtaining useful volumetric representations from 3D medical images with any slice length and from multiple images acquired from different planes and phases. We evaluate MS-VLM on publicly available chest CT dataset CT-RATE and in-house rectal MRI dataset. In both scenarios, MS-VLM surpasses existing methods in radiology report generation, producing more coherent and clinically relevant reports. These findings highlight the potential of MS-VLM to advance 3D medical image interpretation and improve the robustness of medical VLMs.
- Abstract(参考訳): 最近の医用ビジョン言語モデル(VLM)は、2次元医用画像解釈において有望であることを示している。
しかし、計算の複雑さとデータ不足のため、それらを3D医療画像に拡張することは困難である。
近年, 3次元医用画像に規定されたVLMがいくつか出現しているが, すべて3次元医用画像の体積表現の学習に限られている。
このようなプロセスは、スライス特異的な臨床詳細を無視するz軸に沿った過度に相関した表現を導入し、特に隣接するスライスに冗長性が低い3D医療画像に対してである。
この限界に対処するために,3次元医用画像解釈において放射線技師のワークフローを模倣するMS-VLMを導入する。
具体的には、個々のスライスをシーケンシャルに分析し、スライスとビューにまたがる情報を合成することにより、3D医療画像を分析する。
同様に、MS-VLMは自己教師付き2Dトランスフォーマーエンコーダを利用して、スライス固有の一連の特徴からスライス間の依存関係をキャプチャするボリューム表現を学習する。
MS-VLMは、サブボルメトリック・パッチーフィケーションに縛られず、スライス長の3次元医用画像から、異なる平面と位相から取得した複数の画像から有用なボリューム表現を得ることができる。
胸部CT データセット CT-RATE と in-house 直腸MRI データセットを用いたMS-VLM の評価を行った。
どちらのシナリオでも、MS-VLMは放射線学レポート生成の既存の手法を超越し、より一貫性があり臨床的に関係のあるレポートを生成する。
以上の結果から,MS-VLMが医用VLMの3次元画像解釈を前進させ,堅牢性を向上する可能性が示唆された。
関連論文リスト
- Med-2E3: A 2D-Enhanced 3D Medical Multimodal Large Language Model [16.93216342922561]
我々は、3Dエンコーダと2Dエンコーダを統合した3次元医用画像解析のための新しいMLLMであるMed-2E3を提案する。
より効果的に2D特徴を集約するために,スライス内容とタスク命令に基づいて各2Dスライスに注目したテキストガイド型インタースライス(TG-IS)スコアリングモジュールを設計する。
大規模でオープンソースの3D医療マルチモーダルベンチマークの実験では、Med-2E3がタスク固有の注意分布を示し、現在の最先端モデルよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2024-11-19T09:59:59Z) - CT-GLIP: 3D Grounded Language-Image Pretraining with CT Scans and Radiology Reports for Full-Body Scenarios [53.94122089629544]
我々は,CT-GLIP(Grounded Language- Image Pretraining with CT scans)を導入する。
本手法は,104臓器にわたる17,702症例を対象に,44,011例の臓器レベルの視覚テキストペアからなるマルチモーダルCTデータセットを用いて訓練し,自然言語を用いて臓器と異常をゼロショットで識別できることを実証した。
論文 参考訳(メタデータ) (2024-04-23T17:59:01Z) - M3D: Advancing 3D Medical Image Analysis with Multi-Modal Large Language Models [49.5030774873328]
これまでの研究は主に2Dの医療画像に焦点を合わせてきた。
120K画像テキスト対と62K命令応答対からなる大規模3次元マルチモーダル医療データセットM3D-Dataを提案する。
また,新しい3次元マルチモーダル・メディカル・ベンチマークであるM3D-Benchを導入し,8つのタスクにまたがる自動評価を容易にする。
論文 参考訳(メタデータ) (2024-03-31T06:55:12Z) - Generative Enhancement for 3D Medical Images [74.17066529847546]
本稿では,3次元医用画像合成の新しい生成手法であるGEM-3Dを提案する。
本手法は2次元スライスから始まり,3次元スライスマスクを用いて患者に提供するための情報スライスとして機能し,生成過程を伝搬する。
3D医療画像をマスクと患者の事前情報に分解することで、GEM-3Dは多目的な3D画像を生成する柔軟な、かつ効果的なソリューションを提供する。
論文 参考訳(メタデータ) (2024-03-19T15:57:04Z) - Med3DInsight: Enhancing 3D Medical Image Understanding with 2D
Multi-Modal Large Language Models [1.64647940449869]
既存の3D畳み込みとトランスフォーマーベースの手法は、画像ボリュームのセマンティックな理解が限られている。
既存の3D画像エンコーダを2D MLLMでマージし,PSAT(Plane-Slice-Aware Transformer)モジュールを介してブリッジするMed3DInsightを提案する。
論文 参考訳(メタデータ) (2024-03-08T08:15:53Z) - T3D: Towards 3D Medical Image Understanding through Vision-Language
Pre-training [33.548818136506334]
我々は、高解像度の3D医療画像用に設計された最初のフレームワークであるT3Dを紹介する。
T3Dには2つのテキストインフォームド・プレテキストタスクが含まれている: (lowerromannumeral1) テキストインフォームド・コントラスト学習; (lowerromannumeral2) テキストインフォームド・イメージ復元。
T3Dは、臓器や腫瘍のセグメンテーションなどのタスクや疾患の分類において、現在のvSSLメソッドよりも大幅に優れている。
論文 参考訳(メタデータ) (2023-12-03T23:03:22Z) - On the Localization of Ultrasound Image Slices within Point Distribution
Models [84.27083443424408]
甲状腺疾患は高分解能超音波(US)で診断されることが多い
縦断追跡は病理甲状腺形態の変化をモニタリングするための重要な診断プロトコルである。
3次元形状表現におけるUS画像の自動スライスローカライズのためのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-01T10:10:46Z) - Multi-View Vertebra Localization and Identification from CT Images [57.56509107412658]
我々は,CT画像からの多視点椎体局在と同定を提案する。
本研究では,3次元問題を異なる視点における2次元局所化および識別タスクに変換する。
本手法は,多視点グローバル情報を自然に学習することができる。
論文 参考訳(メタデータ) (2023-07-24T14:43:07Z) - 3D Matting: A Soft Segmentation Method Applied in Computed Tomography [26.25446145993599]
CT、MRI、PETなどの3次元画像は、医用画像の分野では一般的であり、臨床診断において重要である。
セマンティック曖昧さは多くの医用画像ラベルの典型的な特徴である。
2次元医用画像では、画像マッチングによって生成された2次元マスクの代わりにソフトマスクを用いることで、病変を特徴づけることができる。
論文 参考訳(メタデータ) (2022-09-16T10:18:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。