論文の概要: Generative Text-Guided 3D Vision-Language Pretraining for Unified
Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2306.04811v1
- Date: Wed, 7 Jun 2023 22:20:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 17:24:41.100483
- Title: Generative Text-Guided 3D Vision-Language Pretraining for Unified
Medical Image Segmentation
- Title(参考訳): 統一医療画像セグメンテーションのための生成的テキスト誘導3次元視覚言語前訓練
- Authors: Yinda Chen, Che Liu, Wei Huang, Sibo Cheng, Rossella Arcucci, Zhiwei
Xiong
- Abstract要約: 統一医用画像(GTGM)のための生成テキストガイド型3Dビジョンランゲージ前処理について紹介する。
GTGMは3次元医用画像から医用テキストを生成する。
付加的な3次元医用画像パッチ間の一貫した視覚的表現を育むために、負のフリーコントラスト学習目標戦略を導入する。
- 参考スコア(独自算出の注目度): 37.93699188912036
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Pretraining (VLP) has demonstrated remarkable capabilities in
learning visual representations from textual descriptions of images without
annotations. Yet, effective VLP demands large-scale image-text pairs, a
resource that suffers scarcity in the medical domain. Moreover, conventional
VLP is limited to 2D images while medical images encompass diverse modalities,
often in 3D, making the learning process more challenging. To address these
challenges, we present Generative Text-Guided 3D Vision-Language Pretraining
for Unified Medical Image Segmentation (GTGM), a framework that extends of VLP
to 3D medical images without relying on paired textual descriptions.
Specifically, GTGM utilizes large language models (LLM) to generate
medical-style text from 3D medical images. This synthetic text is then used to
supervise 3D visual representation learning. Furthermore, a negative-free
contrastive learning objective strategy is introduced to cultivate consistent
visual representations between augmented 3D medical image patches, which
effectively mitigates the biases associated with strict positive-negative
sample pairings. We evaluate GTGM on three imaging modalities - Computed
Tomography (CT), Magnetic Resonance Imaging (MRI), and electron microscopy (EM)
over 13 datasets. GTGM's superior performance across various medical image
segmentation tasks underscores its effectiveness and versatility, by enabling
VLP extension into 3D medical imagery while bypassing the need for paired text.
- Abstract(参考訳): VLP(Vision-Language Pretraining)は、アノテーションなしで画像のテキスト記述から視覚表現を学ぶ際、顕著な能力を示した。
しかし、有効なVLPは、医療領域で不足するリソースである大規模な画像テキストペアを必要とする。
さらに、従来のvlpは2d画像に限定され、医用画像は3dで多彩なモダリティを包含しているため、学習プロセスがより困難になる。
これらの課題に対処するために、VLPから3D画像までをテキスト記述に頼らずに拡張するGTGM(Generative Text-Guided 3D Vision-Language Pretraining for Unified Medical Image Segmentation)を提案する。
特に、gtgmは3d医療画像から医用テキストを生成するために、大言語モデル(llm)を使用している。
この合成テキストは、3D視覚表現学習を監督するために使用される。
さらに,拡張3次元医用画像パッチ間の一貫した視覚的表現を育成し,厳密な正負のサンプルペアリングに関連するバイアスを効果的に軽減するために,ネガティブフリーのコントラスト学習目標戦略を導入した。
x線ct(ct)、mri(mri)、電子顕微鏡(em)の3つの画像モードのgtgmを13以上のデータセットで評価した。
GTGMの様々な医用画像セグメンテーションタスクにおける優れたパフォーマンスは、ペアテキストの必要性を回避しつつ、VLPを3Dの医用画像に拡張することで、その有効性と汎用性を示している。
関連論文リスト
- ZALM3: Zero-Shot Enhancement of Vision-Language Alignment via In-Context Information in Multi-Turn Multimodal Medical Dialogue [25.398370966763597]
オンライン医療相談のシナリオでは、医師は患者が複数のラウンドで提供したテキストや画像に反応し、健康状態の診断を行う。
従来の医療用視覚質問応答 (Med-VQA) において, 専門機器が取得した高品質な画像とは違って, 症例内の画像は患者の携帯電話で撮影される。
マルチターンマルチモーダル医療対話における視覚言語アライメントを改善するゼロショット戦略であるZALM3を提案する。
論文 参考訳(メタデータ) (2024-09-26T07:55:57Z) - Autoregressive Sequence Modeling for 3D Medical Image Representation [48.706230961589924]
本稿では, 自己回帰シーケンス事前学習フレームワークを用いて, 3次元医用画像表現を学習するための先駆的手法を提案する。
我々は,空間的,コントラスト的,意味的相関に基づく様々な3次元医用画像にアプローチし,トークンシーケンス内の相互接続された視覚トークンとして扱う。
論文 参考訳(メタデータ) (2024-09-13T10:19:10Z) - CT-GLIP: 3D Grounded Language-Image Pretraining with CT Scans and Radiology Reports for Full-Body Scenarios [53.94122089629544]
我々は,CT-GLIP(Grounded Language- Image Pretraining with CT scans)を導入する。
本手法は,104臓器にわたる17,702症例を対象に,44,011例の臓器レベルの視覚テキストペアからなるマルチモーダルCTデータセットを用いて訓練し,自然言語を用いて臓器と異常をゼロショットで識別できることを実証した。
論文 参考訳(メタデータ) (2024-04-23T17:59:01Z) - M3D: Advancing 3D Medical Image Analysis with Multi-Modal Large Language Models [49.5030774873328]
これまでの研究は主に2Dの医療画像に焦点を合わせてきた。
120K画像テキスト対と62K命令応答対からなる大規模3次元マルチモーダル医療データセットM3D-Dataを提案する。
また,新しい3次元マルチモーダル・メディカル・ベンチマークであるM3D-Benchを導入し,8つのタスクにまたがる自動評価を容易にする。
論文 参考訳(メタデータ) (2024-03-31T06:55:12Z) - Generative Enhancement for 3D Medical Images [74.17066529847546]
本稿では,3次元医用画像合成の新しい生成手法であるGEM-3Dを提案する。
本手法は2次元スライスから始まり,3次元スライスマスクを用いて患者に提供するための情報スライスとして機能し,生成過程を伝搬する。
3D医療画像をマスクと患者の事前情報に分解することで、GEM-3Dは多目的な3D画像を生成する柔軟な、かつ効果的なソリューションを提供する。
論文 参考訳(メタデータ) (2024-03-19T15:57:04Z) - T3D: Towards 3D Medical Image Understanding through Vision-Language
Pre-training [33.548818136506334]
我々は、高解像度の3D医療画像用に設計された最初のフレームワークであるT3Dを紹介する。
T3Dには2つのテキストインフォームド・プレテキストタスクが含まれている: (lowerromannumeral1) テキストインフォームド・コントラスト学習; (lowerromannumeral2) テキストインフォームド・イメージ復元。
T3Dは、臓器や腫瘍のセグメンテーションなどのタスクや疾患の分類において、現在のvSSLメソッドよりも大幅に優れている。
論文 参考訳(メタデータ) (2023-12-03T23:03:22Z) - Unified Medical Image Pre-training in Language-Guided Common Semantic Space [39.61770813855078]
我々はUnified Medical Image Pre-Trainingフレームワーク(UniMedI)を提案する。
UniMedIは、診断レポートを一般的な意味空間として使用し、医療画像の多様なモダリティの統一表現を作成する。
10種類のデータセットにまたがる2次元画像と3次元画像の性能評価を行った。
論文 参考訳(メタデータ) (2023-11-24T22:01:12Z) - Multi-Modal Masked Autoencoders for Medical Vision-and-Language
Pre-Training [62.215025958347105]
マルチモーダルマスク付きオートエンコーダを用いた自己教師型学習パラダイムを提案する。
我々は、ランダムにマスキングされた画像やテキストから欠落したピクセルやトークンを再構成することで、クロスモーダルなドメイン知識を学習する。
論文 参考訳(メタデータ) (2022-09-15T07:26:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。