論文の概要: T3D: Towards 3D Medical Image Understanding through Vision-Language
Pre-training
- arxiv url: http://arxiv.org/abs/2312.01529v1
- Date: Sun, 3 Dec 2023 23:03:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 16:58:58.409256
- Title: T3D: Towards 3D Medical Image Understanding through Vision-Language
Pre-training
- Title(参考訳): T3D:ビジョンランゲージによる3次元医用画像理解を目指して
- Authors: Che Liu, Cheng Ouyang, Yinda Chen, Cesar C\'esar Quilodr\'an-Casas,
Lei Ma, Jie Fu, Yike Guo, Anand Shah, Wenjia Bai, Rossella Arcucci
- Abstract要約: 我々は、高解像度の3D医療画像用に設計された最初のフレームワークであるT3Dを紹介する。
T3Dには2つのテキストインフォームド・プレテキストタスクが含まれている: (lowerromannumeral1) テキストインフォームド・コントラスト学習; (lowerromannumeral2) テキストインフォームド・イメージ復元。
T3Dは、臓器や腫瘍のセグメンテーションなどのタスクや疾患の分類において、現在のvSSLメソッドよりも大幅に優れている。
- 参考スコア(独自算出の注目度): 33.548818136506334
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Expert annotation of 3D medical image for downstream analysis is
resource-intensive, posing challenges in clinical applications. Visual
self-supervised learning (vSSL), though effective for learning visual
invariance, neglects the incorporation of domain knowledge from medicine. To
incorporate medical knowledge into visual representation learning,
vision-language pre-training (VLP) has shown promising results in 2D image.
However, existing VLP approaches become generally impractical when applied to
high-resolution 3D medical images due to GPU hardware constraints and the
potential loss of critical details caused by downsampling, which is the
intuitive solution to hardware constraints. To address the above limitations,
we introduce T3D, the first VLP framework designed for high-resolution 3D
medical images. T3D incorporates two text-informed pretext tasks:
(\lowerromannumeral{1}) text-informed contrastive learning;
(\lowerromannumeral{2}) text-informed image restoration. These tasks focus on
learning 3D visual representations from high-resolution 3D medical images and
integrating clinical knowledge from radiology reports, without distorting
information through forced alignment of downsampled volumes with detailed
anatomical text. Trained on a newly curated large-scale dataset of 3D medical
images and radiology reports, T3D significantly outperforms current vSSL
methods in tasks like organ and tumor segmentation, as well as disease
classification. This underlines T3D's potential in representation learning for
3D medical image analysis. All data and code will be available upon acceptance.
- Abstract(参考訳): 下流分析のための3次元医用画像のエキスパートアノテーションは資源集約的であり、臨床応用における課題を提起する。
visual self-supervised learning (vssl) は、視覚の不変性を学ぶのに有効であるが、医学からドメイン知識を取り入れることを無視している。
医用知識を視覚表現学習に取り入れるため,視覚言語事前学習(VLP)は2次元画像に有望な結果を示した。
しかし、GPUハードウェアの制約と、ハードウェアの制約に対する直感的な解決策であるダウンサンプリングによる重要な詳細の損失により、既存のVLPアプローチが高解像度の3D医療画像に適用されると、一般的には非現実的になる。
上記の制限に対処するため,高解像度の3D医療画像用に設計された最初のVLPフレームワークであるT3Dを紹介する。
T3Dには2つのテキストインフォームド・プレテキストタスクが含まれている: (\lowerromannumeral{1}) テキストインフォームド・コントラスト学習; (\lowerromannumeral{2}) テキストインフォームド・イメージ復元。
これらの課題は、高解像度の3次元医用画像から3次元視覚表現を学習し、詳細な解剖学的テキストによるダウンサンプルボリュームの強制アライメントを通じて情報を歪めることなく、放射線医学レポートから臨床知識を統合することに焦点を当てている。
T3Dでは、臓器や腫瘍の分節化といったタスクや疾患の分類において、現在のvSSLメソッドよりも大幅に優れています。
これは3次元医用画像解析のための表現学習におけるt3dの可能性を示す。
すべてのデータとコードは、受け入れ次第利用できる。
関連論文リスト
- E3D-GPT: Enhanced 3D Visual Foundation for Medical Vision-Language Model [23.56751925900571]
3次元医用視覚言語モデルの開発は、疾患の診断と患者の治療に有意な可能性を秘めている。
自己教師付き学習を用いて3次元視覚特徴抽出のための3次元視覚基盤モデルを構築した。
本研究では,3次元空間畳み込みを高精細画像の特徴の集約・投影に応用し,計算複雑性を低減した。
本モデルは,既存の報告生成法,視覚的質問応答法,疾患診断法と比較して,優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-18T06:31:40Z) - CT-GLIP: 3D Grounded Language-Image Pretraining with CT Scans and Radiology Reports for Full-Body Scenarios [53.94122089629544]
我々は,CT-GLIP(Grounded Language- Image Pretraining with CT scans)を導入する。
本手法は,104臓器にわたる17,702症例を対象に,44,011例の臓器レベルの視覚テキストペアからなるマルチモーダルCTデータセットを用いて訓練し,自然言語を用いて臓器と異常をゼロショットで識別できることを実証した。
論文 参考訳(メタデータ) (2024-04-23T17:59:01Z) - M3D: Advancing 3D Medical Image Analysis with Multi-Modal Large Language Models [49.5030774873328]
これまでの研究は主に2Dの医療画像に焦点を合わせてきた。
120K画像テキスト対と62K命令応答対からなる大規模3次元マルチモーダル医療データセットM3D-Dataを提案する。
また,新しい3次元マルチモーダル・メディカル・ベンチマークであるM3D-Benchを導入し,8つのタスクにまたがる自動評価を容易にする。
論文 参考訳(メタデータ) (2024-03-31T06:55:12Z) - Generative Enhancement for 3D Medical Images [74.17066529847546]
本稿では,3次元医用画像合成の新しい生成手法であるGEM-3Dを提案する。
本手法は2次元スライスから始まり,3次元スライスマスクを用いて患者に提供するための情報スライスとして機能し,生成過程を伝搬する。
3D医療画像をマスクと患者の事前情報に分解することで、GEM-3Dは多目的な3D画像を生成する柔軟な、かつ効果的なソリューションを提供する。
論文 参考訳(メタデータ) (2024-03-19T15:57:04Z) - Multi-View Vertebra Localization and Identification from CT Images [57.56509107412658]
我々は,CT画像からの多視点椎体局在と同定を提案する。
本研究では,3次元問題を異なる視点における2次元局所化および識別タスクに変換する。
本手法は,多視点グローバル情報を自然に学習することができる。
論文 参考訳(メタデータ) (2023-07-24T14:43:07Z) - Generative Text-Guided 3D Vision-Language Pretraining for Unified
Medical Image Segmentation [37.93699188912036]
統一医用画像(GTGM)のための生成テキストガイド型3Dビジョンランゲージ前処理について紹介する。
GTGMは3次元医用画像から医用テキストを生成する。
付加的な3次元医用画像パッチ間の一貫した視覚的表現を育むために、負のフリーコントラスト学習目標戦略を導入する。
論文 参考訳(メタデータ) (2023-06-07T22:20:51Z) - Multi-CLIP: Contrastive Vision-Language Pre-training for Question
Answering tasks in 3D Scenes [68.61199623705096]
一般的な言語知識と視覚概念を2次元画像から3次元シーン理解に適用するためのトレーニングモデルは、研究者が最近探求を始めたばかりの有望な方向である。
そこで本研究では,モデルによる3次元シーンポイントクラウド表現の学習を可能にする,新しい3次元事前学習手法であるMulti-CLIPを提案する。
論文 参考訳(メタデータ) (2023-06-04T11:08:53Z) - CLIP-Guided Vision-Language Pre-training for Question Answering in 3D
Scenes [68.61199623705096]
我々は,モデルが意味論的かつ伝達可能な3Dシーンポイントクラウド表現を学習するのに役立つ,新しい3D事前学習型ビジョンランゲージを設計する。
符号化された3Dシーン特徴と対応する2D画像とテキスト埋め込みとを一致させることにより、人気のあるCLIPモデルの表現力を3Dエンコーダに注入する。
我々は,3次元視覚質問応答の下流課題に対して,我々のモデルによる3次元世界推論能力を評価する。
論文 参考訳(メタデータ) (2023-04-12T16:52:29Z) - 3D Matting: A Benchmark Study on Soft Segmentation Method for Pulmonary
Nodules Applied in Computed Tomography [32.775884701366465]
医用画像中の病変を3D領域に導入し,αマット(ソフトマスク)を用いて3D画像に病変を記述した。
この問題に対処するため,従来手法と深層学習法の両方を含む3Dマッティングの総合的研究を行った。
本稿では,最初のエンドツーエンドの3次元画像マッチングネットワークを提案し,医用3次元画像マッチングベンチマークを実装した。
論文 参考訳(メタデータ) (2022-10-11T02:40:18Z) - 3D Matting: A Soft Segmentation Method Applied in Computed Tomography [26.25446145993599]
CT、MRI、PETなどの3次元画像は、医用画像の分野では一般的であり、臨床診断において重要である。
セマンティック曖昧さは多くの医用画像ラベルの典型的な特徴である。
2次元医用画像では、画像マッチングによって生成された2次元マスクの代わりにソフトマスクを用いることで、病変を特徴づけることができる。
論文 参考訳(メタデータ) (2022-09-16T10:18:59Z) - 3D Self-Supervised Methods for Medical Imaging [7.65168530693281]
本稿では,プロキシタスクの形式で,5種類の自己教師型手法の3次元バージョンを提案する。
提案手法は,未ラベルの3次元画像からニューラルネットワークの特徴学習を容易にし,専門家のアノテーションに必要なコストを削減することを目的としている。
開発したアルゴリズムは、3D Contrastive Predictive Coding, 3D Rotation Prediction, 3D Jigsaw puzzles, Relative 3D patch location, 3D Exemplar Networkである。
論文 参考訳(メタデータ) (2020-06-06T09:56:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。