論文の概要: T3D: Towards 3D Medical Image Understanding through Vision-Language
Pre-training
- arxiv url: http://arxiv.org/abs/2312.01529v2
- Date: Tue, 5 Dec 2023 09:01:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 12:35:57.906481
- Title: T3D: Towards 3D Medical Image Understanding through Vision-Language
Pre-training
- Title(参考訳): T3D:ビジョンランゲージによる3次元医用画像理解を目指して
- Authors: Che Liu, Cheng Ouyang, Yinda Chen, Cesar C\'esar Quilodr\'an-Casas,
Lei Ma, Jie Fu, Yike Guo, Anand Shah, Wenjia Bai, Rossella Arcucci
- Abstract要約: 我々は、高解像度の3D医療画像用に設計された最初のフレームワークであるT3Dを紹介する。
T3Dには2つのテキストインフォームド・プレテキストタスクが含まれている: (lowerromannumeral1) テキストインフォームド・コントラスト学習; (lowerromannumeral2) テキストインフォームド・イメージ復元。
T3Dは、臓器や腫瘍のセグメンテーションなどのタスクや疾患の分類において、現在のvSSLメソッドよりも大幅に優れている。
- 参考スコア(独自算出の注目度): 33.548818136506334
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Expert annotation of 3D medical image for downstream analysis is
resource-intensive, posing challenges in clinical applications. Visual
self-supervised learning (vSSL), though effective for learning visual
invariance, neglects the incorporation of domain knowledge from medicine. To
incorporate medical knowledge into visual representation learning,
vision-language pre-training (VLP) has shown promising results in 2D image.
However, existing VLP approaches become generally impractical when applied to
high-resolution 3D medical images due to GPU hardware constraints and the
potential loss of critical details caused by downsampling, which is the
intuitive solution to hardware constraints. To address the above limitations,
we introduce T3D, the first VLP framework designed for high-resolution 3D
medical images. T3D incorporates two text-informed pretext tasks:
(\lowerromannumeral{1}) text-informed contrastive learning;
(\lowerromannumeral{2}) text-informed image restoration. These tasks focus on
learning 3D visual representations from high-resolution 3D medical images and
integrating clinical knowledge from radiology reports, without distorting
information through forced alignment of downsampled volumes with detailed
anatomical text. Trained on a newly curated large-scale dataset of 3D medical
images and radiology reports, T3D significantly outperforms current vSSL
methods in tasks like organ and tumor segmentation, as well as disease
classification. This underlines T3D's potential in representation learning for
3D medical image analysis. All data and code will be available upon acceptance.
- Abstract(参考訳): 下流分析のための3次元医用画像のエキスパートアノテーションは資源集約的であり、臨床応用における課題を提起する。
visual self-supervised learning (vssl) は、視覚の不変性を学ぶのに有効であるが、医学からドメイン知識を取り入れることを無視している。
医用知識を視覚表現学習に取り入れるため,視覚言語事前学習(VLP)は2次元画像に有望な結果を示した。
しかし、GPUハードウェアの制約と、ハードウェアの制約に対する直感的な解決策であるダウンサンプリングによる重要な詳細の損失により、既存のVLPアプローチが高解像度の3D医療画像に適用されると、一般的には非現実的になる。
上記の制限に対処するため,高解像度の3D医療画像用に設計された最初のVLPフレームワークであるT3Dを紹介する。
T3Dには2つのテキストインフォームド・プレテキストタスクが含まれている: (\lowerromannumeral{1}) テキストインフォームド・コントラスト学習; (\lowerromannumeral{2}) テキストインフォームド・イメージ復元。
これらの課題は、高解像度の3次元医用画像から3次元視覚表現を学習し、詳細な解剖学的テキストによるダウンサンプルボリュームの強制アライメントを通じて情報を歪めることなく、放射線医学レポートから臨床知識を統合することに焦点を当てている。
T3Dでは、臓器や腫瘍の分節化といったタスクや疾患の分類において、現在のvSSLメソッドよりも大幅に優れています。
これは3次元医用画像解析のための表現学習におけるt3dの可能性を示す。
すべてのデータとコードは、受け入れ次第利用できる。
関連論文リスト
- PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Multi-View Vertebra Localization and Identification from CT Images [57.56509107412658]
我々は,CT画像からの多視点椎体局在と同定を提案する。
本研究では,3次元問題を異なる視点における2次元局所化および識別タスクに変換する。
本手法は,多視点グローバル情報を自然に学習することができる。
論文 参考訳(メタデータ) (2023-07-24T14:43:07Z) - Generative Text-Guided 3D Vision-Language Pretraining for Unified
Medical Image Segmentation [37.93699188912036]
統一医用画像(GTGM)のための生成テキストガイド型3Dビジョンランゲージ前処理について紹介する。
GTGMは3次元医用画像から医用テキストを生成する。
付加的な3次元医用画像パッチ間の一貫した視覚的表現を育むために、負のフリーコントラスト学習目標戦略を導入する。
論文 参考訳(メタデータ) (2023-06-07T22:20:51Z) - Multi-CLIP: Contrastive Vision-Language Pre-training for Question
Answering tasks in 3D Scenes [68.61199623705096]
一般的な言語知識と視覚概念を2次元画像から3次元シーン理解に適用するためのトレーニングモデルは、研究者が最近探求を始めたばかりの有望な方向である。
そこで本研究では,モデルによる3次元シーンポイントクラウド表現の学習を可能にする,新しい3次元事前学習手法であるMulti-CLIPを提案する。
論文 参考訳(メタデータ) (2023-06-04T11:08:53Z) - CLIP-Guided Vision-Language Pre-training for Question Answering in 3D
Scenes [68.61199623705096]
我々は,モデルが意味論的かつ伝達可能な3Dシーンポイントクラウド表現を学習するのに役立つ,新しい3D事前学習型ビジョンランゲージを設計する。
符号化された3Dシーン特徴と対応する2D画像とテキスト埋め込みとを一致させることにより、人気のあるCLIPモデルの表現力を3Dエンコーダに注入する。
我々は,3次元視覚質問応答の下流課題に対して,我々のモデルによる3次元世界推論能力を評価する。
論文 参考訳(メタデータ) (2023-04-12T16:52:29Z) - CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World
Point Cloud Data [80.42480679542697]
現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP$2$)を提案する。
具体的には、2Dおよび3Dシナリオで自然に存在する対応を利用して、それらの複雑なシナリオから、適切に整列されたインスタンスベースのテキストイメージポイントプロキシを構築します。
論文 参考訳(メタデータ) (2023-03-22T09:32:45Z) - ULIP: Learning a Unified Representation of Language, Images, and Point
Clouds for 3D Understanding [110.07170245531464]
現在の3Dモデルは、注釈付きデータの少ないデータセットと、事前に定義されたカテゴリセットによって制限されている。
近年の進歩は、言語などの他のモダリティからの知識を活用することで、同様の問題を著しく軽減できることを示している。
画像,テキスト,3次元点雲の統一表現は,3つのモードからオブジェクト三重項を事前学習することで学習する。
論文 参考訳(メタデータ) (2022-12-10T01:34:47Z) - 3D Matting: A Benchmark Study on Soft Segmentation Method for Pulmonary
Nodules Applied in Computed Tomography [32.775884701366465]
医用画像中の病変を3D領域に導入し,αマット(ソフトマスク)を用いて3D画像に病変を記述した。
この問題に対処するため,従来手法と深層学習法の両方を含む3Dマッティングの総合的研究を行った。
本稿では,最初のエンドツーエンドの3次元画像マッチングネットワークを提案し,医用3次元画像マッチングベンチマークを実装した。
論文 参考訳(メタデータ) (2022-10-11T02:40:18Z) - 3D Matting: A Soft Segmentation Method Applied in Computed Tomography [26.25446145993599]
CT、MRI、PETなどの3次元画像は、医用画像の分野では一般的であり、臨床診断において重要である。
セマンティック曖昧さは多くの医用画像ラベルの典型的な特徴である。
2次元医用画像では、画像マッチングによって生成された2次元マスクの代わりにソフトマスクを用いることで、病変を特徴づけることができる。
論文 参考訳(メタデータ) (2022-09-16T10:18:59Z) - Super Images -- A New 2D Perspective on 3D Medical Imaging Analysis [0.0]
トレーニング中に3次元知識を効率的に埋め込んで3次元データを扱うための,シンプルで効果的な2次元手法を提案する。
本手法は3次元画像にスライスを並べて超高分解能画像を生成する。
2次元ネットワークのみを利用した3次元ネットワークを実現する一方で、モデルの複雑さはおよそ3倍に減少する。
論文 参考訳(メタデータ) (2022-05-05T09:59:03Z) - 3D Self-Supervised Methods for Medical Imaging [7.65168530693281]
本稿では,プロキシタスクの形式で,5種類の自己教師型手法の3次元バージョンを提案する。
提案手法は,未ラベルの3次元画像からニューラルネットワークの特徴学習を容易にし,専門家のアノテーションに必要なコストを削減することを目的としている。
開発したアルゴリズムは、3D Contrastive Predictive Coding, 3D Rotation Prediction, 3D Jigsaw puzzles, Relative 3D patch location, 3D Exemplar Networkである。
論文 参考訳(メタデータ) (2020-06-06T09:56:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。