論文の概要: Unified Medical Image Pre-training in Language-Guided Common Semantic
Space
- arxiv url: http://arxiv.org/abs/2311.14851v1
- Date: Fri, 24 Nov 2023 22:01:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 23:07:59.533729
- Title: Unified Medical Image Pre-training in Language-Guided Common Semantic
Space
- Title(参考訳): 言語誘導コモンセマンティック空間における統一医用画像事前訓練
- Authors: Xiaoxuan He, Yifan Yang, Xinyang Jiang, Xufang Luo, Haoji Hu, Siyun
Zhao, Dongsheng Li, Yuqing Yang, Lili Qiu
- Abstract要約: 我々はUnified Medical Image Pre-Trainingフレームワーク(UniMedI)を提案する。
UniMedIは、診断レポートを一般的な意味空間として使用し、医療画像の多様なモダリティの統一表現を作成する。
10種類のデータセットにまたがる2次元画像と3次元画像の性能評価を行った。
- 参考スコア(独自算出の注目度): 41.10756702551621
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Pre-training (VLP) has shown the merits of analysing medical
images, by leveraging the semantic congruence between medical images and their
corresponding reports. It efficiently learns visual representations, which in
turn facilitates enhanced analysis and interpretation of intricate imaging
data. However, such observation is predominantly justified on single-modality
data (mostly 2D images like X-rays), adapting VLP to learning unified
representations for medical images in real scenario remains an open challenge.
This arises from medical images often encompass a variety of modalities,
especially modalities with different various number of dimensions (e.g., 3D
images like Computed Tomography). To overcome the aforementioned challenges, we
propose an Unified Medical Image Pre-training framework, namely UniMedI, which
utilizes diagnostic reports as common semantic space to create unified
representations for diverse modalities of medical images (especially for 2D and
3D images). Under the text's guidance, we effectively uncover visual modality
information, identifying the affected areas in 2D X-rays and slices containing
lesion in sophisticated 3D CT scans, ultimately enhancing the consistency
across various medical imaging modalities. To demonstrate the effectiveness and
versatility of UniMedI, we evaluate its performance on both 2D and 3D images
across 10 different datasets, covering a wide range of medical image tasks such
as classification, segmentation, and retrieval. UniMedI has demonstrated
superior performance in downstream tasks, showcasing its effectiveness in
establishing a universal medical visual representation.
- Abstract(参考訳): 視覚言語前訓練(vlp)は、医療画像とそれに対応するレポート間の意味的一致を利用して、医療画像の分析の利点を示している。
視覚表現を効率的に学習し、複雑な画像データの分析と解釈を容易にする。
しかしながら、そのような観察は、主に単一のモダリティデータ(主にX線のような2次元画像)で正当化されており、実際のシナリオにおける医用画像の統一表現の学習にVLPを適用することは、未解決の課題である。
これは医学画像から生じるもので、しばしば様々なモダリティ、特に様々な次元を持つモダリティ(例えばComputed Tomographyのような3D画像)を含んでいる。
上記の課題を克服するために、診断報告を共通意味空間として活用し、医用画像(特に2Dおよび3D画像)の多様なモダリティの統一表現を作成する統一医用画像事前訓練フレームワークUniMedIを提案する。
テキストの指導の下,視覚モダリティ情報を効果的に解明し,病変を含む2次元x線およびスライスの患部を高度3次元ctスキャンで同定し,最終的には様々な医用画像モード間の一貫性を高める。
UniMedIの有効性と汎用性を実証するため,10種類のデータセットにまたがる2次元画像と3次元画像の性能を評価し,分類,セグメンテーション,検索などの幅広い医療画像タスクを網羅した。
UniMedIは、ダウンストリームタスクにおいて優れたパフォーマンスを示し、普遍的な医用視覚表現を確立する効果を示している。
関連論文リスト
- Autoregressive Sequence Modeling for 3D Medical Image Representation [48.706230961589924]
本稿では, 自己回帰シーケンス事前学習フレームワークを用いて, 3次元医用画像表現を学習するための先駆的手法を提案する。
我々は,空間的,コントラスト的,意味的相関に基づく様々な3次元医用画像にアプローチし,トークンシーケンス内の相互接続された視覚トークンとして扱う。
論文 参考訳(メタデータ) (2024-09-13T10:19:10Z) - M3T: Multi-Modal Medical Transformer to bridge Clinical Context with Visual Insights for Retinal Image Medical Description Generation [1.8789068567093286]
Multi-Modal Medical Transformer (M3T)は、視覚表現と診断キーワードを統合する新しいディープラーニングアーキテクチャである。
DeepEyeNetデータセットに関する実験的研究は、眼科医の基準を満たす上でのM3Tの成功を検証する。
論文 参考訳(メタデータ) (2024-06-19T00:46:48Z) - CT-GLIP: 3D Grounded Language-Image Pretraining with CT Scans and Radiology Reports for Full-Body Scenarios [53.94122089629544]
我々は,CT-GLIP(Grounded Language- Image Pretraining with CT scans)を導入する。
本手法は,104臓器にわたる17,702症例を対象に,44,011例の臓器レベルの視覚テキストペアからなるマルチモーダルCTデータセットを用いて訓練し,自然言語を用いて臓器と異常をゼロショットで識別できることを実証した。
論文 参考訳(メタデータ) (2024-04-23T17:59:01Z) - DeViDe: Faceted medical knowledge for improved medical vision-language pre-training [1.6567372257085946]
胸部X線に対する視覚言語による事前訓練は、主にペアのX線写真とラジオグラフィーレポートを活用することで大きな進歩を遂げた。
オープンウェブからの無線画像記述を利用するトランスフォーマーベースのDeViDeを提案する。
DeViDeは知識強化された視覚言語アライメントの3つの重要な特徴を取り入れている。
ゼロショット設定では、DeViDeは外部データセットの完全な教師付きモデルと互換性があり、3つの大規模データセットの最先端結果を達成する。
論文 参考訳(メタデータ) (2024-04-04T17:40:06Z) - M3D: Advancing 3D Medical Image Analysis with Multi-Modal Large Language Models [49.5030774873328]
これまでの研究は主に2Dの医療画像に焦点を合わせてきた。
120K画像テキスト対と62K命令応答対からなる大規模3次元マルチモーダル医療データセットM3D-Dataを提案する。
また,新しい3次元マルチモーダル・メディカル・ベンチマークであるM3D-Benchを導入し,8つのタスクにまたがる自動評価を容易にする。
論文 参考訳(メタデータ) (2024-03-31T06:55:12Z) - QUBIQ: Uncertainty Quantification for Biomedical Image Segmentation Challenge [93.61262892578067]
医用画像分割作業の不確実性、特にラター間変動性は重要な課題である。
この可変性は、自動セグメンテーションアルゴリズムの開発と評価に直接影響を及ぼす。
バイオメディカル画像量化チャレンジ(QUBIQ)における不確実性の定量化のベンチマーク結果を報告する。
論文 参考訳(メタデータ) (2024-03-19T17:57:24Z) - Generative Text-Guided 3D Vision-Language Pretraining for Unified
Medical Image Segmentation [37.93699188912036]
統一医用画像(GTGM)のための生成テキストガイド型3Dビジョンランゲージ前処理について紹介する。
GTGMは3次元医用画像から医用テキストを生成する。
付加的な3次元医用画像パッチ間の一貫した視覚的表現を育むために、負のフリーコントラスト学習目標戦略を導入する。
論文 参考訳(メタデータ) (2023-06-07T22:20:51Z) - Multi-Modal Masked Autoencoders for Medical Vision-and-Language
Pre-Training [62.215025958347105]
マルチモーダルマスク付きオートエンコーダを用いた自己教師型学習パラダイムを提案する。
我々は、ランダムにマスキングされた画像やテキストから欠落したピクセルやトークンを再構成することで、クロスモーダルなドメイン知識を学習する。
論文 参考訳(メタデータ) (2022-09-15T07:26:43Z) - Contrastive Learning of Medical Visual Representations from Paired
Images and Text [38.91117443316013]
本研究では,自然発生した記述的ペアリングテキストを活用することで,医用視覚表現を学習するための教師なし戦略であるConVIRTを提案する。
この2つのモダリティ間の双方向のコントラスト的目的を通じて、ペア化されたテキストデータを用いて医療画像エンコーダを事前訓練する手法は、ドメインに依存しないため、追加の専門家による入力は不要である。
論文 参考訳(メタデータ) (2020-10-02T02:10:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。