論文の概要: Unified Medical Image Pre-training in Language-Guided Common Semantic
Space
- arxiv url: http://arxiv.org/abs/2311.14851v1
- Date: Fri, 24 Nov 2023 22:01:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 23:07:59.533729
- Title: Unified Medical Image Pre-training in Language-Guided Common Semantic
Space
- Title(参考訳): 言語誘導コモンセマンティック空間における統一医用画像事前訓練
- Authors: Xiaoxuan He, Yifan Yang, Xinyang Jiang, Xufang Luo, Haoji Hu, Siyun
Zhao, Dongsheng Li, Yuqing Yang, Lili Qiu
- Abstract要約: 我々はUnified Medical Image Pre-Trainingフレームワーク(UniMedI)を提案する。
UniMedIは、診断レポートを一般的な意味空間として使用し、医療画像の多様なモダリティの統一表現を作成する。
10種類のデータセットにまたがる2次元画像と3次元画像の性能評価を行った。
- 参考スコア(独自算出の注目度): 41.10756702551621
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Pre-training (VLP) has shown the merits of analysing medical
images, by leveraging the semantic congruence between medical images and their
corresponding reports. It efficiently learns visual representations, which in
turn facilitates enhanced analysis and interpretation of intricate imaging
data. However, such observation is predominantly justified on single-modality
data (mostly 2D images like X-rays), adapting VLP to learning unified
representations for medical images in real scenario remains an open challenge.
This arises from medical images often encompass a variety of modalities,
especially modalities with different various number of dimensions (e.g., 3D
images like Computed Tomography). To overcome the aforementioned challenges, we
propose an Unified Medical Image Pre-training framework, namely UniMedI, which
utilizes diagnostic reports as common semantic space to create unified
representations for diverse modalities of medical images (especially for 2D and
3D images). Under the text's guidance, we effectively uncover visual modality
information, identifying the affected areas in 2D X-rays and slices containing
lesion in sophisticated 3D CT scans, ultimately enhancing the consistency
across various medical imaging modalities. To demonstrate the effectiveness and
versatility of UniMedI, we evaluate its performance on both 2D and 3D images
across 10 different datasets, covering a wide range of medical image tasks such
as classification, segmentation, and retrieval. UniMedI has demonstrated
superior performance in downstream tasks, showcasing its effectiveness in
establishing a universal medical visual representation.
- Abstract(参考訳): 視覚言語前訓練(vlp)は、医療画像とそれに対応するレポート間の意味的一致を利用して、医療画像の分析の利点を示している。
視覚表現を効率的に学習し、複雑な画像データの分析と解釈を容易にする。
しかしながら、そのような観察は、主に単一のモダリティデータ(主にX線のような2次元画像)で正当化されており、実際のシナリオにおける医用画像の統一表現の学習にVLPを適用することは、未解決の課題である。
これは医学画像から生じるもので、しばしば様々なモダリティ、特に様々な次元を持つモダリティ(例えばComputed Tomographyのような3D画像)を含んでいる。
上記の課題を克服するために、診断報告を共通意味空間として活用し、医用画像(特に2Dおよび3D画像)の多様なモダリティの統一表現を作成する統一医用画像事前訓練フレームワークUniMedIを提案する。
テキストの指導の下,視覚モダリティ情報を効果的に解明し,病変を含む2次元x線およびスライスの患部を高度3次元ctスキャンで同定し,最終的には様々な医用画像モード間の一貫性を高める。
UniMedIの有効性と汎用性を実証するため,10種類のデータセットにまたがる2次元画像と3次元画像の性能を評価し,分類,セグメンテーション,検索などの幅広い医療画像タスクを網羅した。
UniMedIは、ダウンストリームタスクにおいて優れたパフォーマンスを示し、普遍的な医用視覚表現を確立する効果を示している。
関連論文リスト
- Mining Gaze for Contrastive Learning toward Computer-Assisted Diagnosis [61.089776864520594]
医用画像のテキストレポートの代替としてアイトラッキングを提案する。
医用画像を読み,診断する際に放射線科医の視線を追跡することにより,その視覚的注意と臨床的理由を理解することができる。
対照的な学習フレームワークのためのプラグイン・アンド・プレイモジュールとして,McGIP (McGIP) を導入した。
論文 参考訳(メタデータ) (2023-12-11T02:27:45Z) - EAFP-Med: An Efficient Adaptive Feature Processing Module Based on
Prompts for Medical Image Detection [27.783012550610387]
領域間適応型医用画像検出は、様々な医用画像技術における病変表現の違いにより困難である。
医用画像検出のためのプロンプトに基づく効率的な適応的特徴処理モジュールであるEAFP-Medを提案する。
EAFP-Medは、プロンプトに基づいて様々な医用画像から病変の特徴を効率的に抽出し、モデルの性能を高めることができる。
論文 参考訳(メタデータ) (2023-11-27T05:10:15Z) - Medical Image Retrieval Using Pretrained Embeddings [0.6827423171182154]
トレーニングや微調整の必要なく,事前訓練ネットワークを用いて医用画像検索を行うことが可能であることを示す。
プレトレーニングを施した埋込装置を用いて, 運動量, 身体領域, 臓器レベルでの様々なタスクに対する1のリコールを達成した。
論文 参考訳(メタデータ) (2023-11-22T17:42:33Z) - C^2M-DoT: Cross-modal consistent multi-view medical report generation
with domain transfer network [67.97926983664676]
ドメイン転送ネットワーク(C2M-DoT)を用いたクロスモーダルなマルチビュー医療レポート生成を提案する。
C2M-DoTは、すべてのメトリクスで最先端のベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2023-10-09T02:31:36Z) - Exploring Transfer Learning in Medical Image Segmentation using
Vision-Language Models [0.9324036842528547]
本稿では,VLSMの2次元医用画像への変換学習に関する最初のベンチマーク研究について述べる。
以上の結果から,VLSMは自然画像とテキストのペアで訓練され,ゼロショット設定で医療領域に合理的に移行することが示唆された。
しかし、微調整中の言語プロンプトのさらなる利点は限られているかもしれない。
論文 参考訳(メタデータ) (2023-08-15T11:28:21Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Generative Text-Guided 3D Vision-Language Pretraining for Unified
Medical Image Segmentation [37.93699188912036]
統一医用画像(GTGM)のための生成テキストガイド型3Dビジョンランゲージ前処理について紹介する。
GTGMは3次元医用画像から医用テキストを生成する。
付加的な3次元医用画像パッチ間の一貫した視覚的表現を育むために、負のフリーコントラスト学習目標戦略を導入する。
論文 参考訳(メタデータ) (2023-06-07T22:20:51Z) - Align, Reason and Learn: Enhancing Medical Vision-and-Language
Pre-training with Knowledge [68.90835997085557]
本稿では,3つの視点から構造化された医療知識を高めるための体系的かつ効果的なアプローチを提案する。
まず、視覚エンコーダと言語エンコーダの表現を知識を通して整列する。
次に,多モード融合モデルに知識を注入し,入力画像とテキストの補足として知識を用いた推論を可能にする。
第3に、知識によって引き起こされるプレテキストタスクを設計することで、画像やテキストの最も重要な情報に重点を置くよう、モデルを指導する。
論文 参考訳(メタデータ) (2022-09-15T08:00:01Z) - Multi-Modal Masked Autoencoders for Medical Vision-and-Language
Pre-Training [62.215025958347105]
マルチモーダルマスク付きオートエンコーダを用いた自己教師型学習パラダイムを提案する。
我々は、ランダムにマスキングされた画像やテキストから欠落したピクセルやトークンを再構成することで、クロスモーダルなドメイン知識を学習する。
論文 参考訳(メタデータ) (2022-09-15T07:26:43Z) - Contrastive Learning of Medical Visual Representations from Paired
Images and Text [38.91117443316013]
本研究では,自然発生した記述的ペアリングテキストを活用することで,医用視覚表現を学習するための教師なし戦略であるConVIRTを提案する。
この2つのモダリティ間の双方向のコントラスト的目的を通じて、ペア化されたテキストデータを用いて医療画像エンコーダを事前訓練する手法は、ドメインに依存しないため、追加の専門家による入力は不要である。
論文 参考訳(メタデータ) (2020-10-02T02:10:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。