論文の概要: Contrastive Learning of Medical Visual Representations from Paired
Images and Text
- arxiv url: http://arxiv.org/abs/2010.00747v2
- Date: Mon, 19 Sep 2022 20:20:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 00:23:25.306703
- Title: Contrastive Learning of Medical Visual Representations from Paired
Images and Text
- Title(参考訳): ペア画像とテキストからの医用視覚表現のコントラスト学習
- Authors: Yuhao Zhang, Hang Jiang, Yasuhide Miura, Christopher D. Manning,
Curtis P. Langlotz
- Abstract要約: 本研究では,自然発生した記述的ペアリングテキストを活用することで,医用視覚表現を学習するための教師なし戦略であるConVIRTを提案する。
この2つのモダリティ間の双方向のコントラスト的目的を通じて、ペア化されたテキストデータを用いて医療画像エンコーダを事前訓練する手法は、ドメインに依存しないため、追加の専門家による入力は不要である。
- 参考スコア(独自算出の注目度): 38.91117443316013
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning visual representations of medical images (e.g., X-rays) is core to
medical image understanding but its progress has been held back by the scarcity
of human annotations. Existing work commonly relies on fine-tuning weights
transferred from ImageNet pretraining, which is suboptimal due to drastically
different image characteristics, or rule-based label extraction from the
textual report data paired with medical images, which is inaccurate and hard to
generalize. Meanwhile, several recent studies show exciting results from
unsupervised contrastive learning from natural images, but we find these
methods help little on medical images because of their high inter-class
similarity. We propose ConVIRT, an alternative unsupervised strategy to learn
medical visual representations by exploiting naturally occurring paired
descriptive text. Our new method of pretraining medical image encoders with the
paired text data via a bidirectional contrastive objective between the two
modalities is domain-agnostic, and requires no additional expert input. We test
ConVIRT by transferring our pretrained weights to 4 medical image
classification tasks and 2 zero-shot retrieval tasks, and show that it leads to
image representations that considerably outperform strong baselines in most
settings. Notably, in all 4 classification tasks, our method requires only 10\%
as much labeled training data as an ImageNet initialized counterpart to achieve
better or comparable performance, demonstrating superior data efficiency.
- Abstract(参考訳): 医用画像(例えばX線)の視覚的表現の学習は、医用画像理解のコアとなるが、その進歩は人間のアノテーションの不足に支えられている。
既存の作業では、イメージネットプリトレーニングから転送される微調整重み(画像特性が大きく異なるため最適ではない)や、不正確で一般化が難しい医療画像とペアリングされたテキストレポートデータからの規則に基づくラベル抽出が一般的である。
一方、近年の研究では、自然画像からの教師なしのコントラスト学習によるエキサイティングな結果が示されているが、これらの手法は、クラス間の類似度が高いため、医療画像にはほとんど役に立たない。
本研究では,自然発生のペア記述テキストを活用することで,医用視覚表現を学習するための代替手法であるConVIRTを提案する。
この2つのモダリティ間の双方向のコントラスト的目的を通じて、ペア化されたテキストデータを用いて医療画像エンコーダを事前訓練する手法は、ドメインに依存しない。
トレーニング済みの重みを4つの医用画像分類タスクと2つのゼロショット検索タスクに転送することで、ConVIRTをテストする。
特に,すべての4つの分類タスクにおいて,画像ネットの初期化データとラベル付きトレーニングデータの10%しか必要とせず,優れた性能と同等の性能を実現し,優れたデータ効率を示す。
関連論文リスト
- Autoregressive Sequence Modeling for 3D Medical Image Representation [48.706230961589924]
本稿では, 自己回帰シーケンス事前学習フレームワークを用いて, 3次元医用画像表現を学習するための先駆的手法を提案する。
我々は,空間的,コントラスト的,意味的相関に基づく様々な3次元医用画像にアプローチし,トークンシーケンス内の相互接続された視覚トークンとして扱う。
論文 参考訳(メタデータ) (2024-09-13T10:19:10Z) - Mining Gaze for Contrastive Learning toward Computer-Assisted Diagnosis [61.089776864520594]
医用画像のテキストレポートの代替としてアイトラッキングを提案する。
医用画像を読み,診断する際に放射線科医の視線を追跡することにより,その視覚的注意と臨床的理由を理解することができる。
対照的な学習フレームワークのためのプラグイン・アンド・プレイモジュールとして,McGIP (McGIP) を導入した。
論文 参考訳(メタデータ) (2023-12-11T02:27:45Z) - Unified Medical Image-Text-Label Contrastive Learning With Continuous
Prompt [3.218449686637963]
本稿では,連続的なプロンプトに基づく画像-テキスト-ラベルのコントラスト学習フレームワークを提案する。
我々は,Unified Medical Contrastive Learningフレームワークが下流のタスクに優れた性能を示すことを示す十分な実験を通して実証する。
論文 参考訳(メタデータ) (2023-07-12T05:19:10Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Metadata-enhanced contrastive learning from retinal optical coherence tomography images [7.932410831191909]
従来のコントラストフレームワークを新しいメタデータ強化戦略で拡張する。
本手法では,画像間のコントラスト関係の真のセットを近似するために,患者メタデータを広く活用する。
提案手法は、6つの画像レベル下流タスクのうち5つにおいて、標準コントラスト法と網膜画像基盤モデルの両方に優れる。
論文 参考訳(メタデータ) (2022-08-04T08:53:15Z) - Joint Learning of Localized Representations from Medical Images and
Reports [0.0]
そこで我々は,視覚とテキスト(LoVT)からの局所化表現学習を提案し,局所化医療画像タスクを目標とした。
本手法は,画像領域の局所的コントラスト学習とインスタンスレベルのコントラスト学習を組み合わせ,文表現を報告する。
LoVTは研究対象のタスクのうち11つで最善を尽くし、ローカライズされたタスクの選択方法として好まれる。
論文 参考訳(メタデータ) (2021-12-06T09:27:24Z) - Positional Contrastive Learning for Volumetric Medical Image
Segmentation [13.086140606803408]
コントラストデータペアを生成するための新しい位置コントラスト学習フレームワークを提案する。
提案手法は,半教師付き設定と移動学習の両方において既存の手法と比較して,セグメンテーション性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2021-06-16T22:15:28Z) - Semantic Segmentation with Generative Models: Semi-Supervised Learning
and Strong Out-of-Domain Generalization [112.68171734288237]
本論文では,画像とラベルの再生モデルを用いた識別画素レベルのタスクのための新しいフレームワークを提案する。
我々は,共同画像ラベルの分布を捕捉し,未ラベル画像の大規模な集合を用いて効率的に訓練する生成的対向ネットワークを学習する。
ドメイン内性能をいくつかのベースラインと比較し,ドメイン外一般化を極端に示す最初の例である。
論文 参考訳(メタデータ) (2021-04-12T21:41:25Z) - Discriminative Cross-Modal Data Augmentation for Medical Imaging
Applications [24.06277026586584]
深層学習法は医用画像解析において大きな成功を収めており、訓練には多くの医用画像が必要である。
データプライバシの懸念と医療アノテータの有効性のため、モデルトレーニングのためにラベル付き医療画像を得るのは非常に困難であることが多い。
本稿では,画像のソースモダリティを目標モダリティに変換する画像対画像変換モデルを提案する。
論文 参考訳(メタデータ) (2020-10-07T15:07:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。