論文の概要: Significantly improving zero-shot X-ray pathology classification via
fine-tuning pre-trained image-text encoders
- arxiv url: http://arxiv.org/abs/2212.07050v1
- Date: Wed, 14 Dec 2022 06:04:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 14:44:50.951003
- Title: Significantly improving zero-shot X-ray pathology classification via
fine-tuning pre-trained image-text encoders
- Title(参考訳): 微調整事前学習画像テキストエンコーダによるゼロショットX線病理分類の改善
- Authors: Jongseong Jang, Daeun Kyung, Seung Hwan Kim, Honglak Lee, Kyunghoon
Bae, Edward Choi
- Abstract要約: 下流のゼロショット病理分類性能を改善するために,文サンプリングと正対損失緩和に基づく新たな微調整手法を提案する。
4種類の胸部X線データセットを用いてゼロショット病理分類性能を劇的に改善した。
- 参考スコア(独自算出の注目度): 51.14431540035141
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Deep neural networks have been successfully adopted to diverse domains
including pathology classification based on medical images. However,
large-scale and high-quality data to train powerful neural networks are rare in
the medical domain as the labeling must be done by qualified experts.
Researchers recently tackled this problem with some success by taking advantage
of models pre-trained on large-scale general domain data. Specifically,
researchers took contrastive image-text encoders (e.g., CLIP) and fine-tuned it
with chest X-ray images and paired reports to perform zero-shot pathology
classification, thus completely removing the need for pathology-annotated
images to train a classification model. Existing studies, however, fine-tuned
the pre-trained model with the same contrastive learning objective, and failed
to exploit the multi-labeled nature of medical image-report pairs. In this
paper, we propose a new fine-tuning strategy based on sentence sampling and
positive-pair loss relaxation for improving the downstream zero-shot pathology
classification performance, which can be applied to any pre-trained contrastive
image-text encoders. Our method consistently showed dramatically improved
zero-shot pathology classification performance on four different chest X-ray
datasets and 3 different pre-trained models (5.77% average AUROC increase). In
particular, fine-tuning CLIP with our method showed much comparable or
marginally outperformed to board-certified radiologists (0.619 vs 0.625 in F1
score and 0.530 vs 0.544 in MCC) in zero-shot classification of five prominent
diseases from the CheXpert dataset.
- Abstract(参考訳): 深層ニューラルネットワークは医療画像に基づく病理分類を含む多様な領域でうまく採用されている。
しかしながら、強力なニューラルネットワークをトレーニングする大規模かつ高品質なデータは、認定専門家がラベル付けを行う必要があるため、医療領域ではまれである。
研究者は最近、大規模な汎用ドメインデータで事前訓練されたモデルを活用することで、この問題にいくつかの成功を収めた。
具体的には、コントラストのある画像テキストエンコーダ(例えばCLIP)を胸部X線画像で微調整し、ゼロショットの病理分類を行うためにレポートをペアにした。
しかし、既存の研究では、同じ対照的な学習目標で訓練済みモデルを微調整し、医用画像-レポートペアのマルチラベルの性質を活用できなかった。
本稿では, 文章サンプリングと正のペア損失緩和に基づく新しい微調整戦略を提案し, 学習済みコントラスト画像テキストエンコーダに適用可能な下流ゼロショット病理分類性能を向上させる。
4種類の胸部X線データセットと3種類の事前訓練モデル(平均AUROC増加率5.77%)でゼロショット病理分類性能を継続的に改善した。
特に細調整CLIPは,CheXpertデータセットから5つの顕著な疾患のゼロショット分類において,0.619 vs 0.625 in F1 score, 0.530 vs 0.544 in MCC)に比較して非常に優れていた。
関連論文リスト
- Performance of GAN-based augmentation for deep learning COVID-19 image
classification [57.1795052451257]
ディープラーニングを医療分野に適用する上で最大の課題は、トレーニングデータの提供である。
データ拡張は、限られたデータセットに直面した時に機械学習で使用される典型的な方法論である。
本研究は, 新型コロナウイルスの胸部X線画像セットを限定して, StyleGAN2-ADAモデルを用いて訓練するものである。
論文 参考訳(メタデータ) (2023-04-18T15:39:58Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - COVID-19 Severity Classification on Chest X-ray Images [0.0]
本研究は,感染の重症度に基づいて画像の分類を行う。
ResNet-50モデルは精度95%、リコール(0.94)、F1スコア(0.92)、精度(0.91)で顕著な分類結果を得た。
論文 参考訳(メタデータ) (2022-05-25T12:01:03Z) - Application of Transfer Learning and Ensemble Learning in Image-level
Classification for Breast Histopathology [9.037868656840736]
CAD(Computer-Aided Diagnosis)では、従来の分類モデルでは、主に1つのネットワークを使って特徴を抽出する。
本稿では良性病変と悪性病変のバイナリ分類のための画像レベルラベルに基づく深層アンサンブルモデルを提案する。
結果: アンサンブルネットワークモデルにおいて、画像レベルのバイナリ分類は9,8.90%の精度を達成する。
論文 参考訳(メタデータ) (2022-04-18T13:31:53Z) - Vision Transformers for femur fracture classification [59.99241204074268]
Vision Transformer (ViT) はテスト画像の83%を正確に予測することができた。
史上最大かつ最もリッチなデータセットを持つサブフラクチャーで良い結果が得られた。
論文 参考訳(メタデータ) (2021-08-07T10:12:42Z) - Transfer Learning with Ensembles of Deep Neural Networks for Skin Cancer
Classification in Imbalanced Data Sets [0.6802401545890961]
医療画像から皮膚癌を正確に分類するための機械学習技術が報告されている。
多くのテクニックは、訓練済みの畳み込みニューラルネットワーク(CNN)に基づいており、限られたトレーニングデータに基づいてモデルをトレーニングすることができる。
本稿では,複数のcnnモデルが事前学習され,一部は手元のデータのみにトレーニングされ,患者情報(メタデータ)はメタリーナーを用いて結合される,新しいアンサンブルベースのcnnアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-03-22T06:04:45Z) - Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for
Thoracic Disease Identification [83.6017225363714]
ディープラーニングは、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。
胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。
本論文では、単一モデルにおける疾患同定性能を改善するために、複数対1の分布学習(MODL)とK-nearest neighbor smoothing(KNNS)手法を提案する。
論文 参考訳(メタデータ) (2021-02-26T02:29:30Z) - Metastatic Cancer Image Classification Based On Deep Learning Method [7.832709940526033]
画像分類におけるディープラーニングアルゴリズム, DenseNet169 フレームワーク, Rectified Adam 最適化アルゴリズムを併用したNoval法を提案する。
我々のモデルは、Vgg19、Resnet34、Resnet50のような他の古典的畳み込みニューラルネットワークアプローチよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2020-11-13T16:04:39Z) - A Deep Learning Study on Osteosarcoma Detection from Histological Images [6.341765152919201]
最も一般的な悪性骨腫瘍は骨肉腫である。
CNNは、外科医の作業量を著しく減らし、患者の状態の予後を良くする。
CNNは、より信頼できるパフォーマンスを達成するために、大量のデータをトレーニングする必要があります。
論文 参考訳(メタデータ) (2020-11-02T18:16:17Z) - Multi-label Thoracic Disease Image Classification with Cross-Attention
Networks [65.37531731899837]
胸部X線画像から胸部疾患を自動分類するためのCAN(Cross-Attention Networks)を提案する。
また,クロスエントロピー損失を超える新たな損失関数を設計し,クラス間の不均衡を克服する。
論文 参考訳(メタデータ) (2020-07-21T14:37:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。