論文の概要: CXR-CLIP: Toward Large Scale Chest X-ray Language-Image Pre-training
- arxiv url: http://arxiv.org/abs/2310.13292v1
- Date: Fri, 20 Oct 2023 05:44:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 00:17:07.369207
- Title: CXR-CLIP: Toward Large Scale Chest X-ray Language-Image Pre-training
- Title(参考訳): CXR-CLIP:大規模胸部X線言語画像事前学習に向けて
- Authors: Kihyun You, Jawook Gu, Jiyeon Ham, Beomhee Park, Jiho Kim, Eun Kyoung
Hong, Woonhyunk Baek, Byungseok Roh
- Abstract要約: 本稿では,胸部X線における画像テキストデータの欠如に対処し,画像テキストペアを一般プロンプトを介して画像テキストペアとして拡張する。
また,医学画像とレポートの学習レベルの特徴を学習するために,ICLとTCLという2つの対照的な損失を設計した。
我々のモデルは、同じ条件下で訓練された最先端モデルよりも優れています。
- 参考スコア(独自算出の注目度): 6.292642131180376
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A large-scale image-text pair dataset has greatly contributed to the
development of vision-language pre-training (VLP) models, which enable
zero-shot or few-shot classification without costly annotation. However, in the
medical domain, the scarcity of data remains a significant challenge for
developing a powerful VLP model. In this paper, we tackle the lack of
image-text data in chest X-ray by expanding image-label pair as image-text pair
via general prompt and utilizing multiple images and multiple sections in a
radiologic report. We also design two contrastive losses, named ICL and TCL,
for learning study-level characteristics of medical images and reports,
respectively. Our model outperforms the state-of-the-art models trained under
the same conditions. Also, enlarged dataset improve the discriminative power of
our pre-trained model for classification, while sacrificing marginal retrieval
performance. Code is available at https://github.com/kakaobrain/cxr-clip.
- Abstract(参考訳): 大規模な画像テキストペアデータセットは視覚言語事前学習(vlp)モデルの開発に大きく貢献しており、コストのかかるアノテーションなしでゼロショットまたは少数ショットの分類を可能にする。
しかし、医療分野では、強力なVLPモデルを開発する上で、データの不足は依然として大きな課題である。
本稿では,胸部X線における画像テキストデータの欠如に対処するため,画像ラベルペアを一般的なプロンプトを介して画像テキストペアとして拡張し,複数の画像と複数のセクションをラジオグラフィーレポートで活用する。
また,医療画像と報告の学習レベルの特性を学習するために,iclとtclという2つの対照損失をデザインした。
我々のモデルは、同じ条件下で訓練された最先端モデルよりも優れています。
また,事前学習した分類モデルの識別能力を向上させるとともに,限界検索性能を犠牲にする。
コードはhttps://github.com/kakaobrain/cxr-clipで入手できる。
関連論文リスト
- XLIP: Cross-modal Attention Masked Modelling for Medical Language-Image Pre-Training [29.02600107837688]
視覚と言語による事前学習は、画像とテキストのペアにおける対照的な学習を用いて、タスク間の効果的な伝達を実現する。
現在のモデルは、医療データの不足により、重要な病理的特徴を正確に再構築するのに苦労している。
本稿では,XLIP(Masked modelling for Medical Language-Image Pre-Training)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-28T17:38:21Z) - Self-supervised vision-langage alignment of deep learning representations for bone X-rays analysis [53.809054774037214]
本稿では, 骨X線とフレンチレポートを組み合わせることで, 視覚言語による事前訓練を活用することを提案する。
骨X線表現にまつわる埋め込み空間を形成するために、フランスの報告を統合する最初の研究である。
論文 参考訳(メタデータ) (2024-05-14T19:53:20Z) - Performance of GAN-based augmentation for deep learning COVID-19 image
classification [57.1795052451257]
ディープラーニングを医療分野に適用する上で最大の課題は、トレーニングデータの提供である。
データ拡張は、限られたデータセットに直面した時に機械学習で使用される典型的な方法論である。
本研究は, 新型コロナウイルスの胸部X線画像セットを限定して, StyleGAN2-ADAモデルを用いて訓練するものである。
論文 参考訳(メタデータ) (2023-04-18T15:39:58Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Self-Supervised Curricular Deep Learning for Chest X-Ray Image
Classification [1.6631602844999727]
Self-Supervised Learning Pretrainingは、ImageNetでスクラッチからトレーニングされたモデル、あるいは事前トレーニングされたモデルのパフォーマンスを向上する。
SSL-pretrained モデルは肺の領域において高い注意力を示す。
論文 参考訳(メタデータ) (2023-01-25T16:45:13Z) - Generative Negative Text Replay for Continual Vision-Language
Pretraining [95.2784858069843]
視覚言語による事前学習が近年注目を集めている。
大量のデータは、通常ストリーミング形式で収集される。
本稿では,画像とテキスト間のマルチモーダルな知識蒸留手法を提案する。
論文 参考訳(メタデータ) (2022-10-31T13:42:21Z) - RadTex: Learning Efficient Radiograph Representations from Text Reports [7.090896766922791]
我々は,放射線学報告を利用して,限られたラベル付きデータを用いた医用画像分類性能を向上させるための,データ効率のよい学習フレームワークを構築した。
本モデルは,ラベル付きトレーニングデータに制限がある場合,ImageNetによる事前学習よりも高い分類性能を実現する。
論文 参考訳(メタデータ) (2022-08-05T15:06:26Z) - Self-supervised Image-text Pre-training With Mixed Data In Chest X-rays [10.398175542736285]
混合データ入力から学習できる画像テキスト事前学習フレームワークを紹介します。
混合データ入力における事前学習の可能性を示す。
また、3つの胸部x線アプリケーションに事前訓練されたモデルを適用する利点についても述べる。
論文 参考訳(メタデータ) (2021-03-30T01:48:46Z) - Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for
Thoracic Disease Identification [83.6017225363714]
ディープラーニングは、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。
胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。
本論文では、単一モデルにおける疾患同定性能を改善するために、複数対1の分布学習(MODL)とK-nearest neighbor smoothing(KNNS)手法を提案する。
論文 参考訳(メタデータ) (2021-02-26T02:29:30Z) - Self-Training with Improved Regularization for Sample-Efficient Chest
X-Ray Classification [80.00316465793702]
挑戦的なシナリオで堅牢なモデリングを可能にするディープラーニングフレームワークを提案する。
その結果,85%のラベル付きデータを用いて,大規模データ設定で学習した分類器の性能に適合する予測モデルを構築することができた。
論文 参考訳(メタデータ) (2020-05-03T02:36:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。