論文の概要: PMC-CLIP: Contrastive Language-Image Pre-training using Biomedical
Documents
- arxiv url: http://arxiv.org/abs/2303.07240v1
- Date: Mon, 13 Mar 2023 16:13:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-14 14:06:08.752511
- Title: PMC-CLIP: Contrastive Language-Image Pre-training using Biomedical
Documents
- Title(参考訳): PMC-CLIP:バイオメディカルドキュメンテーションを用いたコントラスト言語画像事前学習
- Authors: Weixiong Lin, Ziheng Zhao, Xiaoman Zhang, Chaoyi Wu, Ya Zhang, Yanfeng
Wang, Weidi Xie
- Abstract要約: PMC-OAは,PubMedCentralのOpenAccessサブセットから1.6Mイメージキャプチャペアを収集したバイオメディカルデータセットである。
PMC-OAは様々なモダリティや病気をカバーしており、ほとんどの画像キャプチャーサンプルはよりきめ細かいレベルで調整されている。
PMC-OA上でCLIPスタイルのモデルを事前学習しながら、PMC-CLIPと呼ばれるモデルが、様々なダウンストリームタスクで最先端の結果を得る。
- 参考スコア(独自算出の注目度): 35.64805788623848
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Foundation models trained on large-scale dataset gain a recent surge in CV
and NLP. In contrast, development in biomedical domain lags far behind due to
data scarcity. To address this issue, we build and release PMC-OA, a biomedical
dataset with 1.6M image-caption pairs collected from PubMedCentral's OpenAccess
subset, which is 8 times larger than before. PMC-OA covers diverse modalities
or diseases, with majority of the image-caption samples aligned at
finer-grained level, i.e., subfigure and subcaption. While pretraining a
CLIP-style model on PMC-OA, our model named PMC-CLIP achieves state-of-the-art
results on various downstream tasks, including image-text retrieval on ROCO,
MedMNIST image classification, Medical VQA, i.e. +8.1% R@10 on image-text
retrieval, +3.9% accuracy on image classification.
- Abstract(参考訳): 大規模データセットでトレーニングされたファンデーションモデルは、最近CVとNLPが急増している。
対照的に、生体医学領域の開発はデータの不足のため、はるかに遅れている。
この問題に対処するため,PubMedCentralのOpenAccessサブセットから収集した1.6Mイメージキャプチャペアを備えたバイオメディカルデータセットであるPMC-OAを構築し,リリースする。
PMC-OAは様々なモダリティや病気をカバーしており、画像キャプチャーのサンプルのほとんどは細粒度、すなわちサブフィギュアとサブキャプションに配列している。
PMC-OA上でCLIPスタイルのモデルを事前学習している間、PMC-CLIPと呼ばれるモデルでは、ROCO上の画像テキスト検索、MedMNIST画像分類、医療用VQA、画像テキスト検索における8.1% R@10、画像分類における3.9%の精度など、様々なダウンストリームタスクに対して最先端の結果が得られる。
関連論文リスト
- Enhancing Multimodal Medical Image Classification using Cross-Graph Modal Contrastive Learning [5.660131312162423]
本稿では,マルチモーダルな医用画像分類のためのクロスグラフ・モーダルコントラスト学習フレームワークを提案する。
提案手法は、パーキンソン病(PD)データセットと公共メラノーマデータセットの2つのデータセットで評価される。
以上の結果から,CGMCLは従来手法よりも精度,解釈可能性,早期疾患予測に優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-10-23T01:25:25Z) - LoGra-Med: Long Context Multi-Graph Alignment for Medical Vision-Language Model [55.80651780294357]
最新の医療用マルチモーダル大規模言語モデル(med-MLLM)は、事前訓練において命令追従データを活用する。
LoGra-Medは新しいマルチグラフアライメントアルゴリズムで、画像のモダリティ、会話ベースの記述、拡張キャプション間でのトリプルト相関を強制する。
以上の結果から,LoGra-Medは医療用VQAの600K画像テキスト対に対してLAVA-Medと一致し,その10%でトレーニングした場合に有意に優れていた。
論文 参考訳(メタデータ) (2024-10-03T15:52:03Z) - ROCOv2: Radiology Objects in COntext Version 2, an Updated Multimodal Image Dataset [4.382166835379353]
本稿では,放射線画像と関連する医療概念とキャプションからなるマルチモーダルデータセットである,COntext version 2 (ROCOv2)について紹介する。
2018年に公開されたROCOデータセットの更新版であり、2018年以来、PMCに35,705の新しいイメージが追加されている。
このデータセットは79,789枚の画像で構成され、ImageCLEFmedical Caption 2023のコンセプト検出とキャプション予測タスクにおいて、小さな修正が加えられている。
論文 参考訳(メタデータ) (2024-05-16T11:44:35Z) - PE-MVCNet: Multi-view and Cross-modal Fusion Network for Pulmonary Embolism Prediction [4.659998272408215]
肺塞栓症(PE)の早期発見は、患者の生存率を高めるために重要である。
PE-MVCNetとよばれる多モード核融合法を提案する。
提案モデルは既存の手法より優れており, 単一のデータモダリティを用いたモデルと比較して, マルチモーダル融合モデルの方が優れていることを裏付けるものである。
論文 参考訳(メタデータ) (2024-02-27T03:53:27Z) - CXR-CLIP: Toward Large Scale Chest X-ray Language-Image Pre-training [6.292642131180376]
本稿では,胸部X線における画像テキストデータの欠如に対処し,画像テキストペアを一般プロンプトを介して画像テキストペアとして拡張する。
また,医学画像とレポートの学習レベルの特徴を学習するために,ICLとTCLという2つの対照的な損失を設計した。
我々のモデルは、同じ条件下で訓練された最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2023-10-20T05:44:55Z) - Disruptive Autoencoders: Leveraging Low-level features for 3D Medical
Image Pre-training [51.16994853817024]
本研究は、3Dラジオグラフィ画像のための効果的な事前学習フレームワークの設計に焦点をあてる。
ローカルマスキングと低レベルの摂動の組み合わせによって生成された破壊から、オリジナルのイメージを再構築しようとする事前トレーニングフレームワークであるDisruptive Autoencodersを紹介する。
提案する事前トレーニングフレームワークは、複数のダウンストリームタスクでテストされ、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-07-31T17:59:42Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - AMIGO: Sparse Multi-Modal Graph Transformer with Shared-Context
Processing for Representation Learning of Giga-pixel Images [53.29794593104923]
本稿では,スライド病理像全体に対する共有コンテキスト処理の新たな概念を提案する。
AMIGOは、組織内のセルラーグラフを使用して、患者に単一の表現を提供する。
我々のモデルは、データの20%以下で同じ性能を達成できる程度に、欠落した情報に対して強い堅牢性を示す。
論文 参考訳(メタデータ) (2023-03-01T23:37:45Z) - RAMM: Retrieval-augmented Biomedical Visual Question Answering with
Multi-modal Pre-training [45.38823400370285]
ヴィジュアル・アンド・ランゲージ・マルチモーダル事前学習と微調整は視覚的質問応答(VQA)において大きな成功を収めた。
本稿では, バイオメディカルVQAのためのRAMMという, 事前学習とファイントゥン検索のパラダイムを提案する。
論文 参考訳(メタデータ) (2023-03-01T14:21:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。