論文の概要: Freeze the backbones: A Parameter-Efficient Contrastive Approach to
Robust Medical Vision-Language Pre-training
- arxiv url: http://arxiv.org/abs/2401.01179v1
- Date: Tue, 2 Jan 2024 12:14:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 13:59:50.361475
- Title: Freeze the backbones: A Parameter-Efficient Contrastive Approach to
Robust Medical Vision-Language Pre-training
- Title(参考訳): 背骨凍結:ロバストな医用視力訓練のためのパラメータ効率の良いコントラストアプローチ
- Authors: Jiuming Qin, Che Liu, Sibo Cheng, Yike Guo, Rossella Arcucci
- Abstract要約: 本稿では,事前に訓練した画像やテキストエンコーダの医療知識を凍結保存して保存するバックボーン非依存型適応フレームワークを提案する。
当社のフレームワークは,既存の事前トレーニングアプローチと比較して,トレーニング可能なパラメータを90%以上削減しながら,競争力のあるパフォーマンスを実現しています。
- 参考スコア(独自算出の注目度): 15.790435273150083
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern healthcare often utilises radiographic images alongside textual
reports for diagnostics, encouraging the use of Vision-Language Self-Supervised
Learning (VL-SSL) with large pre-trained models to learn versatile medical
vision representations. However, most existing VL-SSL frameworks are trained
end-to-end, which is computation-heavy and can lose vital prior information
embedded in pre-trained encoders. To address both issues, we introduce the
backbone-agnostic Adaptor framework, which preserves medical knowledge in
pre-trained image and text encoders by keeping them frozen, and employs a
lightweight Adaptor module for cross-modal learning. Experiments on medical
image classification and segmentation tasks across three datasets reveal that
our framework delivers competitive performance while cutting trainable
parameters by over 90% compared to current pre-training approaches. Notably,
when fine-tuned with just 1% of data, Adaptor outperforms several
Transformer-based methods trained on full datasets in medical image
segmentation.
- Abstract(参考訳): 現代の医療は、診断のためのテキストレポートと共に放射線画像を利用することが多く、多彩な医用視覚表現を学ぶために、大きな訓練済みモデルでビジョンランゲージ自己監督学習(VL-SSL)を使用することを奨励している。
しかし、既存のVL-SSLフレームワークのほとんどはエンドツーエンドで訓練されており、計算量が多く、事前訓練されたエンコーダに埋め込まれた重要な事前情報を失う可能性がある。
どちらの問題にも対処すべく,プリトレーニング画像とテキストエンコーダの医療知識を凍結して保存するbackbone-dependent adaptor frameworkを導入し,クロスモーダル学習に軽量なadaptorモジュールを採用している。
3つのデータセットにわたる医用画像分類とセグメンテーションタスクの実験により、現在のプレトレーニングアプローチと比較して、トレーニング可能なパラメータを90%以上削減しながら、競争力の高いパフォーマンスを実現することが判明した。
特に、わずか1%のデータで微調整された場合、Adaptorは、医療画像セグメンテーションの完全なデータセットでトレーニングされたTransformerベースのメソッドよりも優れている。
関連論文リスト
- Disruptive Autoencoders: Leveraging Low-level features for 3D Medical
Image Pre-training [51.16994853817024]
本研究は、3Dラジオグラフィ画像のための効果的な事前学習フレームワークの設計に焦点をあてる。
ローカルマスキングと低レベルの摂動の組み合わせによって生成された破壊から、オリジナルのイメージを再構築しようとする事前トレーニングフレームワークであるDisruptive Autoencodersを紹介する。
提案する事前トレーニングフレームワークは、複数のダウンストリームタスクでテストされ、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-07-31T17:59:42Z) - Masked Vision and Language Pre-training with Unimodal and Multimodal
Contrastive Losses for Medical Visual Question Answering [7.669872220702526]
本稿では,入力画像とテキストの非モーダル・マルチモーダル特徴表現を学習する,新しい自己教師型アプローチを提案する。
提案手法は,3つの医用VQAデータセット上での最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2023-07-11T15:00:11Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Customizing General-Purpose Foundation Models for Medical Report
Generation [64.31265734687182]
ラベル付き医用画像-レポートペアの不足は、ディープニューラルネットワークや大規模ニューラルネットワークの開発において大きな課題となっている。
本稿では,コンピュータビジョンと自然言語処理の基盤モデル (FM) として,市販の汎用大規模事前学習モデルのカスタマイズを提案する。
論文 参考訳(メタデータ) (2023-06-09T03:02:36Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - RadTex: Learning Efficient Radiograph Representations from Text Reports [7.090896766922791]
我々は,放射線学報告を利用して,限られたラベル付きデータを用いた医用画像分類性能を向上させるための,データ効率のよい学習フレームワークを構築した。
本モデルは,ラベル付きトレーニングデータに制限がある場合,ImageNetによる事前学習よりも高い分類性能を実現する。
論文 参考訳(メタデータ) (2022-08-05T15:06:26Z) - Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone [170.85076677740292]
本稿では、視覚言語(VL)事前学習のための新しいモデルアーキテクチャであるFIBER(Fusion-In-the-Backbone-basedER)を提案する。
ユニモーダルバックボーンの後に、専用のトランスフォーマー層を融合させる代わりに、FIBERはマルチモーダルフュージョンをモデルに深く押し込む。
我々は、VQA、画像キャプション、検索、フレーズグラウンド、参照表現理解、オブジェクト検出など、幅広いVLタスクに関する包括的な実験を行う。
論文 参考訳(メタデータ) (2022-06-15T16:41:29Z) - Self-Paced Contrastive Learning for Semi-supervisedMedical Image
Segmentation with Meta-labels [6.349708371894538]
メタラベルアノテーションを扱うために、コントラスト学習を適用することを提案する。
画像エンコーダの事前トレーニングにはメタラベルを使用し、半教師付きトレーニングを標準化する。
3つの異なる医用画像セグメンテーションデータセットの結果から,本手法は数回のスキャンでトレーニングしたモデルの性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2021-07-29T04:30:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。