論文の概要: Exploring Transfer Learning in Medical Image Segmentation using
Vision-Language Models
- arxiv url: http://arxiv.org/abs/2308.07706v2
- Date: Fri, 22 Sep 2023 12:21:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-25 18:15:46.379070
- Title: Exploring Transfer Learning in Medical Image Segmentation using
Vision-Language Models
- Title(参考訳): 視覚言語モデルを用いた医用画像分割における転送学習の検討
- Authors: Kanchan Poudel, Manish Dhakal, Prasiddha Bhandari, Rabin Adhikari,
Safal Thapaliya, Bishesh Khanal
- Abstract要約: 本稿では,VLSMの2次元医用画像への変換学習に関する最初のベンチマーク研究について述べる。
以上の結果から,VLSMは自然画像とテキストのペアで訓練され,ゼロショット設定で医療領域に合理的に移行することが示唆された。
しかし、微調整中の言語プロンプトのさらなる利点は限られているかもしれない。
- 参考スコア(独自算出の注目度): 0.9324036842528547
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medical image segmentation with deep learning is an important and widely
studied topic because segmentation enables quantifying target structure size
and shape that can help in disease diagnosis, prognosis, surgery planning, and
understanding. Recent advances in the foundation VLMs and their adaptation to
segmentation tasks in natural images with VLSMs have opened up a unique
opportunity to build potentially powerful segmentation models for medical
images that enable providing helpful information via language prompt as input,
leverage the extensive range of other medical imaging datasets by pooled
dataset training, adapt to new classes, and be robust against
out-of-distribution data with human-in-the-loop prompting during inference.
Although transfer learning from natural to medical images for image-only
segmentation models has been studied, no studies have analyzed how the joint
representation of vision-language transfers to medical images in segmentation
problems and understand gaps in leveraging their full potential. We present the
first benchmark study on transfer learning of VLSMs to 2D medical images with
thoughtfully collected 11 existing 2D medical image datasets of diverse
modalities with carefully presented 9 types of language prompts from 14
attributes. Our results indicate that VLSMs trained in natural image-text pairs
transfer reasonably to the medical domain in zero-shot settings when prompted
appropriately for non-radiology photographic modalities; when finetuned, they
obtain comparable performance to conventional architectures, even in X-rays and
ultrasound modalities. However, the additional benefit of language prompts
during finetuning may be limited, with image features playing a more dominant
role; they can better handle training on pooled datasets combining diverse
modalities and are potentially more robust to domain shift than the
conventional segmentation models.
- Abstract(参考訳): 医学的画像分割とディープラーニングは, 診断, 予後, 手術計画, 理解に役立つ対象組織の大きさと形状の定量化を可能にするため, 重要かつ広く研究されている。
VLMとVLSMの自然な画像におけるセグメンテーションタスクへの適応は、入力として言語プロンプトを介して有用な情報を提供することのできる、潜在的に強力なセグメンテーションモデルの構築、プール化されたデータセットトレーニングによる他の医療画像データセットの広範囲の活用、新しいクラスへの適応、推論中の人間-イン・ループのプロンプトによるアウト・オブ・ディストリビューションデータに対する堅牢性、というユニークな機会を開いた。
画像のみのセグメンテーションモデルのための自然画像から医用画像へのトランスファー学習は研究されているが、セグメンテーション問題における視覚言語と医用画像の同時表現についての分析や、その潜在能力の活用におけるギャップの理解は行われていない。
本稿では,14の属性から9種類の言語プロンプトを注意深く提示した,既存の2次元医用画像データセット11点について,vlsmsの2次元医用画像への転送学習に関する最初のベンチマーク研究を行う。
以上の結果から,自然画像テキストペアで訓練されたvlsmsは,非放射線写真モダリティに対して適切に促された場合,ゼロショット設定で医療領域に合理的に転送されることが示唆された。
しかし、微調整中の言語プロンプトの付加的なメリットは制限され、画像機能はより支配的な役割を果たす。それらは、多様なモダリティを結合したプールデータセットのトレーニングをよりうまく処理することができ、従来のセグメンテーションモデルよりもドメインシフトに堅牢になる可能性がある。
関連論文リスト
- LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Customizing General-Purpose Foundation Models for Medical Report
Generation [64.31265734687182]
ラベル付き医用画像-レポートペアの不足は、ディープニューラルネットワークや大規模ニューラルネットワークの開発において大きな課題となっている。
本稿では,コンピュータビジョンと自然言語処理の基盤モデル (FM) として,市販の汎用大規模事前学習モデルのカスタマイズを提案する。
論文 参考訳(メタデータ) (2023-06-09T03:02:36Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Positional Contrastive Learning for Volumetric Medical Image
Segmentation [13.086140606803408]
コントラストデータペアを生成するための新しい位置コントラスト学習フレームワークを提案する。
提案手法は,半教師付き設定と移動学習の両方において既存の手法と比較して,セグメンテーション性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2021-06-16T22:15:28Z) - Self-Attentive Spatial Adaptive Normalization for Cross-Modality Domain
Adaptation [9.659642285903418]
放射線科医の費用負担を軽減するための医用画像のクロスモダリティ合成
本稿では,教師なしまたは教師なし(非ペア画像データ)の設定が可能な医用画像における画像から画像への変換手法を提案する。
論文 参考訳(メタデータ) (2021-03-05T16:22:31Z) - Few-shot Medical Image Segmentation using a Global Correlation Network
with Discriminative Embedding [60.89561661441736]
医療画像分割のための新しい手法を提案する。
深層畳み込みネットワークを用いた数ショット画像セグメンタを構築します。
深層埋め込みの識別性を高め,同一クラスの特徴領域のクラスタリングを促進する。
論文 参考訳(メタデータ) (2020-12-10T04:01:07Z) - Interpretable and synergistic deep learning for visual explanation and
statistical estimations of segmentation of disease features from medical
images [0.0]
医学画像からの病因分類やセグメンテーションのための深層学習(DL)モデルは、無関係な自然界画像からの伝達学習(TL)を用いて、ますます訓練されている。
TL後バイナリセグメンテーションに広く用いられているDLアーキテクチャの比較,厳密な統計的解析,および比較について報告する。
TIIおよびLMIモデル、コード、10,000以上の医療画像の無料GitHubリポジトリと、この研究からのGrad-CAM出力は、高度な計算医学の出発点として利用できる。
論文 参考訳(メタデータ) (2020-11-11T14:08:17Z) - Cross-Modal Information Maximization for Medical Imaging: CMIM [62.28852442561818]
病院では、同じ情報を異なるモダリティの下で利用できるようにする特定の情報システムにデータがサイロ化される。
これは、テスト時に常に利用できないかもしれない同じ情報の複数のビューを列車で取得し、使用するためのユニークな機会を提供する。
テスト時にモダリティの低下に耐性を持つマルチモーダル入力の優れた表現を学習することで、利用可能なデータを最大限活用する革新的なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T20:05:35Z) - Medical Image Harmonization Using Deep Learning Based Canonical Mapping:
Toward Robust and Generalizable Learning in Imaging [4.396671464565882]
多様な取得条件のデータを共通参照領域に"調和"する新しいパラダイムを提案する。
我々は,MRIによる脳年齢予測と統合失調症の分類という,2つの問題に対して本手法を検証した。
論文 参考訳(メタデータ) (2020-10-11T22:01:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。