論文の概要: Exploring Transfer Learning in Medical Image Segmentation using Vision-Language Models
- arxiv url: http://arxiv.org/abs/2308.07706v3
- Date: Thu, 20 Jun 2024 09:14:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-22 08:50:40.497739
- Title: Exploring Transfer Learning in Medical Image Segmentation using Vision-Language Models
- Title(参考訳): ビジョンランゲージモデルを用いた医用画像セグメンテーションにおける伝達学習の探索
- Authors: Kanchan Poudel, Manish Dhakal, Prasiddha Bhandari, Rabin Adhikari, Safal Thapaliya, Bishesh Khanal,
- Abstract要約: 本研究では,視覚言語モデルから2次元医用画像への移行に関する最初の体系的研究を紹介する。
VLSMは画像のみのセグメンテーションモデルと比較して競合性能を示すが、全てのVLSMは言語プロンプトから追加情報を利用するわけではない。
- 参考スコア(独自算出の注目度): 0.8878802873945023
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medical image segmentation allows quantifying target structure size and shape, aiding in disease diagnosis, prognosis, surgery planning, and comprehension.Building upon recent advancements in foundation Vision-Language Models (VLMs) from natural image-text pairs, several studies have proposed adapting them to Vision-Language Segmentation Models (VLSMs) that allow using language text as an additional input to segmentation models. Introducing auxiliary information via text with human-in-the-loop prompting during inference opens up unique opportunities, such as open vocabulary segmentation and potentially more robust segmentation models against out-of-distribution data. Although transfer learning from natural to medical images has been explored for image-only segmentation models, the joint representation of vision-language in segmentation problems remains underexplored. This study introduces the first systematic study on transferring VLSMs to 2D medical images, using carefully curated $11$ datasets encompassing diverse modalities and insightful language prompts and experiments. Our findings demonstrate that although VLSMs show competitive performance compared to image-only models for segmentation after finetuning in limited medical image datasets, not all VLSMs utilize the additional information from language prompts, with image features playing a dominant role. While VLSMs exhibit enhanced performance in handling pooled datasets with diverse modalities and show potential robustness to domain shifts compared to conventional segmentation models, our results suggest that novel approaches are required to enable VLSMs to leverage the various auxiliary information available through language prompts. The code and datasets are available at https://github.com/naamiinepal/medvlsm.
- Abstract(参考訳): 医用画像セグメンテーションは, 対象構造の大きさと形状を定量化し, 疾患診断, 予後, 手術計画, 理解を補助し, 自然画像から視覚言語モデル (VLM) を構築することで, 言語テキストをセグメンテーションモデルへの追加入力として利用できる視覚言語セグメンテーションモデル (VLSM) に適用することを提案した。
推論中に人手によるテキストによる補助情報の導入は、オープン語彙のセグメンテーションや、アウト・オブ・ディストリビューションデータに対する潜在的に堅牢なセグメンテーションモデルなど、ユニークな機会を開放する。
画像のみのセグメンテーションモデルでは, 自然画像から医用画像への変換学習が検討されているが, セグメンテーション問題における視覚言語との結合表現はいまだ検討されていない。
本研究では,VLSMを2次元医用画像に転送する手法として,多彩なモダリティと洞察に富んだ言語プロンプトと実験を含む1,11ドルのデータセットを慎重にキュレートした最初の体系的研究を紹介する。
以上の結果から,VLSMは,限られた医用画像データセットを微調整した画像のみのセグメンテーションモデルと比較して,競合的な性能を示したが,全てのVLSMが言語プロンプトからの付加情報を利用するわけではなく,画像の特徴が支配的な役割を担っていることが示唆された。
従来のセグメンテーションモデルと比較すると,VLSMは多様なモダリティを持つプールデータセットの処理性能が向上し,ドメインシフトに対する潜在的堅牢性を示すが,この結果から,VLSMが言語プロンプトを通じて利用できる様々な補助情報を活用するためには,新たなアプローチが必要であることが示唆された。
コードとデータセットはhttps://github.com/naamiinepal/medvlsm.comで公開されている。
関連論文リスト
- LoGra-Med: Long Context Multi-Graph Alignment for Medical Vision-Language Model [55.80651780294357]
最新の医療用マルチモーダル大規模言語モデル(med-MLLM)は、事前訓練において命令追従データを活用する。
LoGra-Medは新しいマルチグラフアライメントアルゴリズムで、画像のモダリティ、会話ベースの記述、拡張キャプション間でのトリプルト相関を強制する。
以上の結果から,LoGra-Medは医療用VQAの600K画像テキスト対に対してLAVA-Medと一致し,その10%でトレーニングした場合に有意に優れていた。
論文 参考訳(メタデータ) (2024-10-03T15:52:03Z) - ViKL: A Mammography Interpretation Framework via Multimodal Aggregation of Visual-knowledge-linguistic Features [54.37042005469384]
MVKLは,マルチビュー画像,詳細な表示,報告を含む最初のマルチモーダルマンモグラフィーデータセットである。
このデータセットに基づいて、教師なし事前学習のチャラリングタスクに焦点を当てる。
視覚,知識,言語機能を相乗化するフレームワークであるViKLを提案する。
論文 参考訳(メタデータ) (2024-09-24T05:01:23Z) - LSMS: Language-guided Scale-aware MedSegmentor for Medical Image Referring Segmentation [7.912408164613206]
医用画像参照(MIRS)は、与えられた言語表現に基づく画像の断片化を必要とする。
LSMS(Language-guided Scale-Aware MedSegmentor)というアプローチを提案する。
LSMSは計算コストが低いすべてのデータセットで一貫してパフォーマンスが向上します。
論文 参考訳(メタデータ) (2024-08-30T15:22:13Z) - Language Guided Domain Generalized Medical Image Segmentation [68.93124785575739]
単一ソースドメインの一般化は、より信頼性が高く一貫性のあるイメージセグメンテーションを現実の臨床環境にわたって約束する。
本稿では,テキストエンコーダ機能によって案内されるコントラスト学習機構を組み込むことで,テキスト情報を明確に活用する手法を提案する。
文献における既存手法に対して,本手法は良好な性能を発揮する。
論文 参考訳(メタデータ) (2024-04-01T17:48:15Z) - Hierarchical Text-to-Vision Self Supervised Alignment for Improved Histopathology Representation Learning [64.1316997189396]
病理組織像のための新しい言語型自己教師学習フレームワーク,階層型言語型自己監督(HLSS)を提案する。
その結果,OpenSRH と TCGA の2つの医用画像ベンチマークにおいて,最先端の性能が得られた。
論文 参考訳(メタデータ) (2024-03-21T17:58:56Z) - Synthetic Boost: Leveraging Synthetic Data for Enhanced Vision-Language
Segmentation in Echocardiography [0.9324036842528547]
VLSM(Vision-Language Models)は、リッチなコンテキスト情報を組み込んで、正確で説明可能なセグメンテーションを支援する。
本研究では,セマンティック拡散モデル(SDM)の合成データセットを用いて心エコー区分けのためのVLSMを強化する。
実画像の微調整前に,SDM合成画像上でのVLSMの事前学習において,測定値の改善と収束の高速化が得られた。
論文 参考訳(メタデータ) (2023-09-22T12:36:30Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Interpretable and synergistic deep learning for visual explanation and
statistical estimations of segmentation of disease features from medical
images [0.0]
医学画像からの病因分類やセグメンテーションのための深層学習(DL)モデルは、無関係な自然界画像からの伝達学習(TL)を用いて、ますます訓練されている。
TL後バイナリセグメンテーションに広く用いられているDLアーキテクチャの比較,厳密な統計的解析,および比較について報告する。
TIIおよびLMIモデル、コード、10,000以上の医療画像の無料GitHubリポジトリと、この研究からのGrad-CAM出力は、高度な計算医学の出発点として利用できる。
論文 参考訳(メタデータ) (2020-11-11T14:08:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。