Fugu-MT 論文翻訳(概要): Exploring Transfer Learning in Medical Image Segmentation using Vision-Language Models

論文の概要: Exploring Transfer Learning in Medical Image Segmentation using Vision-Language Models

arxiv url: http://arxiv.org/abs/2308.07706v2
Date: Fri, 22 Sep 2023 12:21:07 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-25 18:15:46.379070
Title: Exploring Transfer Learning in Medical Image Segmentation using Vision-Language Models
Title（参考訳）: 視覚言語モデルを用いた医用画像分割における転送学習の検討
Authors: Kanchan Poudel, Manish Dhakal, Prasiddha Bhandari, Rabin Adhikari, Safal Thapaliya, Bishesh Khanal
Abstract要約: 本稿では,VLSMの2次元医用画像への変換学習に関する最初のベンチマーク研究について述べる。以上の結果から,VLSMは自然画像とテキストのペアで訓練され,ゼロショット設定で医療領域に合理的に移行することが示唆された。しかし、微調整中の言語プロンプトのさらなる利点は限られているかもしれない。
参考スコア（独自算出の注目度）: 0.9324036842528547
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Medical image segmentation with deep learning is an important and widely studied topic because segmentation enables quantifying target structure size and shape that can help in disease diagnosis, prognosis, surgery planning, and understanding. Recent advances in the foundation VLMs and their adaptation to segmentation tasks in natural images with VLSMs have opened up a unique opportunity to build potentially powerful segmentation models for medical images that enable providing helpful information via language prompt as input, leverage the extensive range of other medical imaging datasets by pooled dataset training, adapt to new classes, and be robust against out-of-distribution data with human-in-the-loop prompting during inference. Although transfer learning from natural to medical images for image-only segmentation models has been studied, no studies have analyzed how the joint representation of vision-language transfers to medical images in segmentation problems and understand gaps in leveraging their full potential. We present the first benchmark study on transfer learning of VLSMs to 2D medical images with thoughtfully collected 11 existing 2D medical image datasets of diverse modalities with carefully presented 9 types of language prompts from 14 attributes. Our results indicate that VLSMs trained in natural image-text pairs transfer reasonably to the medical domain in zero-shot settings when prompted appropriately for non-radiology photographic modalities; when finetuned, they obtain comparable performance to conventional architectures, even in X-rays and ultrasound modalities. However, the additional benefit of language prompts during finetuning may be limited, with image features playing a more dominant role; they can better handle training on pooled datasets combining diverse modalities and are potentially more robust to domain shift than the conventional segmentation models.
Abstract（参考訳）: 医学的画像分割とディープラーニングは, 診断, 予後, 手術計画, 理解に役立つ対象組織の大きさと形状の定量化を可能にするため, 重要かつ広く研究されている。 VLMとVLSMの自然な画像におけるセグメンテーションタスクへの適応は、入力として言語プロンプトを介して有用な情報を提供することのできる、潜在的に強力なセグメンテーションモデルの構築、プール化されたデータセットトレーニングによる他の医療画像データセットの広範囲の活用、新しいクラスへの適応、推論中の人間-イン・ループのプロンプトによるアウト・オブ・ディストリビューションデータに対する堅牢性、というユニークな機会を開いた。画像のみのセグメンテーションモデルのための自然画像から医用画像へのトランスファー学習は研究されているが、セグメンテーション問題における視覚言語と医用画像の同時表現についての分析や、その潜在能力の活用におけるギャップの理解は行われていない。本稿では,14の属性から9種類の言語プロンプトを注意深く提示した,既存の2次元医用画像データセット11点について,vlsmsの2次元医用画像への転送学習に関する最初のベンチマーク研究を行う。以上の結果から,自然画像テキストペアで訓練されたvlsmsは,非放射線写真モダリティに対して適切に促された場合,ゼロショット設定で医療領域に合理的に転送されることが示唆された。しかし、微調整中の言語プロンプトの付加的なメリットは制限され、画像機能はより支配的な役割を果たす。それらは、多様なモダリティを結合したプールデータセットのトレーニングをよりうまく処理することができ、従来のセグメンテーションモデルよりもドメインシフトに堅牢になる可能性がある。

関連論文リスト

CLIP-IT: CLIP-based Pairing for Histology Images Classification [6.855390956571216]
視覚バックボーンモデルのトレーニングにCLIP-ITを導入し、外部ソースからの特権的なテキスト情報と組み合わせることで、組織像を分類する。当初、モダリティペアリングのステップは、CLIPベースのモデルを使用して、組織像と外部ソースからの意味的に関連するテキストレポートデータとをマッチングし、拡張されたマルチモーダルデータセットを作成する。パラメータ効率のよい微調整法を用いて、主(画像)と対(テキスト)のモダリティのミスアライメントを効率的に解決する。
論文参考訳（メタデータ） (2025-04-22T18:14:43Z)
Zeus: Zero-shot LLM Instruction for Union Segmentation in Multimodal Medical Imaging [4.341503087761129]
マルチモーダル学習の実行には、ソリューションとして示される視覚とテキストのモダリティが含まれるが、ペア化されたビジョン言語データセットの収集は高価で時間を要する。大規模言語モデル(LLM)における多くのクロスモーダルタスクの優れた能力に触発されて、我々はこの問題に対処する新しいビジョン・LLM統合フレームワークを提案しました。
論文参考訳（メタデータ） (2025-04-09T23:33:35Z)
ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification [52.405499816861635]
多重インスタンス学習(MIL)ベースのフレームワークは、スライド画像全体(WSI)を処理する上で主流になっている。スライド画像全体の分類のための2次元視覚言語多言語学習(ViLa-MIL)フレームワークを提案する。
論文参考訳（メタデータ） (2025-02-12T13:28:46Z)
MRGen: Segmentation Data Engine for Underrepresented MRI Modalities [59.61465292965639]
稀ながら臨床的に重要な画像モダリティのための医用画像分割モデルの訓練は、注釈付きデータの不足により困難である。本稿では,データ合成における生成モデルの利用について検討する。本稿では,テキストプロンプトとセグメンテーションマスクを条件とした医用画像合成のためのデータエンジンMRGenを提案する。
論文参考訳（メタデータ） (2024-12-04T16:34:22Z)
LoGra-Med: Long Context Multi-Graph Alignment for Medical Vision-Language Model [55.80651780294357]
最新の医療用マルチモーダル大規模言語モデル(med-MLLM)は、事前訓練において命令追従データを活用する。 LoGra-Medは新しいマルチグラフアライメントアルゴリズムで、画像のモダリティ、会話ベースの記述、拡張キャプション間でのトリプルト相関を強制する。以上の結果から,LoGra-Medは医療用VQAの600K画像テキスト対に対してLAVA-Medと一致し,その10%でトレーニングした場合に有意に優れていた。
論文参考訳（メタデータ） (2024-10-03T15:52:03Z)
ViKL: A Mammography Interpretation Framework via Multimodal Aggregation of Visual-knowledge-linguistic Features [54.37042005469384]
MVKLは,マルチビュー画像,詳細な表示,報告を含む最初のマルチモーダルマンモグラフィーデータセットである。このデータセットに基づいて、教師なし事前学習のチャラリングタスクに焦点を当てる。視覚,知識,言語機能を相乗化するフレームワークであるViKLを提案する。
論文参考訳（メタデータ） (2024-09-24T05:01:23Z)
LSMS: Language-guided Scale-aware MedSegmentor for Medical Image Referring Segmentation [7.912408164613206]
医用画像参照(MIRS)は、与えられた言語表現に基づく画像の断片化を必要とする。 LSMS(Language-guided Scale-Aware MedSegmentor)というアプローチを提案する。 LSMSは計算コストが低いすべてのデータセットで一貫してパフォーマンスが向上します。
論文参考訳（メタデータ） (2024-08-30T15:22:13Z)
Language Guided Domain Generalized Medical Image Segmentation [68.93124785575739]
単一ソースドメインの一般化は、より信頼性が高く一貫性のあるイメージセグメンテーションを現実の臨床環境にわたって約束する。本稿では,テキストエンコーダ機能によって案内されるコントラスト学習機構を組み込むことで,テキスト情報を明確に活用する手法を提案する。文献における既存手法に対して,本手法は良好な性能を発揮する。
論文参考訳（メタデータ） (2024-04-01T17:48:15Z)
Hierarchical Text-to-Vision Self Supervised Alignment for Improved Histopathology Representation Learning [64.1316997189396]
病理組織像のための新しい言語型自己教師学習フレームワーク,階層型言語型自己監督(HLSS)を提案する。その結果,OpenSRH と TCGA の2つの医用画像ベンチマークにおいて,最先端の性能が得られた。
論文参考訳（メタデータ） (2024-03-21T17:58:56Z)
Synthetic Boost: Leveraging Synthetic Data for Enhanced Vision-Language Segmentation in Echocardiography [0.9324036842528547]
VLSM(Vision-Language Models)は、リッチなコンテキスト情報を組み込んで、正確で説明可能なセグメンテーションを支援する。本研究では,セマンティック拡散モデル(SDM)の合成データセットを用いて心エコー区分けのためのVLSMを強化する。実画像の微調整前に,SDM合成画像上でのVLSMの事前学習において,測定値の改善と収束の高速化が得られた。
論文参考訳（メタデータ） (2023-09-22T12:36:30Z)
Vision-Language Modelling For Radiological Imaging and Reports In The Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文参考訳（メタデータ） (2023-03-30T18:20:00Z)
Learning to Exploit Temporal Structure for Biomedical Vision-Language Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文参考訳（メタデータ） (2023-01-11T16:35:33Z)
Interpretable and synergistic deep learning for visual explanation and statistical estimations of segmentation of disease features from medical images [0.0]
医学画像からの病因分類やセグメンテーションのための深層学習(DL)モデルは、無関係な自然界画像からの伝達学習(TL)を用いて、ますます訓練されている。 TL後バイナリセグメンテーションに広く用いられているDLアーキテクチャの比較,厳密な統計的解析,および比較について報告する。 TIIおよびLMIモデル、コード、10,000以上の医療画像の無料GitHubリポジトリと、この研究からのGrad-CAM出力は、高度な計算医学の出発点として利用できる。
論文参考訳（メタデータ） (2020-11-11T14:08:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。