論文の概要: VLSM-Ensemble: Ensembling CLIP-based Vision-Language Models for Enhanced Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2509.05154v1
- Date: Fri, 05 Sep 2025 14:48:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.622499
- Title: VLSM-Ensemble: Ensembling CLIP-based Vision-Language Models for Enhanced Medical Image Segmentation
- Title(参考訳): VLSM-Ensemble: 医用画像分割のためのCLIPに基づく視覚言語モデルの構築
- Authors: Julia Dietlmeier, Oluwabukola Grace Adegboro, Vayangi Ganepola, Claudia Mazo, Noel E. O'Connor,
- Abstract要約: 視覚言語セグメンテーションモデル(VLSM)を低複雑さCNNでアンサンブルする方法を示す。
アンサンブルされたBiomedCLIPSegを用いて,BKAIポリプデータセットのDiceスコアが6.3%向上した。
これらのデータセット間でアンサンブルは異なる働きをしており、コミュニティによる今後の調査のトピックであることを示していると結論付けている。
- 参考スコア(独自算出の注目度): 7.13152680239935
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models and their adaptations to image segmentation tasks present enormous potential for producing highly accurate and interpretable results. However, implementations based on CLIP and BiomedCLIP are still lagging behind more sophisticated architectures such as CRIS. In this work, instead of focusing on text prompt engineering as is the norm, we attempt to narrow this gap by showing how to ensemble vision-language segmentation models (VLSMs) with a low-complexity CNN. By doing so, we achieve a significant Dice score improvement of 6.3% on the BKAI polyp dataset using the ensembled BiomedCLIPSeg, while other datasets exhibit gains ranging from 1% to 6%. Furthermore, we provide initial results on additional four radiology and non-radiology datasets. We conclude that ensembling works differently across these datasets (from outperforming to underperforming the CRIS model), indicating a topic for future investigation by the community. The code is available at https://github.com/juliadietlmeier/VLSM-Ensemble.
- Abstract(参考訳): 視覚言語モデルとその画像分割タスクへの適応は、高度に正確かつ解釈可能な結果を生み出す大きな可能性を示す。
しかし、CLIPやBiomedCLIPに基づく実装は、CRISのようなより洗練されたアーキテクチャに遅れを取っている。
本研究では,テキストプロンプトエンジニアリングを標準として重視するのではなく,視覚言語セグメンテーションモデル(VLSM)を低複雑さCNNでアンサンブルする方法を示すことによって,このギャップを狭めようとする。
その結果,BKAIpolypデータセットでは,アンサンブルされたBiomedCLIPSegを用いて6.3%のDiceスコアが向上し,他のデータセットでは1%から6%に向上した。
さらに,4つの放射線学および非放射線学データセットの初期結果について報告する。
我々は,これらのデータセット間でのアンサンブルの動作が,CRISモデルよりも優れており,コミュニティによる今後の調査の話題となっていることを結論づける。
コードはhttps://github.com/juliadietlmeier/VLSM-Ensemble.comで公開されている。
関連論文リスト
- Unifying Segment Anything in Microscopy with Multimodal Large Language Model [12.40922797263136]
我々は、顕微鏡クローズドメインデータの学習にMLLMを用いて、uLLSAMと呼ばれる顕微鏡内のセグメンテーションをガイドすることを提案する。
SAMがグローバルなVLKプロンプトを受信すると、その性能は大幅に向上するが、境界輪郭知覚には欠点がある。
本手法は,9つのドメイン内顕微鏡データセットに対して,Diceの7.71%,SAの12.10%の性能向上を実現し,最先端の性能を実現している。
論文 参考訳(メタデータ) (2025-05-16T00:55:56Z) - EXGRA-MED: Extended Context Graph Alignment for Medical Vision- Language Models [69.40730368630003]
医療用AIにおける視覚言語統合のための新しいフレームワークであるEXGRA-MEDを紹介する。
画像、命令応答、拡張キャプションを共同で調整し、セマンティックグラウンドとクロスモーダルコヒーレンスを前進させる。
LLAVA-MEDのパフォーマンスを10%の事前トレーニングデータで比較し、VQA-RADで20.13%向上し、フルデータパフォーマンスに近づいた。
論文 参考訳(メタデータ) (2024-10-03T15:52:03Z) - MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
本稿では,72の科学分野をカバーするNature Communicationsの記事からまとめられた包括的データセットについて述べる。
2つのベンチマークタスク(図のキャプションと複数選択)で19のプロプライエタリモデルとオープンソースモデルを評価し,人手による注釈を行った。
タスク固有データを用いた細調整Qwen2-VL-7Bは、GPT-4oや人間の専門家でさえも、マルチチョイス評価において優れた性能を示した。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z) - Pushing Boundaries: Exploring Zero Shot Object Classification with Large
Multimodal Models [0.09264362806173355]
LLVA(Large Language and Vision Assistant Model)は、画像ベースのクエリと連動したリッチな会話体験をユーザに提供するモデルである。
本稿では,LMMについて一意に考察し,画像分類タスクの適応性について検討する。
我々の研究では、MNIST、Cats Vs. Dogs、Hymnoptera(Ants Vs. Bees)、Pox Vs. Non-Poxの皮膚画像からなる非伝統的なデータセットの4つの多様なデータセットのベンチマーク分析を含む。
論文 参考訳(メタデータ) (2023-12-30T03:19:54Z) - Exploring Transfer Learning in Medical Image Segmentation using Vision-Language Models [0.8878802873945023]
本研究では,視覚言語モデルから2次元医用画像への移行に関する最初の体系的研究を紹介する。
VLSMは画像のみのセグメンテーションモデルと比較して競合性能を示すが、全てのVLSMは言語プロンプトから追加情報を利用するわけではない。
論文 参考訳(メタデータ) (2023-08-15T11:28:21Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Exploring Weakly Supervised Semantic Segmentation Ensembles for Medical
Imaging Systems [11.693197342734152]
画像中の医療条件の信頼性の高い分類と検出のための枠組みを提案する。
我々のフレームワークは、まず低しきい値CAMを用いてターゲットオブジェクトを高い確実性でカバーする。
我々は,BRATSでは最大8%,DECATHLONデータセットでは6%の改善ダイススコアを実証した。
論文 参考訳(メタデータ) (2023-03-14T13:31:05Z) - AMIGO: Sparse Multi-Modal Graph Transformer with Shared-Context
Processing for Representation Learning of Giga-pixel Images [53.29794593104923]
本稿では,スライド病理像全体に対する共有コンテキスト処理の新たな概念を提案する。
AMIGOは、組織内のセルラーグラフを使用して、患者に単一の表現を提供する。
我々のモデルは、データの20%以下で同じ性能を達成できる程度に、欠落した情報に対して強い堅牢性を示す。
論文 参考訳(メタデータ) (2023-03-01T23:37:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。