論文の概要: Multi-modal Representations for Fine-grained Multi-label Critical View of Safety Recognition
- arxiv url: http://arxiv.org/abs/2507.05007v1
- Date: Mon, 07 Jul 2025 13:44:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.441387
- Title: Multi-modal Representations for Fine-grained Multi-label Critical View of Safety Recognition
- Title(参考訳): マルチモーダル表現によるきめ細かなマルチラベルクリティカルな安全認識
- Authors: Britty Baby, Vinkle Srivastav, Pooja P. Jain, Kun Yuan, Pietro Mascagni, Nicolas Padoy,
- Abstract要約: 腹腔鏡下胆嚢摘出術にはCVS(Critical View of Safety)が重要である。
従来のCVS認識モデルは、高価で労働集約的な空間アノテーションで学習する視覚のみのモデルに依存している。
本研究では,テキストをトレーニングと推論の両方の強力なツールとして活用する方法を検討する。
- 参考スコア(独自算出の注目度): 11.545210223006116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Critical View of Safety (CVS) is crucial for safe laparoscopic cholecystectomy, yet assessing CVS criteria remains a complex and challenging task, even for experts. Traditional models for CVS recognition depend on vision-only models learning with costly, labor-intensive spatial annotations. This study investigates how text can be harnessed as a powerful tool for both training and inference in multi-modal surgical foundation models to automate CVS recognition. Unlike many existing multi-modal models, which are primarily adapted for multi-class classification, CVS recognition requires a multi-label framework. Zero-shot evaluation of existing multi-modal surgical models shows a significant performance gap for this task. To address this, we propose CVS-AdaptNet, a multi-label adaptation strategy that enhances fine-grained, binary classification across multiple labels by aligning image embeddings with textual descriptions of each CVS criterion using positive and negative prompts. By adapting PeskaVLP, a state-of-the-art surgical foundation model, on the Endoscapes-CVS201 dataset, CVS-AdaptNet achieves 57.6 mAP, improving over the ResNet50 image-only baseline (51.5 mAP) by 6 points. Our results show that CVS-AdaptNet's multi-label, multi-modal framework, enhanced by textual prompts, boosts CVS recognition over image-only methods. We also propose text-specific inference methods, that helps in analysing the image-text alignment. While further work is needed to match state-of-the-art spatial annotation-based methods, this approach highlights the potential of adapting generalist models to specialized surgical tasks. Code: https://github.com/CAMMA-public/CVS-AdaptNet
- Abstract(参考訳): CVS(Critical View of Safety)は、腹腔鏡下胆嚢摘出術において重要であるが、CVSの基準を評価することは、専門家にとっても複雑で難しい課題である。
従来のCVS認識モデルは、高価で労働集約的な空間アノテーションで学習する視覚のみのモデルに依存している。
本研究では,マルチモーダル手術基盤モデルのトレーニングと推論において,テキストを強力なツールとして活用してCVS認識を自動化する方法について検討した。
多くの既存のマルチモーダルモデルとは異なり、主にマルチクラス分類に適応しているが、CVS認識にはマルチラベルフレームワークが必要である。
既存のマルチモーダル手術モデルのゼロショット評価は,この課題に対して大きな性能差を示す。
そこで我々はCVS-AdaptNetを提案する。CVS-AdaptNetは、画像埋め込みを正と負のプロンプトを用いて、各CVS基準のテキスト記述と整列させることにより、複数のラベルをまたいだ細粒度のバイナリ分類を強化するマルチラベル適応戦略である。
最先端の手術基盤モデルであるPeskaVLPをEndoscapes-CVS201データセットに適応させることで、CVS-AdaptNetは57.6mAPを獲得し、ResNet50イメージのみのベースライン(51.5mAP)を6ポイント改善した。
この結果から,CVS-AdaptNetのマルチラベル・マルチモーダル・フレームワークは,テキストプロンプトによって強化され,画像のみの手法よりもCVSの認識が促進されることがわかった。
また,画像とテキストのアライメントを分析するために,テキスト固有の推論手法を提案する。
最先端の空間アノテーションベースの手法に適合するためには、さらなる研究が必要であるが、この手法は、専門的な外科的タスクにジェネラリストモデルを適用する可能性を強調している。
コード:https://github.com/CAMMA-public/CVS-AdaptNet
関連論文リスト
- MGPATH: Vision-Language Model with Multi-Granular Prompt Learning for Few-Shot WSI Classification [19.29480118378639]
全スライド画像分類は、ギガピクセル画像サイズと限定アノテーションラベルによる課題を提示する。
本稿では,数ショットの病理分類に大規模な視覚言語モデルを適用するための素早い学習手法を提案する。
論文 参考訳(メタデータ) (2025-02-11T09:42:13Z) - A Simple and Robust Framework for Cross-Modality Medical Image
Segmentation applied to Vision Transformers [0.0]
単一条件モデルを用いて複数モードの公平な画像分割を実現するための簡単なフレームワークを提案する。
本研究の枠組みは,マルチモーダル全心条件課題において,他のモダリティセグメンテーション手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-10-09T09:51:44Z) - Delving into Multimodal Prompting for Fine-grained Visual Classification [57.12570556836394]
細粒度視覚分類(FGVC)は、より広いカテゴリーの細分化を分類する。
事前学習型視覚言語モデルの最近の進歩は、様々なハイレベル視覚タスクにおいて顕著な性能を示している。
対照的な言語画像サブカテゴリ(CLIP)モデルに基づいて,MP-FGVCと呼ばれる新しいマルチモーダルプロンプトソリューションを提案する。
論文 参考訳(メタデータ) (2023-09-16T07:30:52Z) - ScribbleVC: Scribble-supervised Medical Image Segmentation with
Vision-Class Embedding [5.425414924685109]
ScribbleVCは、スクリブル管理された医療画像セグメンテーションのための新しいフレームワークである。
提案手法は,スクリブルベースアプローチとセグメンテーションネットワークとクラス埋め込みモジュールを組み合わせることで,正確なセグメンテーションマスクを生成する。
ScribbleVCを3つのベンチマークデータセットで評価し、最先端の手法と比較する。
論文 参考訳(メタデータ) (2023-07-30T13:38:52Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained
Vision-language Model [61.58071099082296]
オブジェクト検出やセマンティックセグメンテーションといった、より広範な視覚問題に対して、ゼロショット認識をどのようにうまく機能させるかは定かではない。
本稿では,既訓練の視覚言語モデルであるCLIPを用いて,ゼロショットセマンティックセマンティックセマンティックセマンティクスを構築することを目的とした。
実験結果から, この単純なフレームワークは, 従来の最先端をはるかに上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2021-12-29T18:56:18Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。