論文の概要: Benchmarking performance, explainability, and evaluation strategies of vision-language models for surgery: Challenges and opportunities
- arxiv url: http://arxiv.org/abs/2505.10764v2
- Date: Tue, 27 May 2025 23:19:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 15:04:28.029894
- Title: Benchmarking performance, explainability, and evaluation strategies of vision-language models for surgery: Challenges and opportunities
- Title(参考訳): 手術用視覚言語モデルのベンチマーク性能、説明可能性、評価戦略:課題と機会
- Authors: Jiajun Cheng, Xianwu Zhao, Shan Lin,
- Abstract要約: 視覚言語モデル(VLM)は、大量の原画像テキストペアで訓練でき、高い適応性を示す。
様々な腹腔鏡的データセットにまたがるいくつかの人気のあるVLMのベンチマーク研究を行う。
その結果, 画像の非関連領域に着目しながら, 予測精度と視覚的グラウンドニングのミスマッチが明らかとなり, モデルが正しい予測を行う可能性が示唆された。
- 参考スコア(独自算出の注目度): 2.9212404280476267
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Minimally invasive surgery (MIS) presents significant visual challenges, including a limited field of view, specular reflections, and inconsistent lighting conditions due to the small incision and the use of endoscopes. Over the past decade, many machine learning and deep learning models have been developed to identify and detect instruments and anatomical structures in surgical videos. However, these models are typically trained on manually labeled, procedure- and task-specific datasets that are relatively small, resulting in limited generalization to unseen data.In practice, hospitals generate a massive amount of raw surgical data every day, including videos captured during various procedures. Labeling this data is almost impractical, as it requires highly specialized expertise. The recent success of vision-language models (VLMs), which can be trained on large volumes of raw image-text pairs and exhibit strong adaptability, offers a promising alternative for leveraging unlabeled surgical data. While some existing work has explored applying VLMs to surgical tasks, their performance remains limited. To support future research in developing more effective VLMs for surgical applications, this paper aims to answer a key question: How well do existing VLMs, both general-purpose and surgery-specific perform on surgical data, and what types of scenes do they struggle with? To address this, we conduct a benchmarking study of several popular VLMs across diverse laparoscopic datasets. Specifically, we visualize the model's attention to identify which regions of the image it focuses on when making predictions for surgical tasks. We also propose a metric to evaluate whether the model attends to task-relevant regions. Our findings reveal a mismatch between prediction accuracy and visual grounding, indicating that models may make correct predictions while focusing on irrelevant areas of the image.
- Abstract(参考訳): 最小侵襲手術 (MIS) は, 視野の制限, 鏡視反射, 小型切開と内視鏡の使用による不整合性照明条件など, 重要な視覚的課題を呈する。
過去10年間で、多くの機械学習とディープラーニングモデルが開発され、手術ビデオで機器や解剖学的構造を識別し、検出している。
しかし、これらのモデルは通常、比較的小さなプロシージャやタスク固有のデータセットを手動でラベル付けして訓練し、その結果、目に見えないデータへの一般化が制限され、病院では、様々なプロシージャで撮影されたビデオを含む、毎日大量の生の外科的データを生成する。
このデータをラベル付けするのは、非常に専門的な専門知識を必要とするため、ほとんど現実的ではありません。
最近の視覚言語モデル(VLM)の成功は、大量の原画像テキストペアをトレーニングし、強力な適応性を示すことができ、ラベルなしの手術データを活用するための有望な代替手段を提供する。
いくつかの既存の研究は、VLMを外科的タスクに適用することを検討しているが、その性能は限定的である。
外科的応用のためのより効果的なVLMの開発における今後の研究を支援するため,既存のVLMは外科的データに対して汎用的にも手術的にも十分に機能し,どのような場面で苦しむのか,という重要な疑問に答えることを目的としている。
そこで本研究では,様々な腹腔鏡的データセットにまたがるVLMのベンチマークを行った。
具体的には、手術作業の予測を行う際に、対象画像のどの領域に焦点を当てているかを特定するために、モデルの注意を可視化する。
また,タスク関連領域にモデルが参加するかどうかを評価する指標を提案する。
その結果, 画像の非関連領域に着目しながら, 予測精度と視覚的グラウンドニングのミスマッチが明らかとなり, モデルが正しい予測を行う可能性が示唆された。
関連論文リスト
- Systematic Evaluation of Large Vision-Language Models for Surgical Artificial Intelligence [1.1765603103920352]
大規模ビジョンランゲージモデルは、AI駆動の画像理解のための新しいパラダイムを提供する。
この柔軟性は、専門家がアノテートしたデータが不足している医療全体において特に有望である。
本稿では,外科的AIにおける17の視覚的理解課題を対象に,11の最先端VLMの総合的分析を行う。
論文 参考訳(メタデータ) (2025-04-03T17:42:56Z) - EndoChat: Grounded Multimodal Large Language Model for Endoscopic Surgery [52.992415247012296]
手術シーン理解における対話のパラダイムやサブタスクに対処するために,EndoChatを導入する。
本モデルは,5つの対話パラダイムと8つの手術シーン理解タスクにまたがって,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-01-20T09:12:06Z) - Surgical-LLaVA: Toward Surgical Scenario Understanding via Large Language and Vision Models [1.4042211166197214]
手術シナリオに特化して設計されたLVLMについて紹介する。
LVLMモデルであるオペレーショナル・ラヴァを手術シナリオのデータに基づいて微調整した。
外科的ララバは、外科的文脈において、印象的なマルチモーダルチャット能力を示すことを示す実験である。
論文 参考訳(メタデータ) (2024-10-13T07:12:35Z) - Procedure-Aware Surgical Video-language Pretraining with Hierarchical Knowledge Augmentation [51.222684687924215]
手術用ビデオ言語事前学習は、知識領域のギャップとマルチモーダルデータの不足により、独特な課題に直面している。
本稿では,これらの課題に対処するために,階層的知識向上手法と新しい手術的知識向上型ビデオランゲージ事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-30T22:21:05Z) - Pixel-Wise Recognition for Holistic Surgical Scene Understanding [33.40319680006502]
本稿では,前立腺腫データセットの全体的および多角的手術シーン理解について述べる。
本ベンチマークでは,様々な粒度の相補的タスクの階層構造として,外科的シーン理解をモデル化する。
提案したベンチマークを活用するために,Transformers for Actions, Phases, Steps, and Instruments(TAPIS)モデルを導入する。
論文 参考訳(メタデータ) (2024-01-20T09:09:52Z) - Learning Multi-modal Representations by Watching Hundreds of Surgical Video Lectures [50.09187683845788]
手術用コンピュータビジョンの応用の最近の進歩は、視覚のみのモデルによって駆動されている。
これらの手法は、固定されたオブジェクトカテゴリのセットを予測するために手動で注釈付き手術ビデオに依存する。
本研究では,オープンな外科的eラーニングプラットフォームを通じて提供される外科的ビデオ講義が,効果的な視覚と言語監督の信号を提供することができるという考えを提起した。
論文 参考訳(メタデータ) (2023-07-27T22:38:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。