論文の概要: Benchmarking performance, explainability, and evaluation strategies of vision-language models for surgery: Challenges and opportunities
- arxiv url: http://arxiv.org/abs/2505.10764v1
- Date: Fri, 16 May 2025 00:42:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:13.776475
- Title: Benchmarking performance, explainability, and evaluation strategies of vision-language models for surgery: Challenges and opportunities
- Title(参考訳): 手術用視覚言語モデルのベンチマーク性能、説明可能性、評価戦略:課題と機会
- Authors: Jiajun Cheng, Xianwu Zhao, Shan Lin,
- Abstract要約: 視覚言語モデル(VLM)は多様な視覚データに強い適応性を示す。
腹腔鏡下手術や内視鏡下粘膜下郭清など,さまざまな外科的データセットにまたがるVLMのベンチマークを行った。
我々のベンチマークでは、手術シーンにおける言語と適切な領域を一貫してリンクするモデルの能力において、重要なギャップが明らかになっている。
- 参考スコア(独自算出の注目度): 2.9212404280476267
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Minimally invasive surgery (MIS) presents significant visual and technical challenges, including surgical instrument classification and understanding surgical action involving instruments, verbs, and anatomical targets. While many machine learning-based methods have been developed for surgical understanding, they typically rely on procedure- and task-specific models trained on small, manually annotated datasets. In contrast, the recent success of vision-language models (VLMs) trained on large volumes of raw image-text pairs has demonstrated strong adaptability to diverse visual data and a range of downstream tasks. This opens meaningful research questions: how well do these general-purpose VLMs perform in the surgical domain? In this work, we explore those questions by benchmarking several VLMs across diverse surgical datasets, including general laparoscopic procedures and endoscopic submucosal dissection, to assess their current capabilities and limitations. Our benchmark reveals key gaps in the models' ability to consistently link language to the correct regions in surgical scenes.
- Abstract(参考訳): 最小侵襲手術(MIS)は、手術器具の分類や、器具、動詞、解剖学的標的を含む外科的動作の理解など、視覚的および技術的に重要な課題を呈する。
外科的理解のために多くの機械学習ベースの手法が開発されているが、通常、手作業で注釈付けされた小さなデータセットで訓練された手順やタスク固有のモデルに依存している。
対照的に、視覚言語モデル(VLM)が多数の生画像テキストペアで訓練された最近の成功は、多様な視覚データや下流タスクに強い適応性を示している。
これらの汎用VLMは外科領域でどの程度機能するのか?
本研究は, 腹腔鏡下手術や内視鏡下粘膜郭清など, さまざまな外科的データセットにまたがる複数のVLMをベンチマークし, その機能と限界を評価することである。
我々のベンチマークでは、手術シーンにおける言語と適切な領域を一貫してリンクするモデルの能力において、重要なギャップが明らかになっている。
関連論文リスト
- Systematic Evaluation of Large Vision-Language Models for Surgical Artificial Intelligence [1.1765603103920352]
大規模ビジョンランゲージモデルは、AI駆動の画像理解のための新しいパラダイムを提供する。
この柔軟性は、専門家がアノテートしたデータが不足している医療全体において特に有望である。
本稿では,外科的AIにおける17の視覚的理解課題を対象に,11の最先端VLMの総合的分析を行う。
論文 参考訳(メタデータ) (2025-04-03T17:42:56Z) - EndoChat: Grounded Multimodal Large Language Model for Endoscopic Surgery [52.992415247012296]
手術シーン理解における対話のパラダイムやサブタスクに対処するために,EndoChatを導入する。
本モデルは,5つの対話パラダイムと8つの手術シーン理解タスクにまたがって,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-01-20T09:12:06Z) - Surgical-LLaVA: Toward Surgical Scenario Understanding via Large Language and Vision Models [1.4042211166197214]
手術シナリオに特化して設計されたLVLMについて紹介する。
LVLMモデルであるオペレーショナル・ラヴァを手術シナリオのデータに基づいて微調整した。
外科的ララバは、外科的文脈において、印象的なマルチモーダルチャット能力を示すことを示す実験である。
論文 参考訳(メタデータ) (2024-10-13T07:12:35Z) - Procedure-Aware Surgical Video-language Pretraining with Hierarchical Knowledge Augmentation [51.222684687924215]
手術用ビデオ言語事前学習は、知識領域のギャップとマルチモーダルデータの不足により、独特な課題に直面している。
本稿では,これらの課題に対処するために,階層的知識向上手法と新しい手術的知識向上型ビデオランゲージ事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-30T22:21:05Z) - Pixel-Wise Recognition for Holistic Surgical Scene Understanding [33.40319680006502]
本稿では,前立腺腫データセットの全体的および多角的手術シーン理解について述べる。
本ベンチマークでは,様々な粒度の相補的タスクの階層構造として,外科的シーン理解をモデル化する。
提案したベンチマークを活用するために,Transformers for Actions, Phases, Steps, and Instruments(TAPIS)モデルを導入する。
論文 参考訳(メタデータ) (2024-01-20T09:09:52Z) - Learning Multi-modal Representations by Watching Hundreds of Surgical Video Lectures [50.09187683845788]
手術用コンピュータビジョンの応用の最近の進歩は、視覚のみのモデルによって駆動されている。
これらの手法は、固定されたオブジェクトカテゴリのセットを予測するために手動で注釈付き手術ビデオに依存する。
本研究では,オープンな外科的eラーニングプラットフォームを通じて提供される外科的ビデオ講義が,効果的な視覚と言語監督の信号を提供することができるという考えを提起した。
論文 参考訳(メタデータ) (2023-07-27T22:38:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。