論文の概要: SurgVLM: A Large Vision-Language Model and Systematic Evaluation Benchmark for Surgical Intelligence
- arxiv url: http://arxiv.org/abs/2506.02555v1
- Date: Tue, 03 Jun 2025 07:44:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.406104
- Title: SurgVLM: A Large Vision-Language Model and Systematic Evaluation Benchmark for Surgical Intelligence
- Title(参考訳): SurgVLM: 手術情報のための大規模視線モデルとシステム評価ベンチマーク
- Authors: Zhitao Zeng, Zhu Zhuo, Xiaojun Jia, Erli Zhang, Junde Wu, Jiaan Zhang, Yuxuan Wang, Chang Han Low, Jian Jiang, Zilong Zheng, Xiaochun Cao, Yutong Ban, Qi Dou, Yang Liu, Yueming Jin,
- Abstract要約: SurgVLMは,外科的知能に関する最初の大規模視覚言語基盤モデルの一つである。
我々は16種以上の外科的タイプと18の解剖学的構造にまたがる大規模なマルチモーダル手術データベースSurgVLM-DBを構築した。
この包括的データセットに基づいて,Qwen2.5-VLをベースとしたSurgVLMを提案する。
- 参考スコア(独自算出の注目度): 72.10889173696928
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Foundation models have achieved transformative success across biomedical domains by enabling holistic understanding of multimodal data. However, their application in surgery remains underexplored. Surgical intelligence presents unique challenges - requiring surgical visual perception, temporal analysis, and reasoning. Existing general-purpose vision-language models fail to address these needs due to insufficient domain-specific supervision and the lack of a large-scale high-quality surgical database. To bridge this gap, we propose SurgVLM, one of the first large vision-language foundation models for surgical intelligence, where this single universal model can tackle versatile surgical tasks. To enable this, we construct a large-scale multimodal surgical database, SurgVLM-DB, comprising over 1.81 million frames with 7.79 million conversations, spanning more than 16 surgical types and 18 anatomical structures. We unify and reorganize 23 public datasets across 10 surgical tasks, followed by standardizing labels and doing hierarchical vision-language alignment to facilitate comprehensive coverage of gradually finer-grained surgical tasks, from visual perception, temporal analysis, to high-level reasoning. Building upon this comprehensive dataset, we propose SurgVLM, which is built upon Qwen2.5-VL, and undergoes instruction tuning to 10+ surgical tasks. We further construct a surgical multimodal benchmark, SurgVLM-Bench, for method evaluation. SurgVLM-Bench consists of 6 popular and widely-used datasets in surgical domain, covering several crucial downstream tasks. Based on SurgVLM-Bench, we evaluate the performance of our SurgVLM (3 SurgVLM variants: SurgVLM-7B, SurgVLM-32B, and SurgVLM-72B), and conduct comprehensive comparisons with 14 mainstream commercial VLMs (e.g., GPT-4o, Gemini 2.0 Flash, Qwen2.5-Max).
- Abstract(参考訳): 基礎モデルは、マルチモーダルデータの全体的理解を可能にすることによって、バイオメディカルドメイン全体の変革的な成功を実現している。
しかし、手術への応用はいまだに未定である。
外科的知能は、外科的視覚知覚、時間的分析、推論といった、ユニークな課題を提示する。
既存の汎用視覚言語モデルは、ドメイン固有の監督が不十分で、大規模な高品質の手術データベースが欠如しているため、これらのニーズに対処できない。
このギャップを埋めるために、我々はSurgVLMを提案する。SurgVLMは、外科知能のための最初の大きな視覚言語基盤モデルの一つであり、この単一の普遍モデルが汎用的な外科的タスクに取り組むことができる。
これを実現するため,大規模な多モード手術データベースであるSurgVLM-DBを構築した。
我々は10の外科的タスクにまたがって23の公開データセットを統一・再構成し、続いてラベルの標準化と階層的視覚言語アライメントを行い、視覚的知覚から時間的分析、高レベルの推論に至るまで、徐々にきめ細かな外科的タスクを包括的にカバーしやすくする。
この包括的データセットに基づいて,Qwen2.5-VLをベースとしたSurgVLMを提案する。
さらに,SurgVLM-Benchという手術用マルチモーダルベンチマークを構築し,評価を行った。
SurgVLM-Benchは外科領域で広く使われている6つのデータセットで構成され、いくつかの重要な下流のタスクをカバーしている。
SurgVLM-Benchに基づいて、SurgVLM(SurgVLM-7B, SurgVLM-32B, SurgVLM-72B)の性能を評価し、14の主要な商用VLM(GPT-4o, Gemini 2.0 Flash, Qwen2.5-Max)と比較した。
関連論文リスト
- Benchmarking performance, explainability, and evaluation strategies of vision-language models for surgery: Challenges and opportunities [2.9212404280476267]
視覚言語モデル(VLM)は、大量の原画像テキストペアで訓練でき、高い適応性を示す。
様々な腹腔鏡的データセットにまたがるいくつかの人気のあるVLMのベンチマーク研究を行う。
その結果, 画像の非関連領域に着目しながら, 予測精度と視覚的グラウンドニングのミスマッチが明らかとなり, モデルが正しい予測を行う可能性が示唆された。
論文 参考訳(メタデータ) (2025-05-16T00:42:18Z) - Recognize Any Surgical Object: Unleashing the Power of Weakly-Supervised Data [15.00025814170182]
RASOは外科的対象を認識するために設計された基礎モデルである。
大規模な未発表の外科的講義ビデオからタグと画像のペアを自動生成する。
我々のスケーラブルなデータ生成パイプラインは2200の手術手順を集め、360万のタグアノテーションを生成します。
論文 参考訳(メタデータ) (2025-01-25T21:01:52Z) - EndoChat: Grounded Multimodal Large Language Model for Endoscopic Surgery [52.992415247012296]
手術シーン理解における対話のパラダイムやサブタスクに対処するために,EndoChatを導入する。
本モデルは,5つの対話パラダイムと8つの手術シーン理解タスクにまたがって,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-01-20T09:12:06Z) - GP-VLS: A general-purpose vision language model for surgery [0.5249805590164902]
GP-VLSは手術のための汎用視覚言語モデルである。
医学的および外科的知識と視覚的シーン理解を統合している。
GP-VLSは,手術用視覚言語タスクにおいて,オープンソースモデルやクローズドソースモデルよりも有意に優れていた。
論文 参考訳(メタデータ) (2024-07-27T17:27:05Z) - Learning Multi-modal Representations by Watching Hundreds of Surgical Video Lectures [50.09187683845788]
手術用コンピュータビジョンの応用の最近の進歩は、視覚のみのモデルによって駆動されている。
これらの手法は、固定されたオブジェクトカテゴリのセットを予測するために手動で注釈付き手術ビデオに依存する。
本研究では,オープンな外科的eラーニングプラットフォームを通じて提供される外科的ビデオ講義が,効果的な視覚と言語監督の信号を提供することができるという考えを提起した。
論文 参考訳(メタデータ) (2023-07-27T22:38:12Z) - Next-generation Surgical Navigation: Marker-less Multi-view 6DoF Pose Estimation of Surgical Instruments [64.59698930334012]
静止カメラとヘッドマウントカメラを組み合わせたマルチカメラ・キャプチャー・セットアップを提案する。
第2に,手術用ウェットラボと実際の手術用劇場で撮影された元脊椎手術のマルチビューRGB-Dビデオデータセットを公表した。
第3に,手術器具の6DoFポーズ推定の課題に対して,最先端のシングルビューとマルチビューの3つの手法を評価した。
論文 参考訳(メタデータ) (2023-05-05T13:42:19Z) - CholecTriplet2021: A benchmark challenge for surgical action triplet
recognition [66.51610049869393]
腹腔鏡下手術における三肢の認識のためにMICCAI 2021で実施した内視鏡的視力障害であるColecTriplet 2021を提案する。
課題の参加者が提案する最先端の深層学習手法の課題設定と評価について述べる。
4つのベースライン法と19の新しいディープラーニングアルゴリズムが提示され、手術ビデオから直接手術行動三重項を認識し、平均平均精度(mAP)は4.2%から38.1%である。
論文 参考訳(メタデータ) (2022-04-10T18:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。