論文の概要: Evaluating Large Vision-language Models for Surgical Tool Detection
- arxiv url: http://arxiv.org/abs/2601.16895v1
- Date: Fri, 23 Jan 2026 17:00:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.771551
- Title: Evaluating Large Vision-language Models for Surgical Tool Detection
- Title(参考訳): 手術用ツール検出のための大規模視覚言語モデルの評価
- Authors: Nakul Poudel, Richard Simon, Cristian A. Linte,
- Abstract要約: 外科的ツール検出の基礎的視覚課題に対する大規模視覚言語モデルの有効性を評価する。
Qwen2.5は、評価されたVLM間の両方の構成において、優れた検出性能を一貫して達成する。
- 参考スコア(独自算出の注目度): 0.866627581195388
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Surgery is a highly complex process, and artificial intelligence has emerged as a transformative force in supporting surgical guidance and decision-making. However, the unimodal nature of most current AI systems limits their ability to achieve a holistic understanding of surgical workflows. This highlights the need for general-purpose surgical AI systems capable of comprehensively modeling the interrelated components of surgical scenes. Recent advances in large vision-language models that integrate multimodal data processing offer strong potential for modeling surgical tasks and providing human-like scene reasoning and understanding. Despite their promise, systematic investigations of VLMs in surgical applications remain limited. In this study, we evaluate the effectiveness of large VLMs for the fundamental surgical vision task of detecting surgical tools. Specifically, we investigate three state-of-the-art VLMs, Qwen2.5, LLaVA1.5, and InternVL3.5, on the GraSP robotic surgery dataset under both zero-shot and parameter-efficient LoRA fine-tuning settings. Our results demonstrate that Qwen2.5 consistently achieves superior detection performance in both configurations among the evaluated VLMs. Furthermore, compared with the open-set detection baseline Grounding DINO, Qwen2.5 exhibits stronger zero-shot generalization and comparable fine-tuned performance. Notably, Qwen2.5 shows superior instrument recognition, while Grounding DINO demonstrates stronger localization.
- Abstract(参考訳): 手術は非常に複雑なプロセスであり、人工知能は外科的指導と意思決定を支援するための変革的な力として現れてきた。
しかし、現在のほとんどのAIシステムの単調な性質は、外科的ワークフローの全体的理解を達成する能力を制限する。
このことは、外科シーンの相互関連コンポーネントを包括的にモデル化できる汎用的な外科用AIシステムの必要性を強調している。
マルチモーダルデータ処理を統合した大規模視覚言語モデルの最近の進歩は、外科的タスクをモデル化し、人間のようなシーン推論と理解を提供する強力な可能性を秘めている。
その約束にもかかわらず、外科的応用におけるVLMの体系的な研究は依然として限られている。
本研究では,大規模なVLMが外科的ツール検出の基本的な手術視力向上に有効であることを示す。
具体的には、ゼロショットとパラメータ効率の両面において、GraSPロボット手術データセット上で、最先端の3つのVLM、Qwen2.5、LLaVA1.5、InternVL3.5について検討する。
以上の結果から, 評価VLMの両構成において, Qwen2.5は連続的に優れた検出性能を発揮することが示された。
さらに、オープンセット検出ベースラインである Grounding DINO と比較して、Qwen2.5 はより強力なゼロショット一般化と同等の微調整性能を示す。
特にQwen2.5は優れた楽器認識を示し、Grounding DINOはより強力なローカライゼーションを示している。
関連論文リスト
- How Far Are Surgeons from Surgical World Models? A Pilot Study on Zero-shot Surgical Video Generation with Expert Assessment [69.13598421861654]
本稿では,手術におけるビデオ生成モデル評価のための専門家による最初のベンチマークであるSurgVeoを紹介する。
腹腔鏡下手術と神経外科手術の手術クリップにゼロショット予測タスクを施した高度なVeo-3モデルを課題とする。
以上の結果から,Veo-3は異常な視覚的視認性を示すが,手術的視認性ピラミッドの高位では致命的に失敗することが明らかとなった。
論文 参考訳(メタデータ) (2025-11-03T17:28:54Z) - SurgVidLM: Towards Multi-grained Surgical Video Understanding with Large Language Model [67.8359850515282]
SurgVidLMは、完全かつきめ細かい外科的ビデオ理解に対処するために設計された最初のビデオ言語モデルである。
我々は,SurgVidLMが,映像理解タスクと細粒度ビデオ理解タスクの両方において,同等のパラメータスケールの最先端のVid-LLMを著しく上回ることを示す。
論文 参考訳(メタデータ) (2025-06-22T02:16:18Z) - Challenging Vision-Language Models with Surgical Data: A New Dataset and Broad Benchmarking Study [0.6120768859742071]
本研究は,視覚言語モデル(VLM)の内視鏡的課題に対する能力を評価するための大規模な研究である。
さまざまな最先端モデル、複数の外科的データセット、広範囲な人間の参照アノテーションを用いて、3つの重要な研究課題に対処する。
以上の結果から,VLMはオブジェクトカウントやローカライゼーションなどの基本的な外科的知覚タスクを,一般的なドメインタスクに匹敵するパフォーマンスレベルで効果的に行うことができることがわかった。
論文 参考訳(メタデータ) (2025-06-06T16:53:12Z) - SurgVLM: A Large Vision-Language Model and Systematic Evaluation Benchmark for Surgical Intelligence [72.10889173696928]
SurgVLMは,外科的知能に関する最初の大規模視覚言語基盤モデルの一つである。
我々は16種以上の外科的タイプと18の解剖学的構造にまたがる大規模なマルチモーダル手術データベースSurgVLM-DBを構築した。
この包括的データセットに基づいて,Qwen2.5-VLをベースとしたSurgVLMを提案する。
論文 参考訳(メタデータ) (2025-06-03T07:44:41Z) - Surgical Foundation Model Leveraging Compression and Entropy Maximization for Image-Guided Surgical Assistance [50.486523249499115]
低侵襲手術(MIS)におけるリアルタイム映像理解の重要性
手術ビデオからコンパクトで情報的表現を学習するための,新しい自己教師型フレームワークであるCompress-to-Explore (C2E)を提案する。
C2Eは、エントロピー最大化デコーダを使用して、臨床的に関連する詳細を保持しながら画像を圧縮し、ラベル付きデータなしでエンコーダのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2025-05-16T14:02:24Z) - SurgXBench: Explainable Vision-Language Model Benchmark for Surgery [4.068223793121694]
VLM(Vision-Language Models)は、視覚とテキストのモダリティを横断する推論において、革新的な進歩をもたらした。
既存のモデルはパフォーマンスが限られており、その能力と限界を評価するためのベンチマーク研究の必要性を強調している。
ロボット支援型腹腔鏡による機器分類と動作分類のための2つのデータセットに対して,いくつかの先進VLMのゼロショット性能をベンチマークした。
論文 参考訳(メタデータ) (2025-05-16T00:42:18Z) - Deep Learning for Surgical Instrument Recognition and Segmentation in Robotic-Assisted Surgeries: A Systematic Review [0.24342814271497581]
ロボットによる最小侵襲手術における手術器具のアノテートのための深層学習(DL)の適用は,手術技術の大幅な進歩を示している。
これらの高度なDLモデルは、手術器具の検出と分節の精度と効率を顕著に改善した。
外科教育におけるDLの応用は変革的である。
論文 参考訳(メタデータ) (2024-10-09T04:07:38Z) - Next-generation Surgical Navigation: Marker-less Multi-view 6DoF Pose Estimation of Surgical Instruments [64.59698930334012]
静止カメラとヘッドマウントカメラを組み合わせたマルチカメラ・キャプチャー・セットアップを提案する。
第2に,手術用ウェットラボと実際の手術用劇場で撮影された元脊椎手術のマルチビューRGB-Dビデオデータセットを公表した。
第3に,手術器具の6DoFポーズ推定の課題に対して,最先端のシングルビューとマルチビューの3つの手法を評価した。
論文 参考訳(メタデータ) (2023-05-05T13:42:19Z) - CholecTriplet2021: A benchmark challenge for surgical action triplet
recognition [66.51610049869393]
腹腔鏡下手術における三肢の認識のためにMICCAI 2021で実施した内視鏡的視力障害であるColecTriplet 2021を提案する。
課題の参加者が提案する最先端の深層学習手法の課題設定と評価について述べる。
4つのベースライン法と19の新しいディープラーニングアルゴリズムが提示され、手術ビデオから直接手術行動三重項を認識し、平均平均精度(mAP)は4.2%から38.1%である。
論文 参考訳(メタデータ) (2022-04-10T18:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。