Fugu-MT 論文翻訳(概要): Benchmarking performance, explainability, and evaluation strategies of vision-language models for surgery: Challenges and opportunities

論文の概要: Benchmarking performance, explainability, and evaluation strategies of vision-language models for surgery: Challenges and opportunities

arxiv url: http://arxiv.org/abs/2505.10764v2
Date: Tue, 27 May 2025 23:19:43 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-29 15:04:28.029894
Title: Benchmarking performance, explainability, and evaluation strategies of vision-language models for surgery: Challenges and opportunities
Title（参考訳）: 手術用視覚言語モデルのベンチマーク性能、説明可能性、評価戦略:課題と機会
Authors: Jiajun Cheng, Xianwu Zhao, Shan Lin,
Abstract要約: 視覚言語モデル(VLM)は、大量の原画像テキストペアで訓練でき、高い適応性を示す。様々な腹腔鏡的データセットにまたがるいくつかの人気のあるVLMのベンチマーク研究を行う。その結果, 画像の非関連領域に着目しながら, 予測精度と視覚的グラウンドニングのミスマッチが明らかとなり, モデルが正しい予測を行う可能性が示唆された。
参考スコア（独自算出の注目度）: 2.9212404280476267
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Minimally invasive surgery (MIS) presents significant visual challenges, including a limited field of view, specular reflections, and inconsistent lighting conditions due to the small incision and the use of endoscopes. Over the past decade, many machine learning and deep learning models have been developed to identify and detect instruments and anatomical structures in surgical videos. However, these models are typically trained on manually labeled, procedure- and task-specific datasets that are relatively small, resulting in limited generalization to unseen data.In practice, hospitals generate a massive amount of raw surgical data every day, including videos captured during various procedures. Labeling this data is almost impractical, as it requires highly specialized expertise. The recent success of vision-language models (VLMs), which can be trained on large volumes of raw image-text pairs and exhibit strong adaptability, offers a promising alternative for leveraging unlabeled surgical data. While some existing work has explored applying VLMs to surgical tasks, their performance remains limited. To support future research in developing more effective VLMs for surgical applications, this paper aims to answer a key question: How well do existing VLMs, both general-purpose and surgery-specific perform on surgical data, and what types of scenes do they struggle with? To address this, we conduct a benchmarking study of several popular VLMs across diverse laparoscopic datasets. Specifically, we visualize the model's attention to identify which regions of the image it focuses on when making predictions for surgical tasks. We also propose a metric to evaluate whether the model attends to task-relevant regions. Our findings reveal a mismatch between prediction accuracy and visual grounding, indicating that models may make correct predictions while focusing on irrelevant areas of the image.
Abstract（参考訳）: 最小侵襲手術 (MIS) は, 視野の制限, 鏡視反射, 小型切開と内視鏡の使用による不整合性照明条件など, 重要な視覚的課題を呈する。過去10年間で、多くの機械学習とディープラーニングモデルが開発され、手術ビデオで機器や解剖学的構造を識別し、検出している。しかし、これらのモデルは通常、比較的小さなプロシージャやタスク固有のデータセットを手動でラベル付けして訓練し、その結果、目に見えないデータへの一般化が制限され、病院では、様々なプロシージャで撮影されたビデオを含む、毎日大量の生の外科的データを生成する。このデータをラベル付けするのは、非常に専門的な専門知識を必要とするため、ほとんど現実的ではありません。最近の視覚言語モデル(VLM)の成功は、大量の原画像テキストペアをトレーニングし、強力な適応性を示すことができ、ラベルなしの手術データを活用するための有望な代替手段を提供する。いくつかの既存の研究は、VLMを外科的タスクに適用することを検討しているが、その性能は限定的である。外科的応用のためのより効果的なVLMの開発における今後の研究を支援するため,既存のVLMは外科的データに対して汎用的にも手術的にも十分に機能し,どのような場面で苦しむのか,という重要な疑問に答えることを目的としている。そこで本研究では,様々な腹腔鏡的データセットにまたがるVLMのベンチマークを行った。具体的には、手術作業の予測を行う際に、対象画像のどの領域に焦点を当てているかを特定するために、モデルの注意を可視化する。また,タスク関連領域にモデルが参加するかどうかを評価する指標を提案する。その結果, 画像の非関連領域に着目しながら, 予測精度と視覚的グラウンドニングのミスマッチが明らかとなり, モデルが正しい予測を行う可能性が示唆された。

関連論文リスト

Challenging Vision-Language Models with Surgical Data: A New Dataset and Broad Benchmarking Study [0.6120768859742071]
本研究は,視覚言語モデル(VLM)の内視鏡的課題に対する能力を評価するための大規模な研究である。さまざまな最先端モデル、複数の外科的データセット、広範囲な人間の参照アノテーションを用いて、3つの重要な研究課題に対処する。以上の結果から,VLMはオブジェクトカウントやローカライゼーションなどの基本的な外科的知覚タスクを,一般的なドメインタスクに匹敵するパフォーマンスレベルで効果的に行うことができることがわかった。
論文参考訳（メタデータ） (2025-06-06T16:53:12Z)
Systematic Evaluation of Large Vision-Language Models for Surgical Artificial Intelligence [1.1765603103920352]
大規模ビジョンランゲージモデルは、AI駆動の画像理解のための新しいパラダイムを提供する。この柔軟性は、専門家がアノテートしたデータが不足している医療全体において特に有望である。本稿では,外科的AIにおける17の視覚的理解課題を対象に,11の最先端VLMの総合的分析を行う。
論文参考訳（メタデータ） (2025-04-03T17:42:56Z)
Retrieval Augmented Generation and Understanding in Vision: A Survey and New Outlook [85.43403500874889]
Retrieval-augmented Generation (RAG) は人工知能(AI)において重要な技術である。具体化されたAIのためのRAGの最近の進歩は、特に計画、タスク実行、マルチモーダル知覚、インタラクション、特殊ドメインの応用に焦点を当てている。
論文参考訳（メタデータ） (2025-03-23T10:33:28Z)
A Data-Centric Revisit of Pre-Trained Vision Models for Robot Learning [67.72413262980272]
事前訓練された視覚モデル(PVM)は現代のロボティクスの基本であるが、その最適構成は定かではない。セマンティック・ボトルネックを導入してオブジェクト中心の表現を誘導する手法であるSlotMIMを開発した。提案手法は,画像認識,シーン理解,ロボット学習評価において,従来の作業よりも大幅に改善されている。
論文参考訳（メタデータ） (2025-03-10T06:18:31Z)
VACT: A Video Automatic Causal Testing System and a Benchmark [55.53300306960048]
VACTは、現実世界のシナリオにおけるVGMの因果的理解をモデル化、評価、測定するための**自動**フレームワークである。マルチレベル因果評価指標を導入し、VGMの因果性能を詳細に分析する。
論文参考訳（メタデータ） (2025-03-08T10:54:42Z)
EndoChat: Grounded Multimodal Large Language Model for Endoscopic Surgery [52.992415247012296]
手術シーン理解における対話のパラダイムやサブタスクに対処するために,EndoChatを導入する。本モデルは,5つの対話パラダイムと8つの手術シーン理解タスクにまたがって,最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-01-20T09:12:06Z)
Surgical-LLaVA: Toward Surgical Scenario Understanding via Large Language and Vision Models [1.4042211166197214]
手術シナリオに特化して設計されたLVLMについて紹介する。 LVLMモデルであるオペレーショナル・ラヴァを手術シナリオのデータに基づいて微調整した。外科的ララバは、外科的文脈において、印象的なマルチモーダルチャット能力を示すことを示す実験である。
論文参考訳（メタデータ） (2024-10-13T07:12:35Z)
Procedure-Aware Surgical Video-language Pretraining with Hierarchical Knowledge Augmentation [51.222684687924215]
手術用ビデオ言語事前学習は、知識領域のギャップとマルチモーダルデータの不足により、独特な課題に直面している。本稿では,これらの課題に対処するために,階層的知識向上手法と新しい手術的知識向上型ビデオランゲージ事前学習フレームワークを提案する。
論文参考訳（メタデータ） (2024-09-30T22:21:05Z)
ReVLA: Reverting Visual Domain Limitation of Robotic Foundation Models [55.07988373824348]
既存の3つのロボット基礎モデルの視覚的一般化能力について検討する。本研究は,既存のモデルがドメイン外シナリオに対する堅牢性を示していないことを示す。モデルマージに基づく段階的なバックボーンリバーサルアプローチを提案する。
論文参考訳（メタデータ） (2024-09-23T17:47:59Z)
ORacle: Large Vision-Language Models for Knowledge-Guided Holistic OR Domain Modeling [41.30327565949726]
ORacleは、汎用ORドメインモデリング用に設計された高度な視覚言語モデルである。マルチビューとテンポラリな機能を備えており、推論中に外部の知識を活用でき、これまで見つからなかった手術シナリオに適応することができる。厳密なテスト、シーングラフ生成、および4D-ORデータセットの下流タスクでは、ORacleは最先端のパフォーマンスを示すだけでなく、既存のモデルよりも少ないデータを必要とする。
論文参考訳（メタデータ） (2024-04-10T14:24:10Z)
Pixel-Wise Recognition for Holistic Surgical Scene Understanding [33.40319680006502]
本稿では,前立腺腫データセットの全体的および多角的手術シーン理解について述べる。本ベンチマークでは,様々な粒度の相補的タスクの階層構造として,外科的シーン理解をモデル化する。提案したベンチマークを活用するために,Transformers for Actions, Phases, Steps, and Instruments(TAPIS)モデルを導入する。
論文参考訳（メタデータ） (2024-01-20T09:09:52Z)
Learning Multi-modal Representations by Watching Hundreds of Surgical Video Lectures [50.09187683845788]
手術用コンピュータビジョンの応用の最近の進歩は、視覚のみのモデルによって駆動されている。これらの手法は、固定されたオブジェクトカテゴリのセットを予測するために手動で注釈付き手術ビデオに依存する。本研究では,オープンな外科的eラーニングプラットフォームを通じて提供される外科的ビデオ講義が,効果的な視覚と言語監督の信号を提供することができるという考えを提起した。
論文参考訳（メタデータ） (2023-07-27T22:38:12Z)
Dissecting Self-Supervised Learning Methods for Surgical Computer Vision [51.370873913181605]
一般のコンピュータビジョンコミュニティでは,自己監視学習(SSL)手法が普及し始めている。医学や手術など、より複雑で影響力のある領域におけるSSLメソッドの有効性は、限定的かつ未調査のままである。外科的文脈理解,位相認識,ツール存在検出の2つの基本的なタスクに対して,これらの手法の性能をColec80データセット上で広範囲に解析する。
論文参考訳（メタデータ） (2022-07-01T14:17:11Z)
Surgical Visual Domain Adaptation: Results from the MICCAI 2020 SurgVisDom Challenge [9.986124942784969]
この研究は、データプライバシの懸念を克服するために、手術における視覚領域適応の可能性を探究する。特に,外科手術のバーチャルリアリティ(VR)シミュレーションのビデオを用いて,臨床ライクな環境下でのタスク認識アルゴリズムの開発を提案する。課題参加者によって開発された視覚的ドメイン適応を解決するためのさまざまなアプローチのパフォーマンスを紹介します。
論文参考訳（メタデータ） (2021-02-26T18:45:28Z)
Machine learning-based clinical prediction modeling -- A practical guide for clinicians [0.0]
機械学習や人工知能に関連する原稿の数は、ここ数年で指数関数的に増えている。第1節では、機械学習の一般的な原理について解説する。さらに,再サンプリング,オーバーフィッティング,モデル一般化性の重要性とモデル評価戦略を概観する。
論文参考訳（メタデータ） (2020-06-23T20:11:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。