論文の概要: SAP-Bench: Benchmarking Multimodal Large Language Models in Surgical Action Planning
- arxiv url: http://arxiv.org/abs/2506.07196v2
- Date: Fri, 13 Jun 2025 15:23:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 13:34:01.93999
- Title: SAP-Bench: Benchmarking Multimodal Large Language Models in Surgical Action Planning
- Title(参考訳): SAP-Bench: 手術行動計画における多モード大言語モデルのベンチマーク
- Authors: Mengya Xu, Zhongzhen Huang, Dillan Imans, Yiru Ye, Xiaofan Zhang, Qi Dou,
- Abstract要約: SAP-Benchは,多モーダル大言語モデル(MLLM)が解釈可能な手術行動計画を実行可能にするために設計された高品質なデータセットである。
我々のデータセットは、戦略的にサンプリングされた1,152個の電流フレームを提供し、それぞれが対応する次のアクションをマルチモーダル解析アンカーとしてペアリングする。
本稿では,MLLMを利用したMLLM-SAPフレームワークを提案する。
- 参考スコア(独自算出の注目度): 12.119082637875303
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effective evaluation is critical for driving advancements in MLLM research. The surgical action planning (SAP) task, which aims to generate future action sequences from visual inputs, demands precise and sophisticated analytical capabilities. Unlike mathematical reasoning, surgical decision-making operates in life-critical domains and requires meticulous, verifiable processes to ensure reliability and patient safety. This task demands the ability to distinguish between atomic visual actions and coordinate complex, long-horizon procedures, capabilities that are inadequately evaluated by current benchmarks. To address this gap, we introduce SAP-Bench, a large-scale, high-quality dataset designed to enable multimodal large language models (MLLMs) to perform interpretable surgical action planning. Our SAP-Bench benchmark, derived from the cholecystectomy procedures context with the mean duration of 1137.5s, and introduces temporally-grounded surgical action annotations, comprising the 1,226 clinically validated action clips (mean duration: 68.7s) capturing five fundamental surgical actions across 74 procedures. The dataset provides 1,152 strategically sampled current frames, each paired with the corresponding next action as multimodal analysis anchors. We propose the MLLM-SAP framework that leverages MLLMs to generate next action recommendations from the current surgical scene and natural language instructions, enhanced with injected surgical domain knowledge. To assess our dataset's effectiveness and the broader capabilities of current models, we evaluate seven state-of-the-art MLLMs (e.g., OpenAI-o1, GPT-4o, QwenVL2.5-72B, Claude-3.5-Sonnet, GeminiPro2.5, Step-1o, and GLM-4v) and reveal critical gaps in next action prediction performance.
- Abstract(参考訳): MLLM研究の推進には効果的な評価が重要である。
手術行動計画(SAP)タスクは、視覚入力から将来の行動シーケンスを生成することを目的としており、精密で洗練された分析能力を必要とする。
数学的推論とは異なり、外科的意思決定は生命クリティカルな領域で機能し、信頼性と患者の安全性を確保するために精巧で検証可能なプロセスを必要とする。
このタスクは、原子の視覚的アクションを区別し、現在のベンチマークで不適切に評価されている複雑な長い水平手順をコーディネートする能力を必要とする。
このギャップに対処するために,多モーダル大言語モデル(MLLM)が解釈可能な手術行動計画を実行可能にするために設計された,大規模で高品質なデータセットであるSAP-Benchを紹介する。
SAP-Benchベンチマークは胆嚢摘出術の文脈と平均1137.5秒の時間的経過から得られたもので, 臨床的に検証された1,226のアクションクリップ(平均68.7秒)を含む側頭葉手術のアノテーションを導入し, 74の手順で5つの基本的な外科的アクションを抽出した。
データセットは、戦略的にサンプリングされた1,152個の電流フレームを提供し、それぞれが、マルチモーダル分析アンカーとして、対応する次のアクションとペアリングする。
本稿では,MLLMを利用したMLLM-SAPフレームワークを提案する。
我々のデータセットの有効性と現在のモデルの性能を評価するため、我々は7つの最先端MLLM(例:OpenAI-o1, GPT-4o, QwenVL2.5-72B, Claude-3.5-Sonnet, GeminiPro2.5, Step-1o, GLM-4v)を評価し、次のアクション予測性能における重要なギャップを明らかにする。
関連論文リスト
- SurgVLM: A Large Vision-Language Model and Systematic Evaluation Benchmark for Surgical Intelligence [72.10889173696928]
SurgVLMは,外科的知能に関する最初の大規模視覚言語基盤モデルの一つである。
我々は16種以上の外科的タイプと18の解剖学的構造にまたがる大規模なマルチモーダル手術データベースSurgVLM-DBを構築した。
この包括的データセットに基づいて,Qwen2.5-VLをベースとしたSurgVLMを提案する。
論文 参考訳(メタデータ) (2025-06-03T07:44:41Z) - Benchmarking performance, explainability, and evaluation strategies of vision-language models for surgery: Challenges and opportunities [2.9212404280476267]
視覚言語モデル(VLM)は、大量の原画像テキストペアで訓練でき、高い適応性を示す。
様々な腹腔鏡的データセットにまたがるいくつかの人気のあるVLMのベンチマーク研究を行う。
その結果, 画像の非関連領域に着目しながら, 予測精度と視覚的グラウンドニングのミスマッチが明らかとなり, モデルが正しい予測を行う可能性が示唆された。
論文 参考訳(メタデータ) (2025-05-16T00:42:18Z) - Surgical Action Planning with Large Language Models [14.962190341695607]
手術行動計画(SAP)タスクを導入し、視覚入力から将来の行動計画を生成し、現在のインテリジェントアプリケーションにおける術中予測計画の欠如に対処する。
LLMは外科的ビデオの内容を理解することを約束するが、SAPにおける予測的意思決定には未熟である。
LLM-SAPは,外科的目標の自然言語プロンプトを解釈することで,将来の行動を予測するとともに,テキスト応答を生成するフレームワークである。
論文 参考訳(メタデータ) (2025-03-24T03:02:04Z) - EmbodiedEval: Evaluate Multimodal LLMs as Embodied Agents [57.4686961979566]
EmbodiedEvalは、組み込みタスクを持つMLLMの総合的かつインタラクティブな評価ベンチマークである。
多様性が大幅に向上した既存のAIタスクの幅広い範囲をカバーする。
EmbodiedEval における最先端MLLM の評価を行い,人体作業における人体レベルと比較して有意に不足していることがわかった。
論文 参考訳(メタデータ) (2025-01-21T03:22:10Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - Demystifying Large Language Models for Medicine: A Primer [50.83806796466396]
大規模言語モデル(LLM)は、医療のさまざまな側面に革命をもたらすことのできる、変革的なAIツールのクラスである。
本チュートリアルは、LSMを臨床実践に効果的に統合するために必要なツールを医療専門家に提供することを目的としている。
論文 参考訳(メタデータ) (2024-10-24T15:41:56Z) - ActPlan-1K: Benchmarking the Procedural Planning Ability of Visual Language Models in Household Activities [42.17465719784928]
ActPlan-1KはChatGPTと家庭用アクティビティシミュレータiGibson2に基づいて構築されたマルチモーダル計画ベンチマークである。
現在のVLMは、正常な活動と反現実的な活動の両方のために、人間レベルの手続き的な計画を作成するのに苦戦していることが判明した。
論文 参考訳(メタデータ) (2024-10-04T20:21:40Z) - CholecTriplet2021: A benchmark challenge for surgical action triplet
recognition [66.51610049869393]
腹腔鏡下手術における三肢の認識のためにMICCAI 2021で実施した内視鏡的視力障害であるColecTriplet 2021を提案する。
課題の参加者が提案する最先端の深層学習手法の課題設定と評価について述べる。
4つのベースライン法と19の新しいディープラーニングアルゴリズムが提示され、手術ビデオから直接手術行動三重項を認識し、平均平均精度(mAP)は4.2%から38.1%である。
論文 参考訳(メタデータ) (2022-04-10T18:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。