論文の概要: SurgMLLMBench: A Multimodal Large Language Model Benchmark Dataset for Surgical Scene Understanding
- arxiv url: http://arxiv.org/abs/2511.21339v1
- Date: Wed, 26 Nov 2025 12:44:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:59.093426
- Title: SurgMLLMBench: A Multimodal Large Language Model Benchmark Dataset for Surgical Scene Understanding
- Title(参考訳): SurgMLLMBench: 手術シーン理解のための多モード大言語モデルベンチマークデータセット
- Authors: Tae-Min Choi, Tae Kyeong Jeong, Garam Kim, Jaemin Lee, Yeongyoon Koh, In Cheul Choi, Jae-Ho Chung, Jong Woong Park, Juyoun Park,
- Abstract要約: 本稿では,対話型マルチモーダル大言語モデルの開発と評価のための統一ベンチマークであるSurgMLLMBenchを紹介する。
ピクセルレベルの機器セグメンテーションマスクと、腹腔鏡、ロボット支援、マイクロサージカルドメインにまたがる構造化VQAアノテーションを統合している。
ドメイン間で一貫したパフォーマンスを実現し、目に見えないデータセットに効果的に一般化する。
- 参考スコア(独自算出の注目度): 8.20483591990742
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in multimodal large language models (LLMs) have highlighted their potential for medical and surgical applications. However, existing surgical datasets predominantly adopt a Visual Question Answering (VQA) format with heterogeneous taxonomies and lack support for pixel-level segmentation, limiting consistent evaluation and applicability. We present SurgMLLMBench, a unified multimodal benchmark explicitly designed for developing and evaluating interactive multimodal LLMs for surgical scene understanding, including the newly collected Micro-surgical Artificial Vascular anastomosIS (MAVIS) dataset. It integrates pixel-level instrument segmentation masks and structured VQA annotations across laparoscopic, robot-assisted, and micro-surgical domains under a unified taxonomy, enabling comprehensive evaluation beyond traditional VQA tasks and richer visual-conversational interactions. Extensive baseline experiments show that a single model trained on SurgMLLMBench achieves consistent performance across domains and generalizes effectively to unseen datasets. SurgMLLMBench will be publicly released as a robust resource to advance multimodal surgical AI research, supporting reproducible evaluation and development of interactive surgical reasoning models.
- Abstract(参考訳): マルチモーダル大言語モデル(LLM)の最近の進歩は、医学的および外科的応用の可能性を強調している。
しかし、既存の外科的データセットは、不均一な分類とピクセルレベルのセグメンテーションのサポートの欠如、一貫した評価と適用性を制限した視覚的質問回答(VQA)フォーマットを主に採用している。
SurgMLLMBenchは,外科的シーン理解のための対話型マルチモーダルLLMの開発と評価を目的とした統一型マルチモーダルベンチマークであり,新たに収集したマイクロサージカル人工血管奇形(MAVIS)データセットを含む。
ピクセルレベルの計器セグメンテーションマスクと、腹腔鏡、ロボット支援、マイクロサージカルドメインにまたがる構造化VQAアノテーションを統合し、従来のVQAタスクを超えて包括的な評価を可能にし、よりリッチな視覚・会話インタラクションを可能にする。
大規模なベースライン実験では、SurgMLLMBenchでトレーニングされた1つのモデルが、ドメイン間で一貫したパフォーマンスを実現し、目に見えないデータセットに効果的に一般化している。
SurgMLLMBenchは、マルチモーダルな外科的AI研究を進めるための堅牢なリソースとして公開され、再現可能な評価とインタラクティブな外科的推論モデルの開発をサポートする。
関連論文リスト
- SurgVLM: A Large Vision-Language Model and Systematic Evaluation Benchmark for Surgical Intelligence [72.10889173696928]
SurgVLMは,外科的知能に関する最初の大規模視覚言語基盤モデルの一つである。
我々は16種以上の外科的タイプと18の解剖学的構造にまたがる大規模なマルチモーダル手術データベースSurgVLM-DBを構築した。
この包括的データセットに基づいて,Qwen2.5-VLをベースとしたSurgVLMを提案する。
論文 参考訳(メタデータ) (2025-06-03T07:44:41Z) - EndoBench: A Comprehensive Evaluation of Multi-Modal Large Language Models for Endoscopy Analysis [62.00431604976949]
EndoBenchは、内視鏡的プラクティスの全スペクトルにわたるMLLMを評価するために特別に設計された最初の包括的なベンチマークである。
我々は、汎用、医療特化、プロプライエタリMLLMを含む23の最先端モデルをベンチマークする。
私たちの実験では、プロプライエタリなMLLMは、オープンソースや医療専門のモデルよりも優れていますが、それでも人間の専門家を追い越しています。
論文 参考訳(メタデータ) (2025-05-29T16:14:34Z) - SurgXBench: Explainable Vision-Language Model Benchmark for Surgery [4.068223793121694]
VLM(Vision-Language Models)は、視覚とテキストのモダリティを横断する推論において、革新的な進歩をもたらした。
既存のモデルはパフォーマンスが限られており、その能力と限界を評価するためのベンチマーク研究の必要性を強調している。
ロボット支援型腹腔鏡による機器分類と動作分類のための2つのデータセットに対して,いくつかの先進VLMのゼロショット性能をベンチマークした。
論文 参考訳(メタデータ) (2025-05-16T00:42:18Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - Surgical-LVLM: Learning to Adapt Large Vision-Language Model for Grounded Visual Question Answering in Robotic Surgery [15.47190687192761]
本稿では, 複雑な手術シナリオに適した, パーソナライズされた大規模視覚言語モデルであるオペレーショナル-LVLMを紹介する。
本研究では,EndoVis-17-VQLA,EndoVis-18-VQLA,新たに導入されたEndoVis Conversationsデータセットなど,いくつかのベンチマークにおける手術用LVLMの有効性を示す。
論文 参考訳(メタデータ) (2024-03-22T08:38:27Z) - LLM-Assisted Multi-Teacher Continual Learning for Visual Question Answering in Robotic Surgery [57.358568111574314]
患者のデータのプライバシは、モデル更新時に古いデータの可用性を制限することが多い。
CL研究は外科領域で2つの重要な問題を見落としていた。
本稿では,多モーダル大規模言語モデル (LLM) と適応重み付け手法を用いて,これらの問題に対処することを提案する。
論文 参考訳(メタデータ) (2024-02-26T15:35:24Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - Pixel-Wise Recognition for Holistic Surgical Scene Understanding [33.40319680006502]
本稿では,前立腺腫データセットの全体的および多角的手術シーン理解について述べる。
本ベンチマークでは,様々な粒度の相補的タスクの階層構造として,外科的シーン理解をモデル化する。
提案したベンチマークを活用するために,Transformers for Actions, Phases, Steps, and Instruments(TAPIS)モデルを導入する。
論文 参考訳(メタデータ) (2024-01-20T09:09:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。