論文の概要: NeuroABench: A Multimodal Evaluation Benchmark for Neurosurgical Anatomy Identification
- arxiv url: http://arxiv.org/abs/2512.06921v1
- Date: Sun, 07 Dec 2025 17:00:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.589364
- Title: NeuroABench: A Multimodal Evaluation Benchmark for Neurosurgical Anatomy Identification
- Title(参考訳): NeuroABench: 神経外科解剖診断のためのマルチモーダル評価ベンチマーク
- Authors: Ziyang Song, Zelin Zang, Xiaofan Ye, Boqiang Xu, Long Bai, Jinlin Wu, Hongliang Ren, Hongbin Liu, Jiebo Luo, Zhen Lei,
- Abstract要約: MLLM(Multimodal Large Language Models)は、外科的ビデオ理解において大きな可能性を秘めている。
Neurosurgical Anatomy Benchmark (NeuroABench)は、神経外科領域における解剖学的理解を評価するために明示的に作成された最初のマルチモーダルベンチマークである。
NeuroABenchは89の異なる手順をカバーする9時間の注釈付き神経外科ビデオで構成されている。
- 参考スコア(独自算出の注目度): 56.133469598652624
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) have shown significant potential in surgical video understanding. With improved zero-shot performance and more effective human-machine interaction, they provide a strong foundation for advancing surgical education and assistance. However, existing research and datasets primarily focus on understanding surgical procedures and workflows, while paying limited attention to the critical role of anatomical comprehension. In clinical practice, surgeons rely heavily on precise anatomical understanding to interpret, review, and learn from surgical videos. To fill this gap, we introduce the Neurosurgical Anatomy Benchmark (NeuroABench), the first multimodal benchmark explicitly created to evaluate anatomical understanding in the neurosurgical domain. NeuroABench consists of 9 hours of annotated neurosurgical videos covering 89 distinct procedures and is developed using a novel multimodal annotation pipeline with multiple review cycles. The benchmark evaluates the identification of 68 clinical anatomical structures, providing a rigorous and standardized framework for assessing model performance. Experiments on over 10 state-of-the-art MLLMs reveal significant limitations, with the best-performing model achieving only 40.87% accuracy in anatomical identification tasks. To further evaluate the benchmark, we extract a subset of the dataset and conduct an informative test with four neurosurgical trainees. The results show that the best-performing student achieves 56% accuracy, with the lowest scores of 28% and an average score of 46.5%. While the best MLLM performs comparably to the lowest-scoring student, it still lags significantly behind the group's average performance. This comparison underscores both the progress of MLLMs in anatomical understanding and the substantial gap that remains in achieving human-level performance.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、外科的ビデオ理解において大きな可能性を秘めている。
ゼロショットのパフォーマンスを改善し、より効果的な人間と機械の相互作用により、彼らは外科教育と援助を推進するための強力な基盤を提供する。
しかし、既存の研究とデータセットは主に外科手術とワークフローの理解に焦点を当て、解剖学的理解の重要な役割に限定的な注意を払っている。
臨床実践では、外科医は正確な解剖学的理解に大きく依存し、外科的ビデオから解釈し、レビューし、学習する。
このギャップを埋めるために、神経外科領域における解剖学的理解を評価するために明示的に作成された最初のマルチモーダルベンチマークである神経外科解剖ベンチマーク(NeuroABench)を導入する。
NeuroABenchは89の異なる手順をカバーする9時間の注釈付き神経外科ビデオで構成され、複数のレビューサイクルを持つ新しいマルチモーダルアノテーションパイプラインを使用して開発されている。
このベンチマークは68の臨床解剖学的構造を同定し、モデル性能を評価するための厳格で標準化された枠組みを提供する。
10以上の最先端MLLMの実験では、解剖学的識別タスクにおいて、最高の性能のモデルが40.87%の精度しか達成できないという重大な制限が示された。
ベンチマークをさらに評価するために,データセットのサブセットを抽出し,4人の神経外科研修生による情報検査を行う。
その結果、最高の成績の学生は56%の正確さを達成し、最低スコアは28%、平均スコアは46.5%であった。
最高のMLLMは最低成績の学生と同等に演奏するが、それでもグループの平均成績よりもかなり遅れている。
この比較は、解剖学的理解におけるMLLMの進歩と、人間レベルのパフォーマンスを達成する上で残る実質的なギャップの両方を浮き彫りにしている。
関連論文リスト
- 47B Mixture-of-Experts Beats 671B Dense Models on Chinese Medical Examinations [10.072653135781207]
本稿では,中国における医学検査問題に対する27大言語モデル (LLM) のベンチマーク評価を行った。
解析の結果,Mixtral-8x7Bの精度は74.25%と高いことがわかった。
この評価は、心臓血管および神経学の質問に対して、モデルが一般的により良く機能する、医学的専門性の間の大きなパフォーマンスギャップを示す。
論文 参考訳(メタデータ) (2025-11-16T06:08:41Z) - MRI-Based Brain Tumor Detection through an Explainable EfficientNetV2 and MLP-Mixer-Attention Architecture [0.0]
脳腫瘍は、死亡率が高いため早期診断を必要とする深刻な健康問題である。
自動診断システムの必要性は日々増している。
脳腫瘍の分類のための頑健で説明可能なディープラーニングモデルを提案する。
論文 参考訳(メタデータ) (2025-09-08T14:08:21Z) - From Promise to Practical Reality: Transforming Diffusion MRI Analysis with Fast Deep Learning Enhancement [35.368152968098194]
FastFOD-Netは、FODを優れたパフォーマンスで強化し、臨床使用のためのトレーニング/推論効率を提供するエンドツーエンドのディープラーニングフレームワークである。
この研究は、拡散MRIの強化のための深層学習に基づく手法を、より広く採用し、臨床信頼を構築することを促進する。
論文 参考訳(メタデータ) (2025-08-13T17:56:29Z) - Towards a general-purpose foundation model for fMRI analysis [58.06455456423138]
我々は,4次元fMRIボリュームから学習し,多様なアプリケーション間で効率的な知識伝達を可能にするフレームワークであるNeuroSTORMを紹介する。
NeuroSTORMは、複数のセンターにまたがる5万人以上の被験者から5歳から100歳までの28.65万fMRIフレーム(→9000時間)で事前トレーニングされている。
年齢/性別予測、表現型予測、疾患診断、fMRI-to-image検索、タスクベースのfMRIの5つのタスクにおいて、既存の手法よりも優れています。
論文 参考訳(メタデータ) (2025-06-11T23:51:01Z) - SurgVLM: A Large Vision-Language Model and Systematic Evaluation Benchmark for Surgical Intelligence [72.10889173696928]
SurgVLMは,外科的知能に関する最初の大規模視覚言語基盤モデルの一つである。
我々は16種以上の外科的タイプと18の解剖学的構造にまたがる大規模なマルチモーダル手術データベースSurgVLM-DBを構築した。
この包括的データセットに基づいて,Qwen2.5-VLをベースとしたSurgVLMを提案する。
論文 参考訳(メタデータ) (2025-06-03T07:44:41Z) - Evaluating the performance and fragility of large language models on the self-assessment for neurological surgeons [0.7587293779231332]
神経外科医セルフアセスメント(CNS-SANS)の質問は、脳外科の住民がボード検査を書くために広く利用されている。
本研究の目的は,脳神経外科の板状質問に対する最先端のLSMの性能評価と,障害文の含意に対する頑健性を評価することである。
28大言語モデルを用いて包括的評価を行った。
これらのモデルは、CNS-SANSから導かれた2,904の脳神経外科検査で試験された。
論文 参考訳(メタデータ) (2025-05-29T14:27:14Z) - Surgeons vs. Computer Vision: A comparative analysis on surgical phase recognition capabilities [65.66373425605278]
自動手術相認識(SPR)は、人工知能(AI)を使用して、手術ワークフローをその重要なイベントに分割する。
従来の研究は、短い外科手術と直線的な外科手術に焦点を合わせており、時間的文脈が手術の段階をよりよく分類する専門家の能力に影響を与えるかどうかを探索していない。
本研究は,ロボットによる部分腎切除(RAPN)を高度に非直線的に行うことに焦点を当て,これらのギャップに対処する。
論文 参考訳(メタデータ) (2025-04-26T15:37:22Z) - Deep learning approaches to surgical video segmentation and object detection: A Scoping Review [0.0]
2014年から2024年にかけて,解剖学的構造における意味的セグメンテーションと対象検出に関する研究のスコーピングレビューを行った。
第一の目的は,手術ビデオにおける意味的セグメンテーションの最先端性能を評価することである。
第2の目的は、DLモデルの検討、臨床応用への進歩、および手術ビデオにおける臓器・腫瘍の分節化に関する具体的な課題であった。
論文 参考訳(メタデータ) (2025-02-23T06:31:23Z) - Segmentation of Mental Foramen in Orthopantomographs: A Deep Learning Approach [1.9193578733126382]
本研究の目的は, 歯科医療における歯科処置の促進, 患者ケアの増大, 医療効率の向上である。
本研究では、深層学習法を用いて、パノラマ画像からメンタルフォアメンを正確に検出し、分類した。
論文 参考訳(メタデータ) (2024-08-08T21:40:06Z) - Medulloblastoma Tumor Classification using Deep Transfer Learning with
Multi-Scale EfficientNets [63.62764375279861]
本稿では,エンド・ツー・エンドのMB腫瘍分類を提案し,様々な入力サイズとネットワーク次元の一致した移動学習を提案する。
161ケースのデータセットを用いて、より大規模な入力解像度を持つ事前学習されたEfficientNetが、大幅な性能改善をもたらすことを実証した。
論文 参考訳(メタデータ) (2021-09-10T13:07:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。