論文の概要: SurgBench: A Unified Large-Scale Benchmark for Surgical Video Analysis
- arxiv url: http://arxiv.org/abs/2506.07603v1
- Date: Mon, 09 Jun 2025 10:02:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.901796
- Title: SurgBench: A Unified Large-Scale Benchmark for Surgical Video Analysis
- Title(参考訳): SurgBench: 手術ビデオ分析のための大規模ベンチマーク
- Authors: Jianhui Wei, Zikai Xiao, Danyu Sun, Luqi Gong, Zongxin Yang, Zuozhu Liu, Jian Wu,
- Abstract要約: SurgBenchは、事前トレーニングデータセットである textbfSurgBench-P と、評価ベンチマークである textbfSurgBench-E で構成される統一的な手術ビデオベンチマークフレームワークである。
SurgBench-Pは、22の外科手術と11の専門分野にわたる5300万フレームをカバーし、SurgBench-Eは72のきめ細かいタスクにまたがる6つのカテゴリ(フェーズ分類、カメラモーション、ツール認識、疾患診断、行動分類、臓器検出)で堅牢な評価を提供する。
- 参考スコア(独自算出の注目度): 20.566701996432226
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Surgical video understanding is pivotal for enabling automated intraoperative decision-making, skill assessment, and postoperative quality improvement. However, progress in developing surgical video foundation models (FMs) remains hindered by the scarcity of large-scale, diverse datasets for pretraining and systematic evaluation. In this paper, we introduce \textbf{SurgBench}, a unified surgical video benchmarking framework comprising a pretraining dataset, \textbf{SurgBench-P}, and an evaluation benchmark, \textbf{SurgBench-E}. SurgBench offers extensive coverage of diverse surgical scenarios, with SurgBench-P encompassing 53 million frames across 22 surgical procedures and 11 specialties, and SurgBench-E providing robust evaluation across six categories (phase classification, camera motion, tool recognition, disease diagnosis, action classification, and organ detection) spanning 72 fine-grained tasks. Extensive experiments reveal that existing video FMs struggle to generalize across varied surgical video analysis tasks, whereas pretraining on SurgBench-P yields substantial performance improvements and superior cross-domain generalization to unseen procedures and modalities. Our dataset and code are available upon request.
- Abstract(参考訳): 外科的ビデオ理解は, 術中自動意思決定, 技能評価, 術後の質向上に重要である。
しかし, 外科的ビデオ基盤モデル(FM)の開発の進展は, 事前訓練や体系的評価のために, 大規模かつ多様なデータセットの不足によって妨げられている。
本稿では,プレトレーニングデータセットである \textbf{SurgBench-P} と評価ベンチマークである \textbf{SurgBench-E} を紹介する。
SurgBench-Pは、22の外科手術と11の専門分野にわたる5300万フレームを含み、SurgBench-Eは、72のきめ細かいタスクにまたがる6つのカテゴリ(フェーズ分類、カメラモーション、ツール認識、疾患診断、行動分類、臓器検出)で堅牢な評価を提供する。
一方,SurgBench-Pの事前訓練では,術式やモダリティに優れたクロスドメイン一般化が得られた。
私たちのデータセットとコードは、要求に応じて利用可能です。
関連論文リスト
- SurgVLM: A Large Vision-Language Model and Systematic Evaluation Benchmark for Surgical Intelligence [72.10889173696928]
SurgVLMは,外科的知能に関する最初の大規模視覚言語基盤モデルの一つである。
我々は16種以上の外科的タイプと18の解剖学的構造にまたがる大規模なマルチモーダル手術データベースSurgVLM-DBを構築した。
この包括的データセットに基づいて,Qwen2.5-VLをベースとしたSurgVLMを提案する。
論文 参考訳(メタデータ) (2025-06-03T07:44:41Z) - Surgical Foundation Model Leveraging Compression and Entropy Maximization for Image-Guided Surgical Assistance [50.486523249499115]
低侵襲手術(MIS)におけるリアルタイム映像理解の重要性
手術ビデオからコンパクトで情報的表現を学習するための,新しい自己教師型フレームワークであるCompress-to-Explore (C2E)を提案する。
C2Eは、エントロピー最大化デコーダを使用して、臨床的に関連する詳細を保持しながら画像を圧縮し、ラベル付きデータなしでエンコーダのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2025-05-16T14:02:24Z) - OphCLIP: Hierarchical Retrieval-Augmented Learning for Ophthalmic Surgical Video-Language Pretraining [60.75854609803651]
OphCLIPは、眼科手術ワークフロー理解のための階層的検索強化視覚言語事前学習フレームワークである。
OphCLIPは、短いビデオクリップと詳細な物語記述、構造化タイトルによるフルビデオの調整によって、細粒度と長期の視覚表現の両方を学習する。
我々のOphCLIPは、探索されていない大規模なサイレント手術ビデオを活用するために、検索強化事前訓練フレームワークも設計している。
論文 参考訳(メタデータ) (2024-11-23T02:53:08Z) - Thoracic Surgery Video Analysis for Surgical Phase Recognition [0.08706730566331035]
我々は,11種類の位相からなる胸部手術データセットを用いて,フレームベースおよびビデオクリッピングに基づく位相認識の解析と評価を行った。
ImageNet ViTによる52.31%に比べて,Masked Video Distillation(MVD)は72.9%の精度で優れた性能を示した。
論文 参考訳(メタデータ) (2024-06-13T14:47:57Z) - General surgery vision transformer: A video pre-trained foundation model for general surgery [2.576958141988598]
現在までに680時間に及ぶ手術ビデオのデータセットをオープンソース化しています。
本稿では,前方映像予測に基づく手術映像における一般手術視変換器(GSViT)の事前訓練手法を提案する。
論文 参考訳(メタデータ) (2024-03-09T16:02:46Z) - Hypergraph-Transformer (HGT) for Interactive Event Prediction in Laparoscopic and Robotic Surgery [47.47211257890948]
腹腔内ビデオから外科的ワークフローの重要なインタラクティブな側面を理解し,予測できる予測型ニューラルネットワークを提案する。
我々は,既存の手術用データセットとアプリケーションに対するアプローチを検証し,アクション・トリプレットの検出と予測を行った。
この結果は、非構造的な代替案と比較して、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2024-02-03T00:58:05Z) - CholecTriplet2021: A benchmark challenge for surgical action triplet
recognition [66.51610049869393]
腹腔鏡下手術における三肢の認識のためにMICCAI 2021で実施した内視鏡的視力障害であるColecTriplet 2021を提案する。
課題の参加者が提案する最先端の深層学習手法の課題設定と評価について述べる。
4つのベースライン法と19の新しいディープラーニングアルゴリズムが提示され、手術ビデオから直接手術行動三重項を認識し、平均平均精度(mAP)は4.2%から38.1%である。
論文 参考訳(メタデータ) (2022-04-10T18:51:55Z) - Robust Medical Instrument Segmentation Challenge 2019 [56.148440125599905]
腹腔鏡装置の術中追跡は、しばしばコンピュータとロボットによる介入の必要条件である。
本研究の課題は,30の手術症例から取得した10,040枚の注釈画像からなる外科的データセットに基づいていた。
結果は、初期仮説、すなわち、アルゴリズムの性能がドメインギャップの増大とともに低下することを確認する。
論文 参考訳(メタデータ) (2020-03-23T14:35:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。