論文の概要: SurgTEMP: Temporal-Aware Surgical Video Question Answering with Text-guided Visual Memory for Laparoscopic Cholecystectomy
- arxiv url: http://arxiv.org/abs/2603.29962v1
- Date: Tue, 31 Mar 2026 16:27:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.858192
- Title: SurgTEMP: Temporal-Aware Surgical Video Question Answering with Text-guided Visual Memory for Laparoscopic Cholecystectomy
- Title(参考訳): SurgTEMP : 腹腔鏡下胆嚢摘出術におけるテキストガイド付きビジュアルメモリを用いた術中ビデオ質問紙
- Authors: Shi Li, Vinkle Srivastav, Nicolas Chanel, Saurav Sharma, Nabani Banik, Lorenzo Arboit, Kun Yuan, Pietro Mascagni, Nicolas Padoy,
- Abstract要約: SurgTEMPは、外科的ビデオ質問応答のための多モード視覚記憶フレームワークである。
我々は,32KのオープンエンドQAペアと3,855の動画セグメントからなる外科的ビデオ質問応答データセットであるCholeVidQA-32Kを紹介する。
SurgTEMPは、最先端のオープンソースマルチモーダルおよびビデオLLM(ファインチューニングとゼロショット)に対する包括的な評価において、大幅な性能改善を実現している。
- 参考スコア(独自算出の注目度): 12.553409376394162
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Surgical procedures are inherently complex and risky, requiring extensive expertise and constant focus to well navigate evolving intraoperative scenes. Computer-assisted systems such as surgical visual question answering (VQA) offer promises for education and intraoperative support. Current surgical VQA research largely focuses on static frame analysis, overlooking rich temporal semantics. Surgical video question answering is further challenged by low visual contrast, its highly knowledge-driven nature, diverse analytical needs spanning scattered temporal windows, and the hierarchy from basic perception to high-level intraoperative assessment. To address these challenges, we propose SurgTEMP, a multimodal LLM framework featuring (i) a query-guided token selection module that builds hierarchical visual memory (spatial and temporal memory banks) and (ii) a Surgical Competency Progression (SCP) training scheme. Together, these components enable effective modeling of variable-length surgical videos while preserving procedure-relevant cues and temporal coherence, and better support diverse downstream assessment tasks. To support model development, we introduce CholeVidQA-32K, a surgical video question answering dataset comprising 32K open-ended QA pairs and 3,855 video segments (approximately 128 h total) from laparoscopic cholecystectomy. The dataset is organized into a three-level hierarchy -- Perception, Assessment, and Reasoning -- spanning 11 tasks from instrument/action/anatomy perception to Critical View of Safety (CVS), intraoperative difficulty, skill proficiency, and adverse event assessment. In comprehensive evaluations against state-of-the-art open-source multimodal and video LLMs (fine-tuned and zero-shot), SurgTEMP achieves substantial performance improvements, advancing the state of video-based surgical VQA.
- Abstract(参考訳): 外科手術は本質的に複雑で危険であり、進化する手術シーンをうまくナビゲートするために広範囲の専門知識と常に焦点を合わせる必要がある。
外科的視覚質問応答(VQA)のようなコンピュータ支援システムは、教育と術中支援の約束を提供する。
現在の外科的VQA研究は、リッチな時間的意味論を見越して静的フレーム分析に重点を置いている。
外科的ビデオ質問応答は、低視差、その知識駆動性が高い性質、散在する時間的窓にまたがる多様な分析的ニーズ、そして基本的な知覚から高レベルの術中評価に至るまでの階層によってさらに挑戦される。
これらの課題に対処するため,マルチモーダルLLMフレームワークであるSurgTEMPを提案する。
(i)階層型ビジュアルメモリ(空間的・時間的メモリバンク)を構築するクエリ誘導トークン選択モジュール
(II)外科的能力向上(SCP)トレーニングスキーム。
これらのコンポーネントは、プロシージャ関連キューと時間的コヒーレンスを保持しながら、可変長の手術ビデオの効果的なモデリングを可能にし、下流でのさまざまな評価タスクをより良くサポートする。
腹腔鏡下胆嚢摘出術から32Kの開眼QAペアと3,855の動画セグメント(合計128時間)からなる外科的ビデオ質問応答データセットであるColeVidQA-32Kを紹介した。
データセットは、計器/行動/解剖学的知覚からCVS(Critical View of Safety)、術中難易度、熟練度、有害事象評価まで、11のタスクにまたがる、知覚、評価、推論という3段階の階層に分類される。
SurgTEMPは、最先端のオープンソースマルチモーダルおよびビデオLLM(微細調整およびゼロショット)に対する総合的な評価において、ビデオベースの外科的VQAの状態を推し進め、大幅なパフォーマンス向上を実現している。
関連論文リスト
- SurgLLM: A Versatile Large Multimodal Model with Spatial Focus and Temporal Awareness for Surgical Video Understanding [75.00667948967848]
SurgLLMフレームワークは、多用途の手術ビデオ理解タスクに適した、大規模なマルチモーダルモデルである。
外科的ビデオの空間的焦点を高めるために,SurgLLMの動画エンコーダのためのSurg-Pretraining(Surg-Pretraining)を最初に考案した。
外科的時間的知識をSurgLLMに組み込むため, インターリーブ型マルチモーダル埋め込みによる時間的推論を改善するために, 時間的対応型マルチモーダルチューニング(TM-Tuning)を提案する。
論文 参考訳(メタデータ) (2025-08-30T04:36:41Z) - SurgVidLM: Towards Multi-grained Surgical Video Understanding with Large Language Model [67.8359850515282]
SurgVidLMは、完全かつきめ細かい外科的ビデオ理解に対処するために設計された最初のビデオ言語モデルである。
我々は,SurgVidLMが,映像理解タスクと細粒度ビデオ理解タスクの両方において,同等のパラメータスケールの最先端のVid-LLMを著しく上回ることを示す。
論文 参考訳(メタデータ) (2025-06-22T02:16:18Z) - Large-scale Self-supervised Video Foundation Model for Intelligent Surgery [27.418249899272155]
本稿では,大規模な外科的ビデオデータから共同時間的表現学習を可能にする,最初のビデオレベルの手術前トレーニングフレームワークを紹介する。
SurgVISTAは,空間構造を捕捉し,時間的ダイナミックスを複雑化する再構成型事前学習手法である。
実験では、SurgVISTAは自然領域と外科領域の事前訓練されたモデルの両方を一貫して上回っている。
論文 参考訳(メタデータ) (2025-06-03T09:42:54Z) - OphCLIP: Hierarchical Retrieval-Augmented Learning for Ophthalmic Surgical Video-Language Pretraining [60.75854609803651]
OphCLIPは、眼科手術ワークフロー理解のための階層的検索強化視覚言語事前学習フレームワークである。
OphCLIPは、短いビデオクリップと詳細な物語記述、構造化タイトルによるフルビデオの調整によって、細粒度と長期の視覚表現の両方を学習する。
我々のOphCLIPは、探索されていない大規模なサイレント手術ビデオを活用するために、検索強化事前訓練フレームワークも設計している。
論文 参考訳(メタデータ) (2024-11-23T02:53:08Z) - Procedure-Aware Surgical Video-language Pretraining with Hierarchical Knowledge Augmentation [51.222684687924215]
手術用ビデオ言語事前学習は、知識領域のギャップとマルチモーダルデータの不足により、独特な課題に直面している。
本稿では,これらの課題に対処するために,階層的知識向上手法と新しい手術的知識向上型ビデオランゲージ事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-30T22:21:05Z) - Surgical-VQLA: Transformer with Gated Vision-Language Embedding for
Visual Question Localized-Answering in Robotic Surgery [18.248882845789353]
本研究では,ロボット支援型手術シーンと記録映像からのアクティビティ理解を容易にするための手術質問応答システムを開発した。
既存のVQA手法の多くは、視覚的特徴を抽出し、答え生成のための質問の埋め込みテキストと融合するために、オブジェクト検出器と領域ベースの特徴抽出器を必要とする。
そこで我々は,ロボット手術における視覚的質問の局所化-回答(Surgical-VQLA)を提案し,回答予測中に特定の手術領域を局所化する。
論文 参考訳(メタデータ) (2023-05-19T14:13:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。