論文の概要: SurgVidLM: Towards Multi-grained Surgical Video Understanding with Large Language Model
- arxiv url: http://arxiv.org/abs/2506.17873v1
- Date: Sun, 22 Jun 2025 02:16:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.629501
- Title: SurgVidLM: Towards Multi-grained Surgical Video Understanding with Large Language Model
- Title(参考訳): SurgVidLM:大規模言語モデルによる多粒度手術映像理解を目指して
- Authors: Guankun Wang, Wenjin Mo, Junyi Wang, Long Bai, Kun Yuan, Ming Hu, Jinlin Wu, Junjun He, Yiming Huang, Nicolas Padoy, Zhen Lei, Hongbin Liu, Nassir Navab, Hongliang Ren,
- Abstract要約: SurgVidLMは、完全かつきめ細かい外科的ビデオ理解に対処するために設計された最初のビデオ言語モデルである。
手術ビデオの多段階的理解を行うための2段階フレームワークであるStageFocus機構について紹介する。
実験結果から,SurgVidLMは全精細ビデオ理解タスクおよび精細ビデオ理解タスクにおいて,最先端のVid-LLMよりも有意に優れていた。
- 参考スコア(独自算出の注目度): 55.13206879750197
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in Multimodal Large Language Models have demonstrated great potential in the medical domain, facilitating users to understand surgical scenes and procedures. Beyond image-based methods, the exploration of Video Large Language Models (Vid-LLMs) has emerged as a promising avenue for capturing the complex sequences of information involved in surgery. However, there is still a lack of Vid-LLMs specialized for fine-grained surgical video understanding tasks, which is crucial for analyzing specific processes or details within a surgical procedure. To bridge this gap, we propose SurgVidLM, the first video language model designed to address both full and fine-grained surgical video comprehension. To train our SurgVidLM, we construct the SVU-31K dataset which consists of over 31K video-instruction pairs, enabling both holistic understanding and detailed analysis of surgical procedures. Furthermore, we introduce the StageFocus mechanism which is a two-stage framework performing the multi-grained, progressive understanding of surgical videos. We also develop the Multi-frequency Fusion Attention to effectively integrate low and high-frequency visual tokens, ensuring the retention of critical information. Experimental results demonstrate that SurgVidLM significantly outperforms state-of-the-art Vid-LLMs in both full and fine-grained video understanding tasks, showcasing its superior capability in capturing complex procedural contexts.
- Abstract(参考訳): 近年の多モーダル大言語モデルの進歩は,手術シーンや手術手順の理解を促進する医療領域において大きな可能性を秘めている。
画像に基づく手法以外にも、画像大言語モデル(Vid-LLMs)の探索は、手術に関わる複雑な情報のシーケンスを捉えるための有望な道として現れてきた。
しかし,術中における特定のプロセスや細部を解析するためには,精細な映像理解作業に特化したVid-LLMがいまだに欠如している。
このギャップを埋めるために、我々は、完全かつきめ細かい外科的ビデオ理解に対処するために設計された最初のビデオ言語モデルであるSurgVidLMを提案する。
SurgVidLMをトレーニングするために,31K以上のビデオ命令ペアからなるSVU-31Kデータセットを構築し,外科手術の全体的理解と詳細な解析を可能にする。
さらに,手術ビデオの多段階的理解を行うための2段階フレームワークであるStageFocus機構についても紹介する。
また,低周波および高周波の視覚トークンを効果的に統合し,臨界情報の保持を確実にするための多周波核融合注意法を開発した。
実験結果から,SurgVidLMは映像理解タスクおよび細粒度ビデオ理解タスクにおいて,最先端のVid-LLMよりも優れており,複雑な手続きコンテキストを捉える能力に優れていたことが示唆された。
関連論文リスト
- Watch and Learn: Leveraging Expert Knowledge and Language for Surgical Video Understanding [1.024113475677323]
データセットの欠如は、正確で包括的なワークフロー分析ソリューションの開発を妨げる。
本稿では,専門家を観察し,その説明を理解するための人間の学習手順から着想を得た,データの空間性と不均一性に対処する新しいアプローチを提案する。
手術領域に既存のデータセットが存在しないにもかかわらず,この課題に対処するため,外科的ビデオの高密度字幕化(DVC)のための最初の包括的ソリューションを提示する。
論文 参考訳(メタデータ) (2025-03-14T13:36:13Z) - OphCLIP: Hierarchical Retrieval-Augmented Learning for Ophthalmic Surgical Video-Language Pretraining [60.75854609803651]
OphCLIPは、眼科手術ワークフロー理解のための階層的検索強化視覚言語事前学習フレームワークである。
OphCLIPは、短いビデオクリップと詳細な物語記述、構造化タイトルによるフルビデオの調整によって、細粒度と長期の視覚表現の両方を学習する。
我々のOphCLIPは、探索されていない大規模なサイレント手術ビデオを活用するために、検索強化事前訓練フレームワークも設計している。
論文 参考訳(メタデータ) (2024-11-23T02:53:08Z) - Surgical-LLaVA: Toward Surgical Scenario Understanding via Large Language and Vision Models [1.4042211166197214]
手術シナリオに特化して設計されたLVLMについて紹介する。
LVLMモデルであるオペレーショナル・ラヴァを手術シナリオのデータに基づいて微調整した。
外科的ララバは、外科的文脈において、印象的なマルチモーダルチャット能力を示すことを示す実験である。
論文 参考訳(メタデータ) (2024-10-13T07:12:35Z) - Procedure-Aware Surgical Video-language Pretraining with Hierarchical Knowledge Augmentation [51.222684687924215]
手術用ビデオ言語事前学習は、知識領域のギャップとマルチモーダルデータの不足により、独特な課題に直面している。
本稿では,これらの課題に対処するために,階層的知識向上手法と新しい手術的知識向上型ビデオランゲージ事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-30T22:21:05Z) - LLaVA-Surg: Towards Multimodal Surgical Assistant via Structured Surgical Video Learning [15.646322352232819]
新しいデータセットであるSurg-QAを作成し、手術用ビデオインストラクションペアを102,000個作成する。
手術知識を学習するために, LLMを用いた2段階質問応答生成パイプラインを提案する。
LLaVA-Surgは、手術ビデオに関するオープンな質問に答えられる新しい視覚言語対話アシスタントだ。
論文 参考訳(メタデータ) (2024-08-15T07:00:20Z) - Learning Multi-modal Representations by Watching Hundreds of Surgical Video Lectures [50.09187683845788]
手術用コンピュータビジョンの応用の最近の進歩は、視覚のみのモデルによって駆動されている。
これらの手法は、固定されたオブジェクトカテゴリのセットを予測するために手動で注釈付き手術ビデオに依存する。
本研究では,オープンな外科的eラーニングプラットフォームを通じて提供される外科的ビデオ講義が,効果的な視覚と言語監督の信号を提供することができるという考えを提起した。
論文 参考訳(メタデータ) (2023-07-27T22:38:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。