論文の概要: SurgLaVi: Large-Scale Hierarchical Dataset for Surgical Vision-Language Representation Learning
- arxiv url: http://arxiv.org/abs/2509.10555v1
- Date: Tue, 09 Sep 2025 21:21:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:22.662455
- Title: SurgLaVi: Large-Scale Hierarchical Dataset for Surgical Vision-Language Representation Learning
- Title(参考訳): SurgLaVi: 手術用視覚言語表現学習のための大規模階層的データセット
- Authors: Alejandra Perez, Chinedu Nwoye, Ramtin Raji Kermani, Omid Mohareri, Muhammad Abdullah Jamal,
- Abstract要約: これまでで最大かつ最も多様な手術用視覚言語データセットであるSurgLaViについて紹介する。
SurgLaViのコアには、完全に自動化されたパイプラインがあり、手術ビデオのきめ細かい書き起こしを生成し、それらをコヒーレントな手続き単位に分割する。
アクセシビリティを確保するため、公開データから構築された113kクリップカプセル対のオープンソースデリバティブであるSurgLaVi-betaをリリースする。
- 参考スコア(独自算出の注目度): 41.95743276961411
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision-language pre-training (VLP) offers unique advantages for surgery by aligning language with surgical videos, enabling workflow understanding and transfer across tasks without relying on expert-labeled datasets. However, progress in surgical VLP remains constrained by the limited scale, procedural diversity, semantic quality, and hierarchical structure of existing datasets. In this work, we present SurgLaVi, the largest and most diverse surgical vision-language dataset to date, comprising nearly 240k clip-caption pairs from more than 200 procedures, and comprising hierarchical levels at phase-, step-, and task-level. At the core of SurgLaVi lies a fully automated pipeline that systematically generates fine-grained transcriptions of surgical videos and segments them into coherent procedural units. To ensure high-quality annotations, it applies dual-modality filtering to remove irrelevant and noisy samples. Within this framework, the resulting captions are enriched with contextual detail, producing annotations that are both semantically rich and easy to interpret. To ensure accessibility, we release SurgLaVi-\b{eta}, an open-source derivative of 113k clip-caption pairs constructed entirely from public data, which is over four times larger than existing surgical VLP datasets. To demonstrate the value of SurgLaVi datasets, we introduce SurgCLIP, a CLIP-style video-text contrastive framework with dual encoders, as a representative base model. SurgCLIP achieves consistent improvements across phase, step, action, and tool recognition, surpassing prior state-of-the-art methods, often by large margins. These results validate that large-scale, semantically rich, and hierarchically structured datasets directly translate into stronger and more generalizable representations, establishing SurgLaVi as a key resource for developing surgical foundation models.
- Abstract(参考訳): ビジョン言語事前トレーニング(VLP)は、言語と手術ビデオとを合わせることで、専門家ラベル付きデータセットに頼ることなく、ワークフローの理解とタスク間の転送を可能にすることで、手術にユニークな利点を提供する。
しかしながら、外科的VLPの進歩は、既存のデータセットの限られたスケール、手続き的多様性、意味的品質、階層構造に制約されているままである。
本研究では,200以上のプロシージャから240k近いクリップキャプションペアと,フェーズレベル,ステップレベル,タスクレベルの階層レベルから構成される,これまでで最大かつ最も多様な手術用視覚言語データセットであるSurgLaViを提案する。
SurgLaViのコアには、完全に自動化されたパイプラインがあり、手術ビデオのきめ細かい転写を体系的に生成し、それらを一貫性のある手続き単位に分割する。
高品質なアノテーションを保証するため、無関係でノイズの多いサンプルを除去するために二重モードフィルタリングを適用する。
このフレームワーク内では、結果のキャプションは文脈の詳細に富み、意味的にリッチで解釈が容易なアノテーションを生成する。
アクセシビリティを確保するため、我々は、既存の手術用VLPデータセットの4倍以上の大きさのパブリックデータから構築された113kクリップカプセルペアのオープンソースデリバティブであるSurgLaVi-\b{eta}をリリースする。
SurgLaViデータセットの価値を示すために、CLIPスタイルのビデオテキストコントラストフレームワークであるSurgCLIPを代表ベースモデルとして紹介する。
SurgCLIPは、フェーズ、ステップ、アクション、ツール認識における一貫した改善を実現し、しばしば大きなマージンで、最先端の手法を超越している。
これらの結果は、大規模でセマンティックにリッチで階層的に構造化されたデータセットが、より強くより一般化可能な表現へと直接変換されることを検証する。
関連論文リスト
- HQ-CLIP: Leveraging Large Vision-Language Models to Create High-Quality Image-Text Datasets and CLIP Models [15.877790469608662]
画像とテキストのペアデータの品質を向上させるために,LVLM駆動型データ精錬パイプラインを導入する。
否定的な記述と短いタグを組み込むことで、従来のコントラスト学習を拡張する訓練パラダイムを提案する。
提案手法は, ゼロショット分類, クロスモーダル検索, きめ細かな視覚理解タスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2025-07-30T07:21:36Z) - HiLa: Hierarchical Vision-Language Collaboration for Cancer Survival Prediction [55.00788339683146]
生存予測を改善するための新しい階層型視覚・言語協調フレームワークを提案する。
具体的には、HiLaは事前訓練された特徴抽出器を使用して、パッチレベルとリージョンレベルの両方でWSIから階層的な視覚的特徴を生成する。
このap-proachは、プロンプトから異なる生存関連属性に対応する識別的視覚特徴の包括的学習を可能にする。
論文 参考訳(メタデータ) (2025-07-07T02:06:25Z) - Enhancing Surgical Documentation through Multimodal Visual-Temporal Transformers and Generative AI [15.513949299806582]
外科的ビデオの自動要約は, 手続き的文書の充実, 外科的訓練の支援, 術後分析の促進に不可欠である。
本稿では,コンピュータビジョンと大規模言語モデルの最近の進歩を活用して,包括的な映像要約を生成するマルチモーダルフレームワークを提案する。
また,50個の腹腔鏡画像からの計測とアクションアノテーションを用いて,ColecT50データセットを用いて本手法の評価を行った。
論文 参考訳(メタデータ) (2025-04-28T15:46:02Z) - OphCLIP: Hierarchical Retrieval-Augmented Learning for Ophthalmic Surgical Video-Language Pretraining [60.75854609803651]
OphCLIPは、眼科手術ワークフロー理解のための階層的検索強化視覚言語事前学習フレームワークである。
OphCLIPは、短いビデオクリップと詳細な物語記述、構造化タイトルによるフルビデオの調整によって、細粒度と長期の視覚表現の両方を学習する。
我々のOphCLIPは、探索されていない大規模なサイレント手術ビデオを活用するために、検索強化事前訓練フレームワークも設計している。
論文 参考訳(メタデータ) (2024-11-23T02:53:08Z) - LLaVA-Surg: Towards Multimodal Surgical Assistant via Structured Surgical Video Learning [15.646322352232819]
新しいデータセットであるSurg-QAを作成し、手術用ビデオインストラクションペアを102,000個作成する。
手術知識を学習するために, LLMを用いた2段階質問応答生成パイプラインを提案する。
LLaVA-Surgは、手術ビデオに関するオープンな質問に答えられる新しい視覚言語対話アシスタントだ。
論文 参考訳(メタデータ) (2024-08-15T07:00:20Z) - HecVL: Hierarchical Video-Language Pretraining for Zero-shot Surgical Phase Recognition [51.222684687924215]
HecVLは、一般的な手術モデルを構築するための新しい階層型ビデオ言語事前学習手法である。
異なる階層レベルの埋め込み空間を分離することにより、学習されたマルチモーダル表現は、同じモデルにおける短期的および長期的な外科的概念を符号化する。
外科的位相認識のための同じHecVLモデルが、異なる外科手術と医療センター間で転送可能であることを示す。
論文 参考訳(メタデータ) (2024-05-16T13:14:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。