論文の概要: Data-Efficient Learning for Generalizable Surgical Video Understanding
- arxiv url: http://arxiv.org/abs/2508.10215v1
- Date: Wed, 13 Aug 2025 22:00:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.126681
- Title: Data-Efficient Learning for Generalizable Surgical Video Understanding
- Title(参考訳): 一般化可能な手術映像理解のためのデータ効率向上学習
- Authors: Sahar Nasirihaghighi,
- Abstract要約: 本研究は, 深層学習に基づく外科的ビデオ解析と実世界の臨床環境とのギャップを埋めることを目的としている。
私は最先端のニューラルネットワークアーキテクチャをベンチマークして、各タスクの最も効果的な設計を特定しました。
我々は,大量の未ラベルの手術ビデオを活用することにより,タスク間のモデル性能を向上させる半駆動型フレームワークを開発した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Advances in surgical video analysis are transforming operating rooms into intelligent, data-driven environments. Computer-assisted systems support full surgical workflow, from preoperative planning to intraoperative guidance and postoperative assessment. However, developing robust and generalizable models for surgical video understanding remains challenging due to (I) annotation scarcity, (II) spatiotemporal complexity, and (III) domain gap across procedures and institutions. This doctoral research aims to bridge the gap between deep learning-based surgical video analysis in research and its real-world clinical deployment. To address the core challenge of recognizing surgical phases, actions, and events, critical for analysis, I benchmarked state-of-the-art neural network architectures to identify the most effective designs for each task. I further improved performance by proposing novel architectures and integrating advanced modules. Given the high cost of expert annotations and the domain gap across surgical video sources, I focused on reducing reliance on labeled data. We developed semi-supervised frameworks that improve model performance across tasks by leveraging large amounts of unlabeled surgical video. We introduced novel semi-supervised frameworks, including DIST, SemiVT-Surge, and ENCORE, that achieved state-of-the-art results on challenging surgical datasets by leveraging minimal labeled data and enhancing model training through dynamic pseudo-labeling. To support reproducibility and advance the field, we released two multi-task datasets: GynSurg, the largest gynecologic laparoscopy dataset, and Cataract-1K, the largest cataract surgery video dataset. Together, this work contributes to robust, data-efficient, and clinically scalable solutions for surgical video analysis, laying the foundation for generalizable AI systems that can meaningfully impact surgical care and training.
- Abstract(参考訳): 手術用ビデオ分析の進歩は、手術室をインテリジェントでデータ駆動の環境に変えつつある。
コンピュータ支援システムは、術前計画から術中指導、術後評価まで、完全な外科的ワークフローをサポートする。
しかし, (I) アノテーションの不足, (II) 時空間の複雑さ, (III) 手順や機関間のドメインギャップのため, 手術映像理解のための堅牢で一般化可能なモデルの開発はいまだに困難である。
本研究の目的は, 深層学習に基づく外科的ビデオ解析と実際の臨床展開とのギャップを埋めることである。
分析にとって重要な、外科的フェーズ、アクション、イベントを認識することのコア課題に対処するために、私は最先端のニューラルネットワークアーキテクチャをベンチマークして、各タスクに最も効果的なデザインを特定しました。
私は新しいアーキテクチャを提案し、高度なモジュールを統合することでパフォーマンスをさらに改善しました。
専門家アノテーションの高コストと手術用ビデオソース間のドメインギャップを考えると,ラベル付きデータへの依存を減らすことに重点を置いている。
我々は,大量の未ラベルの手術ビデオを活用することで,タスク間のモデル性能を向上させる半教師付きフレームワークを開発した。
DIST, SemiVT-Surge, ENCOREなどの新しい半教師付きフレームワークを導入し, 最小ラベル付きデータを活用し, 動的擬似ラベル付けによるモデルトレーニングの強化により, 挑戦的な手術データセットの最先端化を実現した。
再現性をサポートし,フィールドを前進させるため,産婦人科用腹腔鏡用データセットのGynSurgと白内障手術用ビデオデータセットのCatalact-1Kの2つのマルチタスク用データセットを作成した。
この研究は、外科的ビデオ分析のための堅牢でデータ効率が高く、臨床的にスケーラブルなソリューションに寄与し、外科的ケアとトレーニングに有意義に影響を及ぼすような、一般化可能なAIシステムの基礎を築いた。
関連論文リスト
- SurgVidLM: Towards Multi-grained Surgical Video Understanding with Large Language Model [55.13206879750197]
SurgVidLMは、完全かつきめ細かい外科的ビデオ理解に対処するために設計された最初のビデオ言語モデルである。
手術ビデオの多段階的理解を行うための2段階フレームワークであるStageFocus機構について紹介する。
実験結果から,SurgVidLMは全精細ビデオ理解タスクおよび精細ビデオ理解タスクにおいて,最先端のVid-LLMよりも有意に優れていた。
論文 参考訳(メタデータ) (2025-06-22T02:16:18Z) - Challenging Vision-Language Models with Surgical Data: A New Dataset and Broad Benchmarking Study [0.6120768859742071]
本研究は,視覚言語モデル(VLM)の内視鏡的課題に対する能力を評価するための大規模な研究である。
さまざまな最先端モデル、複数の外科的データセット、広範囲な人間の参照アノテーションを用いて、3つの重要な研究課題に対処する。
以上の結果から,VLMはオブジェクトカウントやローカライゼーションなどの基本的な外科的知覚タスクを,一般的なドメインタスクに匹敵するパフォーマンスレベルで効果的に行うことができることがわかった。
論文 参考訳(メタデータ) (2025-06-06T16:53:12Z) - Large-scale Self-supervised Video Foundation Model for Intelligent Surgery [27.418249899272155]
本稿では,大規模な外科的ビデオデータから共同時間的表現学習を可能にする,最初のビデオレベルの手術前トレーニングフレームワークを紹介する。
SurgVISTAは,空間構造を捕捉し,時間的ダイナミックスを複雑化する再構成型事前学習手法である。
実験では、SurgVISTAは自然領域と外科領域の事前訓練されたモデルの両方を一貫して上回っている。
論文 参考訳(メタデータ) (2025-06-03T09:42:54Z) - Surgical Foundation Model Leveraging Compression and Entropy Maximization for Image-Guided Surgical Assistance [50.486523249499115]
低侵襲手術(MIS)におけるリアルタイム映像理解の重要性
手術ビデオからコンパクトで情報的表現を学習するための,新しい自己教師型フレームワークであるCompress-to-Explore (C2E)を提案する。
C2Eは、エントロピー最大化デコーダを使用して、臨床的に関連する詳細を保持しながら画像を圧縮し、ラベル付きデータなしでエンコーダのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2025-05-16T14:02:24Z) - Watch and Learn: Leveraging Expert Knowledge and Language for Surgical Video Understanding [1.024113475677323]
データセットの欠如は、正確で包括的なワークフロー分析ソリューションの開発を妨げる。
本稿では,専門家を観察し,その説明を理解するための人間の学習手順から着想を得た,データの空間性と不均一性に対処する新しいアプローチを提案する。
手術領域に既存のデータセットが存在しないにもかかわらず,この課題に対処するため,外科的ビデオの高密度字幕化(DVC)のための最初の包括的ソリューションを提示する。
論文 参考訳(メタデータ) (2025-03-14T13:36:13Z) - Efficient MedSAMs: Segment Anything in Medical Images on Laptop [69.28565867103542]
我々は,迅速な医用画像のセグメンテーションに特化した初の国際コンペを組織した。
トップチームは軽量なセグメンテーション基盤モデルを開発し、効率的な推論パイプラインを実装した。
最高のパフォーマンスのアルゴリズムは、臨床導入を促進するために、ユーザフレンドリーなインターフェースを備えたオープンソースソフトウェアに組み込まれている。
論文 参考訳(メタデータ) (2024-12-20T17:33:35Z) - OphCLIP: Hierarchical Retrieval-Augmented Learning for Ophthalmic Surgical Video-Language Pretraining [60.75854609803651]
OphCLIPは、眼科手術ワークフロー理解のための階層的検索強化視覚言語事前学習フレームワークである。
OphCLIPは、短いビデオクリップと詳細な物語記述、構造化タイトルによるフルビデオの調整によって、細粒度と長期の視覚表現の両方を学習する。
我々のOphCLIPは、探索されていない大規模なサイレント手術ビデオを活用するために、検索強化事前訓練フレームワークも設計している。
論文 参考訳(メタデータ) (2024-11-23T02:53:08Z) - Dissecting Self-Supervised Learning Methods for Surgical Computer Vision [51.370873913181605]
一般のコンピュータビジョンコミュニティでは,自己監視学習(SSL)手法が普及し始めている。
医学や手術など、より複雑で影響力のある領域におけるSSLメソッドの有効性は、限定的かつ未調査のままである。
外科的文脈理解,位相認識,ツール存在検出の2つの基本的なタスクに対して,これらの手法の性能をColec80データセット上で広範囲に解析する。
論文 参考訳(メタデータ) (2022-07-01T14:17:11Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。