論文の概要: ReSW-VL: Representation Learning for Surgical Workflow Analysis Using Vision-Language Model
- arxiv url: http://arxiv.org/abs/2505.13746v1
- Date: Mon, 19 May 2025 21:44:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.549981
- Title: ReSW-VL: Representation Learning for Surgical Workflow Analysis Using Vision-Language Model
- Title(参考訳): ReSW-VL:視覚言語モデルを用いた外科的ワークフロー解析のための表現学習
- Authors: Satoshi Kondo,
- Abstract要約: ビデオからの外科的位相認識は、外科手術の進行を自動的に分類する技術である。
外科的位相認識技術の最近の進歩は、主にトランスフォーメーションに基づく手法に焦点を当てている。
視覚言語モデルを用いた外科的ワークフロー解析における表現学習法を提案する。
- 参考スコア(独自算出の注目度): 0.07143413923310668
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Surgical phase recognition from video is a technology that automatically classifies the progress of a surgical procedure and has a wide range of potential applications, including real-time surgical support, optimization of medical resources, training and skill assessment, and safety improvement. Recent advances in surgical phase recognition technology have focused primarily on Transform-based methods, although methods that extract spatial features from individual frames using a CNN and video features from the resulting time series of spatial features using time series modeling have shown high performance. However, there remains a paucity of research on training methods for CNNs employed for feature extraction or representation learning in surgical phase recognition. In this study, we propose a method for representation learning in surgical workflow analysis using a vision-language model (ReSW-VL). Our proposed method involves fine-tuning the image encoder of a CLIP (Convolutional Language Image Model) vision-language model using prompt learning for surgical phase recognition. The experimental results on three surgical phase recognition datasets demonstrate the effectiveness of the proposed method in comparison to conventional methods.
- Abstract(参考訳): ビデオからの外科的位相認識は、外科手術の進捗を自動的に分類する技術であり、リアルタイムの外科的支援、医療資源の最適化、トレーニングとスキルアセスメント、安全性の向上など、幅広い応用がある。
近年の外科的位相認識技術の進歩は,CNNを用いて個々のフレームから空間的特徴を抽出する手法や,時系列モデリングを用いて得られた空間的特徴の時系列から映像的特徴を抽出する手法は,高い性能を示した。
しかし, 外科的位相認識における特徴抽出や表現学習に使用されるCNNの訓練方法に関する研究は, いまだに行われている。
本研究では,視覚言語モデル(ReSW-VL)を用いた外科的ワークフロー解析における表現学習手法を提案する。
提案手法は,外科的位相認識のための即時学習を用いて,CLIP(Convolutional Language Image Model)視覚言語モデルの画像エンコーダを微調整することを含む。
3つの外科的位相認識データセットの実験結果から,従来の方法と比較して提案手法の有効性が示された。
関連論文リスト
- Procedure-Aware Surgical Video-language Pretraining with Hierarchical Knowledge Augmentation [51.222684687924215]
手術用ビデオ言語事前学習は、知識領域のギャップとマルチモーダルデータの不足により、独特な課題に直面している。
本稿では,これらの課題に対処するために,階層的知識向上手法と新しい手術的知識向上型ビデオランゲージ事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-30T22:21:05Z) - SurgPETL: Parameter-Efficient Image-to-Surgical-Video Transfer Learning for Surgical Phase Recognition [9.675072799670458]
高次元映像データのための「映像事前学習とビデオ微調整」は、大きなパフォーマンスボトルネックを生じさせる。
本稿では,外科的位相認識のためのパラメータ効率変換学習ベンチマークSurgPETLを提案する。
5つの大規模自然・医療データセットで事前訓練した2つの異なるスケールのViTに基づいて3つの高度な手法による広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-09-30T08:33:50Z) - Thoracic Surgery Video Analysis for Surgical Phase Recognition [0.08706730566331035]
我々は,11種類の位相からなる胸部手術データセットを用いて,フレームベースおよびビデオクリッピングに基づく位相認識の解析と評価を行った。
ImageNet ViTによる52.31%に比べて,Masked Video Distillation(MVD)は72.9%の精度で優れた性能を示した。
論文 参考訳(メタデータ) (2024-06-13T14:47:57Z) - Interactive Generation of Laparoscopic Videos with Diffusion Models [1.5488613349551188]
そこで本研究では,外科的動作をテキストで指定することで,現実的な腹腔鏡画像と映像を生成する方法について述べる。
我々は、Colecデータセットファミリを使用して、我々のアプローチの性能を実証する。
我々は38.097のFIDと0.71のF1スコアを達成する。
論文 参考訳(メタデータ) (2024-04-23T12:36:07Z) - Efficient Surgical Tool Recognition via HMM-Stabilized Deep Learning [25.146476653453227]
ツール存在検出のためのHMM安定化深層学習手法を提案する。
様々な実験により、提案手法がより低いトレーニングとランニングコストでより良い性能を達成することが確認された。
これらの結果から,過度に複雑化したモデル構造を持つ一般的なディープラーニング手法は,非効率なデータ利用に悩まされる可能性が示唆された。
論文 参考訳(メタデータ) (2024-04-07T15:27:35Z) - Learning Multi-modal Representations by Watching Hundreds of Surgical Video Lectures [50.09187683845788]
手術用コンピュータビジョンの応用の最近の進歩は、視覚のみのモデルによって駆動されている。
これらの手法は、固定されたオブジェクトカテゴリのセットを予測するために手動で注釈付き手術ビデオに依存する。
本研究では,オープンな外科的eラーニングプラットフォームを通じて提供される外科的ビデオ講義が,効果的な視覚と言語監督の信号を提供することができるという考えを提起した。
論文 参考訳(メタデータ) (2023-07-27T22:38:12Z) - GLSFormer : Gated - Long, Short Sequence Transformer for Step
Recognition in Surgical Videos [57.93194315839009]
本稿では,シーケンスレベルのパッチから時間的特徴を直接学習するための視覚変換器に基づくアプローチを提案する。
本研究では,白内障手術用ビデオデータセットである白内障-101とD99に対するアプローチを広範に評価し,各種の最先端手法と比較して優れた性能を示した。
論文 参考訳(メタデータ) (2023-07-20T17:57:04Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。