論文の概要: Multimodal Optimal Transport for Unsupervised Temporal Segmentation in Surgical Robotics
- arxiv url: http://arxiv.org/abs/2602.24138v1
- Date: Fri, 27 Feb 2026 16:15:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.509595
- Title: Multimodal Optimal Transport for Unsupervised Temporal Segmentation in Surgical Robotics
- Title(参考訳): 外科ロボティクスにおける教師なし時間分割のためのマルチモーダル最適輸送
- Authors: Omar Mohamed, Edoardo Fazzari, Ayah Al-Naji, Hamdan Alhadhrami, Khalfan Hableel, Saif Alkindi, Cesare Stefanini,
- Abstract要約: 外科的段階とビデオからの段階を認識することは、コンピュータによる介入の基本的な問題である。
最近のアプローチでは、何千ものラベル付き外科的ビデオに大規模な事前トレーニングを頼りにしており、その後、特定の手順にゼロショットで移行している。
外科的位相とステップ認識のための教師なし手法であるテキスト拡張アクション最適輸送(TASOT)を提案する。
- 参考スコア(独自算出の注目度): 2.582839864045357
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recognizing surgical phases and steps from video is a fundamental problem in computer-assisted interventions. Recent approaches increasingly rely on large-scale pre-training on thousands of labeled surgical videos, followed by zero-shot transfer to specific procedures. While effective, this strategy incurs substantial computational and data collection costs. In this work, we question whether such heavy pre-training is truly necessary. We propose Text-Augmented Action Segmentation Optimal Transport (TASOT), an unsupervised method for surgical phase and step recognition that extends Action Segmentation Optimal Transport (ASOT) by incorporating textual information generated directly from the videos. TASOT formulates temporal action segmentation as a multimodal optimal transport problem, where the matching cost is defined as a weighted combination of visual and text-based costs. The visual term captures frame-level appearance similarity, while the text term provides complementary semantic cues, and both are jointly regularized through a temporally consistent unbalanced Gromov-Wasserstein formulation. This design enables effective alignment between video frames and surgical actions without surgical-specific pretraining or external web-scale supervision. We evaluate TASOT on multiple benchmark surgical datasets and observe consistent and substantial improvements over existing zero-shot methods, including StrasBypass70 (+23.7), BernBypass70 (+4.5), Cholec80 (+16.5), and AutoLaparo (+19.6). These results demonstrate that fine-grained surgical understanding can be achieved by exploiting information already present in standard visual and textual representations, without resorting to increasingly complex pre-training pipelines. The code will be available at https://github.com/omar8ahmed9/TASOT.
- Abstract(参考訳): 外科的段階とビデオからの段階を認識することは、コンピュータによる介入の基本的な問題である。
最近のアプローチでは、何千ものラベル付き外科的ビデオに大規模な事前トレーニングを頼りにしており、その後、特定の手順にゼロショットで移行している。
効果はあるものの、この戦略は相当な計算とデータ収集のコストを発生させる。
本研究は,このような重度の事前学習が本当に必要かどうかを問うものである。
本研究では,動画から直接生成されたテキスト情報を組み込むことで,行動分割最適輸送(ASOT)を拡張した,手術段階およびステップ認識のための教師なし手法であるテキスト拡張行動分割最適輸送(TASOT)を提案する。
TASOTは、時間的アクションセグメンテーションをマルチモーダル最適輸送問題として定式化し、マッチングコストは、視覚的およびテキストベースのコストの重み付けの組み合わせとして定義される。
視覚用語はフレームレベルの外観の類似性を捉え、テキスト用語は相補的な意味的手がかりを提供し、両者は時間的に一貫性のないグロモフ=ワッサーシュタインの定式化によって共同で正規化される。
この設計により、手術固有の事前訓練や外部Webスケールの監督なしに、ビデオフレームと手術行動の効果的なアライメントが可能になる。
我々は,複数ベンチマークの手術データセット上でTASOTを評価し,StrasBypass70 (+23.7), BernBypass70 (+4.5), Cholec80 (+16.5), AutoLaparo (+19.6),など,既存のゼロショット法に対して一貫した,実質的な改善を行った。
これらの結果は、より複雑な事前学習パイプラインに頼ることなく、標準的な視覚的およびテキスト的表現にすでに存在する情報を活用することで、より詳細な外科的理解を実現することができることを示している。
コードはhttps://github.com/omar8ahmed9/TASOTで入手できる。
関連論文リスト
- Token Merging via Spatiotemporal Information Mining for Surgical Video Understanding [32.4892900455388]
本稿では,画像理解トークン統合法(STIM-TM)を提案する。
STIM-TMは、時間的および空間的次元に沿ってトークンの冗長性を独立に減少させる分離戦略を導入する。
STIM-TMは、トレーニングなしの方法で動作し、65ドル以上のGFLOPを削減し、総合的な手術ビデオタスク間の競争精度を維持しながら、かなりの効率を達成する。
論文 参考訳(メタデータ) (2025-09-28T06:24:57Z) - Surgical Video Understanding with Label Interpolation [3.880707330499936]
ロボット補助手術 (RAS) は, 患者の回復を促進するとともに, 外科医の負担を軽減し, 近代的な手術において重要なパラダイムとなっている。
これまでの研究は主にシングルタスクのアプローチに焦点が当てられていたが、実際の手術シーンには複雑な時間的ダイナミクスと多様な楽器の相互作用が含まれる。
本稿では,光フローベースセグメンテーションラベルとマルチタスク学習を組み合わせた新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-23T08:49:07Z) - SurgVidLM: Towards Multi-grained Surgical Video Understanding with Large Language Model [67.8359850515282]
SurgVidLMは、完全かつきめ細かい外科的ビデオ理解に対処するために設計された最初のビデオ言語モデルである。
我々は,SurgVidLMが,映像理解タスクと細粒度ビデオ理解タスクの両方において,同等のパラメータスケールの最先端のVid-LLMを著しく上回ることを示す。
論文 参考訳(メタデータ) (2025-06-22T02:16:18Z) - Efficient Frame Extraction: A Novel Approach Through Frame Similarity and Surgical Tool Tracking for Video Segmentation [0.0]
本稿では,余剰フレームを効率的に除去し,データセットのサイズや計算時間を短縮する手法を提案する。
具体的には,手術器具の移動を追跡することで,連続するフレーム間の類似性を計算する。
症例の振り返りレビューから得られたデータセットを解析し,提案手法の有効性を評価する。
論文 参考訳(メタデータ) (2025-01-19T19:36:09Z) - Procedure-Aware Surgical Video-language Pretraining with Hierarchical Knowledge Augmentation [51.222684687924215]
手術用ビデオ言語事前学習は、知識領域のギャップとマルチモーダルデータの不足により、独特な課題に直面している。
本稿では,これらの課題に対処するために,階層的知識向上手法と新しい手術的知識向上型ビデオランゲージ事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-30T22:21:05Z) - Visual-Kinematics Graph Learning for Procedure-agnostic Instrument Tip
Segmentation in Robotic Surgeries [29.201385352740555]
そこで我々は,様々な外科手術を施した楽器の先端を正確に分類する新しいビジュアル・キネマティクスグラフ学習フレームワークを提案する。
具体的には、画像とキネマティクスの両方から楽器部品のリレーショナル特徴を符号化するグラフ学習フレームワークを提案する。
クロスモーダル・コントラッシブ・ロスは、キネマティクスからチップセグメンテーションのイメージへの頑健な幾何学的先行を組み込むように設計されている。
論文 参考訳(メタデータ) (2023-09-02T14:52:58Z) - Learning Multi-modal Representations by Watching Hundreds of Surgical Video Lectures [50.09187683845788]
手術用コンピュータビジョンの応用の最近の進歩は、視覚のみのモデルによって駆動されている。
これらの手法は、固定されたオブジェクトカテゴリのセットを予測するために手動で注釈付き手術ビデオに依存する。
本研究では,オープンな外科的eラーニングプラットフォームを通じて提供される外科的ビデオ講義が,効果的な視覚と言語監督の信号を提供することができるという考えを提起した。
論文 参考訳(メタデータ) (2023-07-27T22:38:12Z) - GLSFormer : Gated - Long, Short Sequence Transformer for Step
Recognition in Surgical Videos [57.93194315839009]
本稿では,シーケンスレベルのパッチから時間的特徴を直接学習するための視覚変換器に基づくアプローチを提案する。
本研究では,白内障手術用ビデオデータセットである白内障-101とD99に対するアプローチを広範に評価し,各種の最先端手法と比較して優れた性能を示した。
論文 参考訳(メタデータ) (2023-07-20T17:57:04Z) - LoViT: Long Video Transformer for Surgical Phase Recognition [59.06812739441785]
短時間・長期の時間情報を融合する2段階のLong Video Transformer(LoViT)を提案する。
このアプローチは、Colec80とAutoLaparoデータセットの最先端メソッドを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-15T20:06:14Z) - Trans-SVNet: Accurate Phase Recognition from Surgical Videos via Hybrid
Embedding Aggregation Transformer [57.18185972461453]
本稿では,手術ワークフロー解析トランスフォーマーを初めて導入し,正確な位相認識のための時間的特徴と時間的特徴の無視された補完効果を再考する。
我々のフレームワークは軽量であり、高い推論速度を達成するためにハイブリッド埋め込みを並列に処理します。
論文 参考訳(メタデータ) (2021-03-17T15:12:55Z) - Learning Motion Flows for Semi-supervised Instrument Segmentation from
Robotic Surgical Video [64.44583693846751]
本研究は,スパースアノテーションを用いたロボット手術ビデオから半教師楽器のセグメンテーションについて検討する。
生成されたデータペアを利用することで、我々のフレームワークはトレーニングシーケンスの時間的一貫性を回復し、強化することができます。
その結果,本手法は最先端の半教師あり手法よりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-06T02:39:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。