論文の概要: Holistic Surgical Phase Recognition with Hierarchical Input Dependent State Space Models
- arxiv url: http://arxiv.org/abs/2506.21330v1
- Date: Thu, 26 Jun 2025 14:43:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:10.13831
- Title: Holistic Surgical Phase Recognition with Hierarchical Input Dependent State Space Models
- Title(参考訳): 階層型入力状態空間モデルを用いた整形外科的位相認識
- Authors: Haoyang Wu, Tsun-Hsuan Wang, Mathias Lechner, Ramin Hasani, Jennifer A. Eckhoff, Paul Pak, Ozanan R. Meireles, Guy Rosman, Yutong Ban, Daniela Rus,
- Abstract要約: 手術映像解析のための階層型入力依存状態空間モデルを提案する。
本フレームワークは,時間的一貫した視覚特徴抽出器を内蔵し,状態空間モデルヘッドを視覚特徴抽出器に付加し,時間的情報を伝達する。
実験により,本手法は最先端の手法よりも高い性能を示した。
- 参考スコア(独自算出の注目度): 56.2236083600999
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Surgical workflow analysis is essential in robot-assisted surgeries, yet the long duration of such procedures poses significant challenges for comprehensive video analysis. Recent approaches have predominantly relied on transformer models; however, their quadratic attention mechanism restricts efficient processing of lengthy surgical videos. In this paper, we propose a novel hierarchical input-dependent state space model that leverages the linear scaling property of state space models to enable decision making on full-length videos while capturing both local and global dynamics. Our framework incorporates a temporally consistent visual feature extractor, which appends a state space model head to a visual feature extractor to propagate temporal information. The proposed model consists of two key modules: a local-aggregation state space model block that effectively captures intricate local dynamics, and a global-relation state space model block that models temporal dependencies across the entire video. The model is trained using a hybrid discrete-continuous supervision strategy, where both signals of discrete phase labels and continuous phase progresses are propagated through the network. Experiments have shown that our method outperforms the current state-of-the-art methods by a large margin (+2.8% on Cholec80, +4.3% on MICCAI2016, and +12.9% on Heichole datasets). Code will be publicly available after paper acceptance.
- Abstract(参考訳): 外科的ワークフロー解析はロボットによる外科手術には不可欠であるが、そのような手術の長期化は、包括的なビデオ解析において重要な課題となっている。
最近のアプローチは変圧器モデルに大きく依存しているが、その二次的注意機構は長い手術ビデオの効率的な処理を制限している。
本稿では、状態空間モデルの線形スケーリング特性を利用して、局所的および大域的両方のダイナミクスを捉えながら、フル長ビデオの意思決定を可能にする、新しい階層的な入力依存状態空間モデルを提案する。
本フレームワークは,時間的一貫した視覚特徴抽出器を内蔵し,状態空間モデルヘッドを視覚特徴抽出器に付加し,時間的情報を伝達する。
提案モデルは,局所集約状態空間モデルブロックと,ビデオ全体にわたる時間的依存関係をモデル化するグローバル関連状態空間モデルブロックの2つの重要なモジュールから構成される。
このモデルは、離散位相ラベルと連続位相進行の信号の両方をネットワークを介して伝播させるハイブリッド離散連続監視戦略を用いて訓練される。
実験により、我々の手法は現在の最先端手法よりも大きなマージン(Cholec80では+2.8%、MICCAI2016では+4.3%、Heicholeデータセットでは+12.9%)で優れていることが示された。
コードは、論文の受理後に公開される。
関連論文リスト
- StateSpaceDiffuser: Bringing Long Context to Diffusion World Models [53.05314852577144]
本稿では、状態空間モデルから機能を統合することで、拡散モデルが長時間コンテキストタスクの実行を可能にするStateSpaceDiffuserを紹介する。
この設計は拡散モデルの高忠実性合成を保ちながら長期記憶を復元する。
実験の結果、StateSpaceDiffuserは強力な拡散のみのベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2025-05-28T11:27:54Z) - Mission Balance: Generating Under-represented Class Samples using Video Diffusion Models [1.5678321653327674]
そこで本研究では,2段階のテキストベースで,低表現クラスのための高忠実度手術ビデオを生成する手法を提案する。
本手法は,2つの下流タスク(動作認識と術中事象予測)で評価する。
論文 参考訳(メタデータ) (2025-05-14T23:43:29Z) - FreSca: Scaling in Frequency Space Enhances Diffusion Models [55.75504192166779]
本稿では,潜時拡散モデルにおける周波数制御について検討する。
本稿では,低周波成分と高周波成分にノイズ差を分解する新しいフレームワークFreScaを紹介する。
FreScaはモデルの再トレーニングやアーキテクチャの変更なしに動作し、モデルとタスクに依存しない制御を提供する。
論文 参考訳(メタデータ) (2025-04-02T22:03:11Z) - SHMamba: Structured Hyperbolic State Space Model for Audio-Visual Question Answering [5.016335384639901]
AVQA(Audio-Visual Question Answering)のマルチモーダル入力により,特徴抽出と融合処理がより困難になる。
我々は、双曲幾何学と状態空間モデルの利点を統合するために、構造化双曲状態空間モデル(SHMamba: Structured Hyperbolic State Space Model)を提案する。
提案手法は,現行のすべての主要な手法の優越性を実証し,実用的なアプリケーションシナリオに適した方法である。
論文 参考訳(メタデータ) (2024-06-14T08:43:31Z) - Temporal Memory Relation Network for Workflow Recognition from Surgical
Video [53.20825496640025]
本研究では, 長期および多スケールの時間パターンを関連づける, エンドツーエンドの時間メモリ関係ネットワーク (TMNet) を提案する。
我々はこのアプローチを2つのベンチマーク手術ビデオデータセットで広範囲に検証した。
論文 参考訳(メタデータ) (2021-03-30T13:20:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。