論文の概要: Temporal Propagation of Asymmetric Feature Pyramid for Surgical Scene Segmentation
- arxiv url: http://arxiv.org/abs/2504.13440v1
- Date: Fri, 18 Apr 2025 03:41:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-28 19:24:24.205111
- Title: Temporal Propagation of Asymmetric Feature Pyramid for Surgical Scene Segmentation
- Title(参考訳): 外科的シーンセグメンテーションのための非対称特徴ピラミッドの時間的伝播
- Authors: Cheng Yuan, Yutong Ban,
- Abstract要約: 手術シーンのセグメンテーションは,ロボットによる腹腔鏡下手術理解に不可欠である。
現在のアプローチでは、(i)静的な画像制限ときめ細かい構造的詳細という2つの課題に直面している。
クロスフレーム特徴伝搬を実現する双方向アテンションアーキテクチャである時間非対称特徴伝搬ネットワークを提案する。
本フレームワークは外科的シーン理解のための時間的指導と文脈的推論の両方を可能にする。
- 参考スコア(独自算出の注目度): 7.150163844454341
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Surgical scene segmentation is crucial for robot-assisted laparoscopic surgery understanding. Current approaches face two challenges: (i) static image limitations including ambiguous local feature similarities and fine-grained structural details, and (ii) dynamic video complexities arising from rapid instrument motion and persistent visual occlusions. While existing methods mainly focus on spatial feature extraction, they fundamentally overlook temporal dependencies in surgical video streams. To address this, we present temporal asymmetric feature propagation network, a bidirectional attention architecture enabling cross-frame feature propagation. The proposed method contains a temporal query propagator that integrates multi-directional consistency constraints to enhance frame-specific feature representation, and an aggregated asymmetric feature pyramid module that preserves discriminative features for anatomical structures and surgical instruments. Our framework uniquely enables both temporal guidance and contextual reasoning for surgical scene understanding. Comprehensive evaluations on two public benchmarks show the proposed method outperforms the current SOTA methods by a large margin, with +16.4\% mIoU on EndoVis2018 and +3.3\% mAP on Endoscapes2023. The code will be publicly available after paper acceptance.
- Abstract(参考訳): 手術シーンのセグメンテーションは,ロボットによる腹腔鏡下手術理解に不可欠である。
現在のアプローチは2つの課題に直面している。
(i)不明瞭な局所的特徴類似性及びきめ細かい構造的詳細を含む静止画像制限
(II) 急速な楽器の動きと持続的な視覚閉塞から生じる動的ビデオ複雑度。
既存の手法は主に空間的特徴抽出に重点を置いているが、外科的ビデオストリームにおける時間的依存関係を根本的に見落としている。
そこで本稿では,時間的非対称な特徴伝達ネットワーク(双方向アテンションアーキテクチャ)を提案する。
提案手法は,多方向整合性制約を統合してフレーム固有の特徴表現を向上する時間的クエリプロパゲータと,解剖学的構造や手術器具の識別的特徴を保存する非対称特徴ピラミッドモジュールを含む。
本フレームワークは外科的シーン理解のための時間的指導と文脈的推論の両方を可能にする。
2つの公開ベンチマークによる総合的な評価では、提案手法は、EndoVis2018では+16.4\% mIoU、Endoscapes2023では+3.3\% mAPで、現在のSOTA法よりも高い性能を示している。
コードは、論文の受理後に公開される。
関連論文リスト
- Neuron: Learning Context-Aware Evolving Representations for Zero-Shot Skeleton Action Recognition [64.56321246196859]
本稿では,dUalスケルトン・セマンティック・セマンティック・セマンティック・セマンティック・シンジスティック・フレームワークを提案する。
まず、時空間進化型マイクロプロトタイプを構築し、動的コンテキスト認識側情報を統合する。
本研究では,空間的圧縮と時間的記憶機構を導入し,空間的時間的マイクロプロトタイプの成長を導く。
論文 参考訳(メタデータ) (2024-11-18T05:16:11Z) - Surgical Scene Segmentation by Transformer With Asymmetric Feature Enhancement [7.150163844454341]
視覚特異的トランスフォーマー法は外科的シーン理解に有望な方法である。
非対称特徴拡張モジュール(TAFE)を用いたトランスフォーマーベースの新しいフレームワークを提案する。
提案手法は, 手術分割作業におけるSOTA法よりも優れており, さらに, 微細な構造認識の能力も証明している。
論文 参考訳(メタデータ) (2024-10-23T07:58:47Z) - LACOSTE: Exploiting stereo and temporal contexts for surgical instrument segmentation [14.152207010509763]
ステレオ画像とテンポラル画像の位置情報を併用した新しいLACOSTEモデルを提案し,手術器具のセグメンテーションを改善した。
我々は3つの公開手術ビデオデータセットに対するアプローチを広範囲に検証した。
論文 参考訳(メタデータ) (2024-09-14T08:17:56Z) - WeakSurg: Weakly supervised surgical instrument segmentation using temporal equivariance and semantic continuity [14.448593791011204]
本稿では,楽器の有無ラベルのみを付与した手術器具セグメンテーションを提案する。
手術ビデオの時間的特性を考慮し,2段階の弱教師付きセグメンテーションパラダイムを拡張した。
1つの胆嚢摘出手術ベンチマークと1つの実際のロボット左外側肝外科手術データセットを含む2つの手術ビデオデータセットで実験が検証されている。
論文 参考訳(メタデータ) (2024-03-14T16:39:11Z) - GLSFormer : Gated - Long, Short Sequence Transformer for Step
Recognition in Surgical Videos [57.93194315839009]
本稿では,シーケンスレベルのパッチから時間的特徴を直接学習するための視覚変換器に基づくアプローチを提案する。
本研究では,白内障手術用ビデオデータセットである白内障-101とD99に対するアプローチを広範に評価し,各種の最先端手法と比較して優れた性能を示した。
論文 参考訳(メタデータ) (2023-07-20T17:57:04Z) - LoViT: Long Video Transformer for Surgical Phase Recognition [59.06812739441785]
短時間・長期の時間情報を融合する2段階のLong Video Transformer(LoViT)を提案する。
このアプローチは、Colec80とAutoLaparoデータセットの最先端メソッドを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-15T20:06:14Z) - Spatiotemporal Multi-scale Bilateral Motion Network for Gait Recognition [3.1240043488226967]
本稿では,光学的流れに動機づけられた両動方向の特徴について述べる。
動作コンテキストを多段階の時間分解能でリッチに記述する多段階の時間表現を開発する。
論文 参考訳(メタデータ) (2022-09-26T01:36:22Z) - Efficient Global-Local Memory for Real-time Instrument Segmentation of
Robotic Surgical Video [53.14186293442669]
手術器具の知覚における重要な手がかりとして,隣接するフレームからの局所的時間依存性と,長距離における大域的意味的相関があげられる。
本稿では,グローバルとローカルの両方の時間的知識を関連付ける新しいデュアルメモリネットワーク(DMNet)を提案する。
本手法は,実時間速度を維持しながらセグメント化精度を向上する手法である。
論文 参考訳(メタデータ) (2021-09-28T10:10:14Z) - Improving Video Instance Segmentation via Temporal Pyramid Routing [61.10753640148878]
Video Instance(VIS)は、ビデオシーケンス内の各インスタンスを検出し、セグメンテーションし、追跡することを目的とした、新しい、本質的にはマルチタスク問題である。
隣接する2つのフレームからなる特徴ピラミッド対から画素レベルのアグリゲーションを条件付きで調整し,実行するための時間ピラミッドルーティング(TPR)戦略を提案する。
我々のアプローチはプラグイン・アンド・プレイモジュールであり、既存のインスタンス・セグメンテーション・メソッドにも容易に適用できます。
論文 参考訳(メタデータ) (2021-07-28T03:57:12Z) - Trans-SVNet: Accurate Phase Recognition from Surgical Videos via Hybrid
Embedding Aggregation Transformer [57.18185972461453]
本稿では,手術ワークフロー解析トランスフォーマーを初めて導入し,正確な位相認識のための時間的特徴と時間的特徴の無視された補完効果を再考する。
我々のフレームワークは軽量であり、高い推論速度を達成するためにハイブリッド埋め込みを並列に処理します。
論文 参考訳(メタデータ) (2021-03-17T15:12:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。