論文の概要: Surgformer: Surgical Transformer with Hierarchical Temporal Attention for Surgical Phase Recognition
- arxiv url: http://arxiv.org/abs/2408.03867v1
- Date: Wed, 7 Aug 2024 16:16:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-08 12:44:51.435058
- Title: Surgformer: Surgical Transformer with Hierarchical Temporal Attention for Surgical Phase Recognition
- Title(参考訳): 外科的位相認識のための階層的時間的注意を伴う外科用変圧器
- Authors: Shu Yang, Luyang Luo, Qiong Wang, Hao Chen,
- Abstract要約: 本稿では,空間時間モデルと冗長性の問題に終末的に対処する手術用トランスフォーマー(サージフォーマー)を提案する。
提案するサージフォーマーは,最先端の手法に対して良好に機能することを示す。
- 参考スコア(独自算出の注目度): 7.682613953680041
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing state-of-the-art methods for surgical phase recognition either rely on the extraction of spatial-temporal features at a short-range temporal resolution or adopt the sequential extraction of the spatial and temporal features across the entire temporal resolution. However, these methods have limitations in modeling spatial-temporal dependency and addressing spatial-temporal redundancy: 1) These methods fail to effectively model spatial-temporal dependency, due to the lack of long-range information or joint spatial-temporal modeling. 2) These methods utilize dense spatial features across the entire temporal resolution, resulting in significant spatial-temporal redundancy. In this paper, we propose the Surgical Transformer (Surgformer) to address the issues of spatial-temporal modeling and redundancy in an end-to-end manner, which employs divided spatial-temporal attention and takes a limited set of sparse frames as input. Moreover, we propose a novel Hierarchical Temporal Attention (HTA) to capture both global and local information within varied temporal resolutions from a target frame-centric perspective. Distinct from conventional temporal attention that primarily emphasizes dense long-range similarity, HTA not only captures long-term information but also considers local latent consistency among informative frames. HTA then employs pyramid feature aggregation to effectively utilize temporal information across diverse temporal resolutions, thereby enhancing the overall temporal representation. Extensive experiments on two challenging benchmark datasets verify that our proposed Surgformer performs favorably against the state-of-the-art methods. The code is released at https://github.com/isyangshu/Surgformer.
- Abstract(参考訳): 既存の最先端の位相認識法は、短距離時間分解能における空間的特徴の抽出に依存するか、時間分解能全体にわたって空間的特徴と時間的特徴の逐次抽出を採用するかのいずれかである。
しかし、これらの手法は空間的時間的依存性のモデル化と空間的時間的冗長性への対処に限界がある。
1) これらの手法は, 長距離情報や共同空間時間モデルが欠如しているため, 空間時間依存性を効果的にモデル化することができない。
2) これらの手法は時間分解能全体にわたって密集した空間的特徴を利用しており,空間的・時間的冗長性が顕著である。
本稿では,空間的時間的注意を分割し,スパースフレームを入力として,空間的時間的モデリングと冗長性の問題に対処する手術用トランスフォーマー(サージフォーマー)を提案する。
さらに,HTA(Hierarchical Temporal Attention, 階層的時間注意)を提案する。
HTAは、主に密集した長距離類似性を強調する従来の時間的注意と異なり、長期情報をキャプチャするだけでなく、情報フレーム間の局所的な潜時一貫性も考慮している。
HTAはピラミッドの特徴集約を用いて、様々な時間分解能の時間情報を効果的に活用し、全体的な時間表現を強化する。
2つの挑戦的なベンチマークデータセットに対する大規模な実験により、提案したSurgformerが最先端の手法に対して好適に動作することを確認した。
コードはhttps://github.com/isyangshu/Surgformer.comで公開されている。
関連論文リスト
- Jointly spatial-temporal representation learning for individual
trajectories [30.318791393724524]
本稿では、学習可能な時空間依存を軌跡表現にフォーマル化する時空間共同表現学習法(ST-GraphRL)を提案する。
実世界の3つの人間の移動性データセットを用いて,ST-GraphRLは,移動時空間分布の予測と,空間時空間相関の高い軌道類似性の保存において,すべてのベースラインモデルより優れていた。
論文 参考訳(メタデータ) (2023-12-07T05:27:24Z) - Spatio-Temporal Branching for Motion Prediction using Motion Increments [55.68088298632865]
HMP(Human Motion Prediction)はその多種多様な応用により、人気のある研究トピックとして浮上している。
従来の手法は手作りの機能と機械学習技術に依存している。
HMPのためのインクリメンタル情報を用いた時空間分岐ネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T12:04:28Z) - Local-Global Temporal Difference Learning for Satellite Video
Super-Resolution [55.69322525367221]
本稿では,時間的差分を効果的かつ効果的な時間的補償に利用することを提案する。
フレーム内における局所的・大域的時間的情報を完全に活用するために,短期・長期的時間的相違を体系的にモデル化した。
5つの主流ビデオ衛星に対して行われた厳密な客観的および主観的評価は、我々の手法が最先端のアプローチに対して好適に機能することを実証している。
論文 参考訳(メタデータ) (2023-04-10T07:04:40Z) - Spatial Temporal Graph Attention Network for Skeleton-Based Action
Recognition [10.60209288486904]
骨格に基づく行動認識の現在の手法では、主に長期の時間的依存関係のキャプチャを検討するのが一般的である。
本稿では,時空情報の流れをモデル化する汎用フレームワークSTGATを提案する。
STGATは3つの大規模データセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-18T02:34:46Z) - Decoupling and Recoupling Spatiotemporal Representation for RGB-D-based
Motion Recognition [62.46544616232238]
従来の動作認識手法は、密結合した多時間表現によって有望な性能を実現している。
本稿では,RGB-D に基づく動作認識において引き起こされた表現を分離し,再分離することを提案する。
論文 参考訳(メタデータ) (2021-12-16T18:59:47Z) - ST-DETR: Spatio-Temporal Object Traces Attention Detection Transformer [2.4366811507669124]
本研究では,時間的フレーム列からのオブジェクト検出のための時空間変換器アーキテクチャを提案する。
両次元にまたがる特徴相関を利用するために, 注意機構をフルに活用する。
その結果,KITTI MODデータセットでは5%のmAP改善が見られた。
論文 参考訳(メタデータ) (2021-07-13T07:38:08Z) - CaSPR: Learning Canonical Spatiotemporal Point Cloud Representations [72.4716073597902]
本研究では,動的あるいは動いた物体の標準点クラウド表現を学習する手法を提案する。
本稿では, 形状再構成, カメラポーズ推定, 連続時間列再構成, 対応推定など, 様々な応用における本手法の有効性を実証する。
論文 参考訳(メタデータ) (2020-08-06T17:58:48Z) - Disentangling and Unifying Graph Convolutions for Skeleton-Based Action
Recognition [79.33539539956186]
本稿では,マルチスケールグラフ畳み込みと,G3Dという空間時間グラフ畳み込み演算子を結合する簡単な方法を提案する。
これらの提案を結合することにより,MS-G3Dという強力な特徴抽出器を開発し,そのモデルが3つの大規模データセット上で従来の最先端手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-03-31T11:28:25Z) - A Spatial-Temporal Attentive Network with Spatial Continuity for
Trajectory Prediction [74.00750936752418]
空間連続性をもつ空間時間減衰ネットワーク(STAN-SC)という新しいモデルを提案する。
まず、最も有用かつ重要な情報を探るために、空間的時間的注意機構を提示する。
第2に、生成軌道の空間的連続性を維持するために、シーケンスと瞬間状態情報に基づく共同特徴系列を実行する。
論文 参考訳(メタデータ) (2020-03-13T04:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。