Fugu-MT 論文翻訳(概要): TUNeS: A Temporal U-Net with Self-Attention for Video-based Surgical Phase Recognition

論文の概要: TUNeS: A Temporal U-Net with Self-Attention for Video-based Surgical Phase Recognition

arxiv url: http://arxiv.org/abs/2307.09997v1
Date: Wed, 19 Jul 2023 14:10:55 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-20 13:47:18.052333
Title: TUNeS: A Temporal U-Net with Self-Attention for Video-based Surgical Phase Recognition
Title（参考訳）: TUNeS:ビデオによる外科的位相認識のための自己注意型一時的U-Net
Authors: Isabel Funke, Dominik Rivoir, Stefanie Krell and Stefanie Speidel
Abstract要約: 本稿では,U-Netのような構造の粗い段階で自己注意を組み込んだ,効率的かつシンプルな時間モデルTUNeSを紹介する。実験では, 時間的文脈の長い特徴抽出器上で, 時間的モデルが良好に動作した。
参考スコア（独自算出の注目度）: 0.036704226968275244
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: To enable context-aware computer assistance in the operating room of the future, cognitive systems need to understand automatically which surgical phase is being performed by the medical team. The primary source of information for surgical phase recognition is typically video, which presents two challenges: extracting meaningful features from the video stream and effectively modeling temporal information in the sequence of visual features. For temporal modeling, attention mechanisms have gained popularity due to their ability to capture long-range dependencies. In this paper, we explore design choices for attention in existing temporal models for surgical phase recognition and propose a novel approach that does not resort to local attention or regularization of attention weights: TUNeS is an efficient and simple temporal model that incorporates self-attention at the coarsest stage of a U-Net-like structure. In addition, we propose to train the feature extractor, a standard CNN, together with an LSTM on preferably long video segments, i.e., with long temporal context. In our experiments, all temporal models performed better on top of feature extractors that were trained with longer temporal context. On top of these contextualized features, TUNeS achieves state-of-the-art results on Cholec80.
Abstract（参考訳）: 未来の手術室における文脈認識型コンピュータ支援を実現するためには,医療チームによる手術段階の自動理解が必要である。外科的位相認識のための主要な情報源はビデオであり、ビデオストリームから有意義な特徴を抽出し、視覚的特徴列の時間情報を効果的にモデル化する。時間的モデリングでは、長距離依存関係をキャプチャできるため、注意機構が人気を集めている。本稿では,既存の手術相認識のための時間モデルにおける注意設計の選択肢を考察し,局所的注意や注意重みの正規化に頼らない新しいアプローチを提案する。さらに,標準CNNである特徴抽出器と,所望の長時間ビデオセグメント上でのLSTMとを時間的コンテキストでトレーニングすることを提案する。実験では,より長い時間的文脈で訓練された特徴抽出器上で,すべての時間モデルの性能が向上した。これらのコンテキスト化された機能に加えて、TUNeSはCholec80の最先端の結果を達成する。

関連論文リスト

Token Merging via Spatiotemporal Information Mining for Surgical Video Understanding [32.4892900455388]
本稿では,画像理解トークン統合法(STIM-TM)を提案する。 STIM-TMは、時間的および空間的次元に沿ってトークンの冗長性を独立に減少させる分離戦略を導入する。 STIM-TMは、トレーニングなしの方法で動作し、65ドル以上のGFLOPを削減し、総合的な手術ビデオタスク間の競争精度を維持しながら、かなりの効率を達成する。
論文参考訳（メタデータ） (2025-09-28T06:24:57Z)
Surgical Foundation Model Leveraging Compression and Entropy Maximization for Image-Guided Surgical Assistance [50.486523249499115]
低侵襲手術(MIS)におけるリアルタイム映像理解の重要性手術ビデオからコンパクトで情報的表現を学習するための,新しい自己教師型フレームワークであるCompress-to-Explore (C2E)を提案する。 C2Eは、エントロピー最大化デコーダを使用して、臨床的に関連する詳細を保持しながら画像を圧縮し、ラベル付きデータなしでエンコーダのパフォーマンスを向上させる。
論文参考訳（メタデータ） (2025-05-16T14:02:24Z)
Surgeons vs. Computer Vision: A comparative analysis on surgical phase recognition capabilities [65.66373425605278]
自動手術相認識(SPR)は、人工知能(AI)を使用して、手術ワークフローをその重要なイベントに分割する。従来の研究は、短い外科手術と直線的な外科手術に焦点を合わせており、時間的文脈が手術の段階をよりよく分類する専門家の能力に影響を与えるかどうかを探索していない。本研究は,ロボットによる部分腎切除(RAPN)を高度に非直線的に行うことに焦点を当て,これらのギャップに対処する。
論文参考訳（メタデータ） (2025-04-26T15:37:22Z)
Surgical Temporal Action-aware Network with Sequence Regularization for Phase Recognition [28.52533700429284]
本稿では,STAR-Netと命名されたシークエンス正規化を施した手術時行動認識ネットワークを提案する。 MS-STAモジュールは、視覚的特徴と2Dネットワークを犠牲にして、手術行動の空間的および時間的知識を統合する。我々のSTAR-Net with MS-STA and DSR can exploit of visual features of surgery action with effective regularization, which to the excellent performance of surgery phase recognition。
論文参考訳（メタデータ） (2023-11-21T13:43:16Z)
GLSFormer : Gated - Long, Short Sequence Transformer for Step Recognition in Surgical Videos [57.93194315839009]
本稿では,シーケンスレベルのパッチから時間的特徴を直接学習するための視覚変換器に基づくアプローチを提案する。本研究では,白内障手術用ビデオデータセットである白内障-101とD99に対するアプローチを広範に評価し,各種の最先端手法と比較して優れた性能を示した。
論文参考訳（メタデータ） (2023-07-20T17:57:04Z)
LoViT: Long Video Transformer for Surgical Phase Recognition [59.06812739441785]
短時間・長期の時間情報を融合する2段階のLong Video Transformer(LoViT)を提案する。このアプローチは、Colec80とAutoLaparoデータセットの最先端メソッドを一貫して上回る。
論文参考訳（メタデータ） (2023-05-15T20:06:14Z)
Robotic Navigation Autonomy for Subretinal Injection via Intelligent Real-Time Virtual iOCT Volume Slicing [88.99939660183881]
網膜下注射のための自律型ロボットナビゲーションの枠組みを提案する。提案手法は,機器のポーズ推定方法,ロボットとi OCTシステム間のオンライン登録,およびインジェクションターゲットへのナビゲーションに適した軌道計画から構成される。ブタ前眼の精度と再現性について実験を行った。
論文参考訳（メタデータ） (2023-01-17T21:41:21Z)
ST-MTL: Spatio-Temporal Multitask Learning Model to Predict Scanpath While Tracking Instruments in Robotic Surgery [14.47768738295518]
トラッキング機器によるタスク指向の注意の学習は、画像誘導型ロボット手術において大きな可能性を秘めている。本稿では,リアルタイムの手術機器分割とタスク指向唾液度検出のための共有エンコーダとシンク時デコーダを用いたエンドツーエンドマルチタスク学習(ST-MTL)モデルを提案する。本稿では,各デコーダの独立勾配を計算することで,非同期時間最適化手法を提案する。最先端のセグメンテーションとサリエンシ手法と比較して、我々のモデルは評価指標よりも優れており、挑戦において優れた性能を生んでいる。
論文参考訳（メタデータ） (2021-12-10T15:20:27Z)
Temporal Memory Relation Network for Workflow Recognition from Surgical Video [53.20825496640025]
本研究では, 長期および多スケールの時間パターンを関連づける, エンドツーエンドの時間メモリ関係ネットワーク (TMNet) を提案する。我々はこのアプローチを2つのベンチマーク手術ビデオデータセットで広範囲に検証した。
論文参考訳（メタデータ） (2021-03-30T13:20:26Z)
Relational Graph Learning on Visual and Kinematics Embeddings for Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文参考訳（メタデータ） (2020-11-03T11:00:10Z)
Symmetric Dilated Convolution for Surgical Gesture Recognition [10.699258974625073]
外科的ジェスチャーを自動的に検出・分節する新しい時間的畳み込みアーキテクチャを提案する。本研究では,長期時間パターンを符号化・復号化するために,自己アテンションモジュールでブリッジされた対称的拡張構造を用いて手法を考案する。 JIGSAWSデータセットからの基本的なロボット縫合タスクに対するアプローチを検証する。
論文参考訳（メタデータ） (2020-07-13T13:34:48Z)
Automatic Operating Room Surgical Activity Recognition for Robot-Assisted Surgery [1.1033115844630357]
ロボット支援手術における自動手術活動認識について検討した。 400本のフル長マルチパースペクティブビデオを含む,最初の大規模データセットを収集する。ビデオに最も認識され,臨床的に関係のある10のクラスで注釈を付ける。
論文参考訳（メタデータ） (2020-06-29T16:30:31Z)
LRTD: Long-Range Temporal Dependency based Active Learning for Surgical Workflow Recognition [67.86810761677403]
本稿では,費用対効果の高い手術ビデオ解析のための新しい能動的学習法を提案する。具体的には,非局所的再帰的畳み込みネットワーク (NL-RCNet) を提案する。手術ワークフロー認識タスクを実行することで,大規模な手術ビデオデータセット(Cholec80)に対するアプローチを検証する。
論文参考訳（メタデータ） (2020-04-21T09:21:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。