論文の概要: Multi-Stage Boundary-Aware Transformer Network for Action Segmentation in Untrimmed Surgical Videos
- arxiv url: http://arxiv.org/abs/2504.18756v2
- Date: Tue, 10 Jun 2025 22:05:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 04:22:26.069798
- Title: Multi-Stage Boundary-Aware Transformer Network for Action Segmentation in Untrimmed Surgical Videos
- Title(参考訳): 手術映像における動作セグメンテーションのための多段階境界対応変圧器ネットワーク
- Authors: Rezowan Shuvo, M S Mekala, Eyad Elyan,
- Abstract要約: 手術条件下での長い行動列のキャプチャと解析は、個々の外科医のアプローチに固有の変動性のために困難である。
この変数は、曖昧な境界点と終点を持つ異なる作用の識別と分割を複雑にする。
動作セグメンテーションを改善するために,階層的スライディングウィンドウアテンションを有するマルチステージ境界対応変圧器ネットワーク(MSBATN)を提案する。
- 参考スコア(独自算出の注目度): 0.1053373860696675
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Understanding actions within surgical workflows is critical for evaluating post-operative outcomes and enhancing surgical training and efficiency. Capturing and analyzing long sequences of actions in surgical settings is challenging due to the inherent variability in individual surgeon approaches, which are shaped by their expertise and preferences. This variability complicates the identification and segmentation of distinct actions with ambiguous boundary start and end points. The traditional models, such as MS-TCN, which rely on large receptive fields, that causes over-segmentation, or under-segmentation, where distinct actions are incorrectly aligned. To address these challenges, we propose the Multi-Stage Boundary-Aware Transformer Network (MSBATN) with hierarchical sliding window attention to improve action segmentation. Our approach effectively manages the complexity of varying action durations and subtle transitions by accurately identifying start and end action boundaries in untrimmed surgical videos. MSBATN introduces a novel unified loss function that optimises action classification and boundary detection as interconnected tasks. Unlike conventional binary boundary detection methods, our innovative boundary weighing mechanism leverages contextual information to precisely identify action boundaries. Extensive experiments on three challenging surgical datasets demonstrate that MSBATN achieves state-of-the-art performance, with superior F1 scores at 25% and 50%. thresholds and competitive results across other metrics.
- Abstract(参考訳): 外科的ワークフロー内での行動を理解することは術後成績を評価し、外科的訓練と効率を向上させるために重要である。
手術条件下での長い行動列のキャプチャと解析は、個々の外科医のアプローチが専門知識と嗜好によって形作られるため、困難である。
この変数は、曖昧な境界点と終点を持つ異なる作用の識別と分割を複雑にする。
大規模な受容場に依存するMS-TCNのような伝統的なモデルは、異なるアクションが正しく一致していない過剰なセグメンテーションやアンダーセグメンテーションを引き起こす。
これらの課題に対処するため,動作セグメンテーションを改善するために,階層的スライディングウィンドウアテンションを有するMulti-Stage boundary-Aware Transformer Network (MSBATN)を提案する。
本手法は, 手術ビデオの開始と終了の動作境界を正確に同定することにより, 動作時間や微妙な遷移の複雑さを効果的に管理する。
MSBATNは、アクション分類と境界検出を相互接続タスクとして最適化する、新しい統合損失関数を導入した。
従来の境界検出法とは異なり、我々の革新的な境界重み付け機構はコンテキスト情報を利用して行動境界を正確に同定する。
3つの挑戦的な外科的データセットに対する大規模な実験により、MSBATNは最先端のパフォーマンスを達成し、F1スコアは25%と50%であった。
他の指標のしきい値と 競合する結果です
関連論文リスト
- WeakSurg: Weakly supervised surgical instrument segmentation using temporal equivariance and semantic continuity [14.448593791011204]
本稿では,楽器の有無ラベルのみを付与した手術器具セグメンテーションを提案する。
手術ビデオの時間的特性を考慮し,2段階の弱教師付きセグメンテーションパラダイムを拡張した。
1つの胆嚢摘出手術ベンチマークと1つの実際のロボット左外側肝外科手術データセットを含む2つの手術ビデオデータセットで実験が検証されている。
論文 参考訳(メタデータ) (2024-03-14T16:39:11Z) - GS-EMA: Integrating Gradient Surgery Exponential Moving Average with
Boundary-Aware Contrastive Learning for Enhanced Domain Generalization in
Aneurysm Segmentation [41.97669338211682]
勾配手術指数移動平均(GS-EMA)最適化手法と境界対応コントラスト学習(BACL)を利用した新しい領域一般化戦略を提案する。
我々のアプローチは、ドメイン不変の特徴を学習することで、新しい未確認領域に適応し、様々な臨床データセット間での動脈瘤セグメンテーションの堅牢性と正確性を向上させることができるという点で際立っている。
論文 参考訳(メタデータ) (2024-02-23T10:02:15Z) - Pixel-Wise Recognition for Holistic Surgical Scene Understanding [33.40319680006502]
本稿では,前立腺腫データセットの全体的および多角的手術シーン理解について述べる。
本ベンチマークでは,様々な粒度の相補的タスクの階層構造として,外科的シーン理解をモデル化する。
提案したベンチマークを活用するために,Transformers for Actions, Phases, Steps, and Instruments(TAPIS)モデルを導入する。
論文 参考訳(メタデータ) (2024-01-20T09:09:52Z) - SAR-RARP50: Segmentation of surgical instrumentation and Action
Recognition on Robot-Assisted Radical Prostatectomy Challenge [72.97934765570069]
外科的動作認識と意味計測のセグメンテーションのための,最初のマルチモーダルなインビボデータセットを公開し,ロボット補助根治術(RARP)の50の縫合ビデオセグメントを収録した。
この課題の目的は、提供されたデータセットのスケールを活用し、外科領域における堅牢で高精度なシングルタスクアクション認識とツールセグメンテーションアプローチを開発することである。
合計12チームがこのチャレンジに参加し、7つのアクション認識方法、9つの計器のセグメンテーション手法、そしてアクション認識と計器のセグメンテーションを統合した4つのマルチタスクアプローチをコントリビュートした。
論文 参考訳(メタデータ) (2023-12-31T13:32:18Z) - DIR-AS: Decoupling Individual Identification and Temporal Reasoning for
Action Segmentation [84.78383981697377]
完全な教師付きアクションセグメンテーションは、高密度アノテーションによるフレームワイドアクション認識に作用し、しばしば過剰なセグメンテーションの問題に悩まされる。
本研究では, 時間的ピラミッド拡張と時間的ピラミッドプールを併用して, 効率的なマルチスケールアテンションを実現するため, 新たなローカル・グローバルアテンション機構を開発した。
GTEAでは82.8%(+2.6%)、Breakfastでは74.7%(+1.2%)の精度を実現し,本手法の有効性を示した。
論文 参考訳(メタデータ) (2023-04-04T20:27:18Z) - TraSeTR: Track-to-Segment Transformer with Contrastive Query for
Instance-level Instrument Segmentation in Robotic Surgery [60.439434751619736]
そこで我々は,TraSeTRを提案する。TraSeTR,TraSeTR,Trace-to-Segment Transformerは,手術器具のセグメンテーションを支援する。
TraSeTRは、機器の種類、位置、アイデンティティとインスタンスレベルの予測を共同で理由付けている。
提案手法の有効性を,3つの公開データセットに対して,最先端の計器型セグメンテーション結果を用いて実証した。
論文 参考訳(メタデータ) (2022-02-17T05:52:18Z) - MIDeepSeg: Minimally Interactive Segmentation of Unseen Objects from
Medical Images Using Deep Learning [15.01235930304888]
ユーザインプットとしてクリックのみを必要とすることによる高効率な深層学習に基づく対話型セグメンテーション手法を提案する。
提案フレームワークは,最先端の対話型フレームワークと比較して,ユーザインタラクションが少なく,時間も少なく,正確な結果が得られる。
論文 参考訳(メタデータ) (2021-04-25T14:15:17Z) - MS-TCN++: Multi-Stage Temporal Convolutional Network for Action
Segmentation [87.16030562892537]
本稿では,時間的行動分割タスクのための多段階アーキテクチャを提案する。
第1段階は、次の段階によって洗練される初期予測を生成する。
我々のモデルは3つのデータセットで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-06-16T14:50:47Z) - On Evaluating Weakly Supervised Action Segmentation Methods [79.42955857919497]
本研究は、弱い教師付き行動セグメント化アプローチの使用と評価の2つの側面に焦点を当てる。
それぞれの手法をBreakfastデータセット上で5回トレーニングし、平均および標準偏差を提供する。
実験の結果,これらの反復に対する標準偏差は1~2.5%であり,異なるアプローチの比較に大きく影響していることがわかった。
論文 参考訳(メタデータ) (2020-05-19T20:30:31Z) - Robust Medical Instrument Segmentation Challenge 2019 [56.148440125599905]
腹腔鏡装置の術中追跡は、しばしばコンピュータとロボットによる介入の必要条件である。
本研究の課題は,30の手術症例から取得した10,040枚の注釈画像からなる外科的データセットに基づいていた。
結果は、初期仮説、すなわち、アルゴリズムの性能がドメインギャップの増大とともに低下することを確認する。
論文 参考訳(メタデータ) (2020-03-23T14:35:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。