論文の概要: Multi-Stage Boundary-Aware Transformer Network for Action Segmentation in Untrimmed Surgical Videos
- arxiv url: http://arxiv.org/abs/2504.18756v1
- Date: Sat, 26 Apr 2025 01:07:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.971253
- Title: Multi-Stage Boundary-Aware Transformer Network for Action Segmentation in Untrimmed Surgical Videos
- Title(参考訳): 手術映像における動作セグメンテーションのための多段階境界対応変圧器ネットワーク
- Authors: Rezowan Shuvo, M S Mekala, Eyad Elyan,
- Abstract要約: 階層的スライディングウィンドウアテンションを有するマルチステージ境界対応変圧器ネットワーク(MSBATN)を提案する。
提案手法は,動作分類と境界検出を独立に独立なタスクとして扱う新しい統合的損失関数を取り入れたものである。
境界投票機構はコンテキスト情報を利用して開始点と終了点を正確に識別する。
- 参考スコア(独自算出の注目度): 0.1053373860696675
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Understanding actions within surgical workflows is essential for evaluating post-operative outcomes. However, capturing long sequences of actions performed in surgical settings poses challenges, as individual surgeons have their unique approaches shaped by their expertise, leading to significant variability. To tackle this complex problem, we focused on segmentation with precise boundaries, a demanding task due to the inherent variability in action durations and the subtle transitions often observed in untrimmed videos. These transitions, marked by ambiguous starting and ending points, complicate the segmentation process. Traditional models, such as MS-TCN, which depend on large receptive fields, frequently face challenges of over-segmentation (resulting in fragmented segments) or under-segmentation (merging distinct actions). Both of these issues negatively impact the quality of segmentation. To overcome these challenges, we present the Multi-Stage Boundary-Aware Transformer Network (MSBATN) with hierarchical sliding window attention, designed to enhance action segmentation. Our proposed approach incorporates a novel unified loss function that treats action classification and boundary detection as distinct yet interdependent tasks. Unlike traditional binary boundary detection methods, our boundary voting mechanism accurately identifies start and end points by leveraging contextual information. Extensive experiments using three challenging surgical datasets demonstrate the superior performance of the proposed method, achieving state-of-the-art results in F1 scores at thresholds of 25% and 50%, while also delivering comparable performance in other metrics.
- Abstract(参考訳): 外科的ワークフローにおける行動を理解することは術後成績を評価するのに不可欠である。
しかし、個々の外科医が専門知識によって独自のアプローチをとっており、大きな変動をもたらすため、外科的設定で実施される長い行動の捕獲は課題を生じさせる。
この複雑な問題に対処するために、我々は、正確な境界を持つセグメンテーション、アクションの持続時間に固有の変動性や、トリミングされていないビデオでよく見られる微妙な遷移による要求課題に焦点を当てた。
これらの遷移は、あいまいな始点と終点によって特徴づけられ、分節過程を複雑にする。
大規模な受容場に依存するMS-TCNのような伝統的なモデルは、しばしば過分割(断片化されたセグメントで置換)やアンダーセグメンテーション(異なるアクションを統合する)という課題に直面している。
これらの問題はどちらもセグメンテーションの品質に悪影響を及ぼす。
これらの課題を克服するために、動作セグメンテーションを強化するために設計された階層的スライディングウィンドウアテンションを備えたマルチステージ境界対応トランスフォーマネットワーク(MSBATN)を提案する。
提案手法は,動作分類と境界検出を独立に独立なタスクとして扱う新しい統合的損失関数を取り入れたものである。
従来の境界境界検出法とは異なり、境界投票機構はコンテキスト情報を利用して開始点と終了点を正確に識別する。
3つの挑戦的な外科的データセットを用いた大規模な実験は、提案手法の優れた性能を示し、25%と50%の閾値でF1スコアの最先端結果を達成するとともに、他の指標で同等のパフォーマンスを提供する。
関連論文リスト
- WeakSurg: Weakly supervised surgical instrument segmentation using temporal equivariance and semantic continuity [14.448593791011204]
本稿では,楽器の有無ラベルのみを付与した手術器具セグメンテーションを提案する。
手術ビデオの時間的特性を考慮し,2段階の弱教師付きセグメンテーションパラダイムを拡張した。
1つの胆嚢摘出手術ベンチマークと1つの実際のロボット左外側肝外科手術データセットを含む2つの手術ビデオデータセットで実験が検証されている。
論文 参考訳(メタデータ) (2024-03-14T16:39:11Z) - GS-EMA: Integrating Gradient Surgery Exponential Moving Average with
Boundary-Aware Contrastive Learning for Enhanced Domain Generalization in
Aneurysm Segmentation [41.97669338211682]
勾配手術指数移動平均(GS-EMA)最適化手法と境界対応コントラスト学習(BACL)を利用した新しい領域一般化戦略を提案する。
我々のアプローチは、ドメイン不変の特徴を学習することで、新しい未確認領域に適応し、様々な臨床データセット間での動脈瘤セグメンテーションの堅牢性と正確性を向上させることができるという点で際立っている。
論文 参考訳(メタデータ) (2024-02-23T10:02:15Z) - Pixel-Wise Recognition for Holistic Surgical Scene Understanding [33.40319680006502]
本稿では,前立腺腫データセットの全体的および多角的手術シーン理解について述べる。
本ベンチマークでは,様々な粒度の相補的タスクの階層構造として,外科的シーン理解をモデル化する。
提案したベンチマークを活用するために,Transformers for Actions, Phases, Steps, and Instruments(TAPIS)モデルを導入する。
論文 参考訳(メタデータ) (2024-01-20T09:09:52Z) - SAR-RARP50: Segmentation of surgical instrumentation and Action
Recognition on Robot-Assisted Radical Prostatectomy Challenge [72.97934765570069]
外科的動作認識と意味計測のセグメンテーションのための,最初のマルチモーダルなインビボデータセットを公開し,ロボット補助根治術(RARP)の50の縫合ビデオセグメントを収録した。
この課題の目的は、提供されたデータセットのスケールを活用し、外科領域における堅牢で高精度なシングルタスクアクション認識とツールセグメンテーションアプローチを開発することである。
合計12チームがこのチャレンジに参加し、7つのアクション認識方法、9つの計器のセグメンテーション手法、そしてアクション認識と計器のセグメンテーションを統合した4つのマルチタスクアプローチをコントリビュートした。
論文 参考訳(メタデータ) (2023-12-31T13:32:18Z) - DIR-AS: Decoupling Individual Identification and Temporal Reasoning for
Action Segmentation [84.78383981697377]
完全な教師付きアクションセグメンテーションは、高密度アノテーションによるフレームワイドアクション認識に作用し、しばしば過剰なセグメンテーションの問題に悩まされる。
本研究では, 時間的ピラミッド拡張と時間的ピラミッドプールを併用して, 効率的なマルチスケールアテンションを実現するため, 新たなローカル・グローバルアテンション機構を開発した。
GTEAでは82.8%(+2.6%)、Breakfastでは74.7%(+1.2%)の精度を実現し,本手法の有効性を示した。
論文 参考訳(メタデータ) (2023-04-04T20:27:18Z) - TraSeTR: Track-to-Segment Transformer with Contrastive Query for
Instance-level Instrument Segmentation in Robotic Surgery [60.439434751619736]
そこで我々は,TraSeTRを提案する。TraSeTR,TraSeTR,Trace-to-Segment Transformerは,手術器具のセグメンテーションを支援する。
TraSeTRは、機器の種類、位置、アイデンティティとインスタンスレベルの予測を共同で理由付けている。
提案手法の有効性を,3つの公開データセットに対して,最先端の計器型セグメンテーション結果を用いて実証した。
論文 参考訳(メタデータ) (2022-02-17T05:52:18Z) - MIDeepSeg: Minimally Interactive Segmentation of Unseen Objects from
Medical Images Using Deep Learning [15.01235930304888]
ユーザインプットとしてクリックのみを必要とすることによる高効率な深層学習に基づく対話型セグメンテーション手法を提案する。
提案フレームワークは,最先端の対話型フレームワークと比較して,ユーザインタラクションが少なく,時間も少なく,正確な結果が得られる。
論文 参考訳(メタデータ) (2021-04-25T14:15:17Z) - MS-TCN++: Multi-Stage Temporal Convolutional Network for Action
Segmentation [87.16030562892537]
本稿では,時間的行動分割タスクのための多段階アーキテクチャを提案する。
第1段階は、次の段階によって洗練される初期予測を生成する。
我々のモデルは3つのデータセットで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-06-16T14:50:47Z) - On Evaluating Weakly Supervised Action Segmentation Methods [79.42955857919497]
本研究は、弱い教師付き行動セグメント化アプローチの使用と評価の2つの側面に焦点を当てる。
それぞれの手法をBreakfastデータセット上で5回トレーニングし、平均および標準偏差を提供する。
実験の結果,これらの反復に対する標準偏差は1~2.5%であり,異なるアプローチの比較に大きく影響していることがわかった。
論文 参考訳(メタデータ) (2020-05-19T20:30:31Z) - Robust Medical Instrument Segmentation Challenge 2019 [56.148440125599905]
腹腔鏡装置の術中追跡は、しばしばコンピュータとロボットによる介入の必要条件である。
本研究の課題は,30の手術症例から取得した10,040枚の注釈画像からなる外科的データセットに基づいていた。
結果は、初期仮説、すなわち、アルゴリズムの性能がドメインギャップの増大とともに低下することを確認する。
論文 参考訳(メタデータ) (2020-03-23T14:35:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。