論文の概要: Surgical Video Understanding with Label Interpolation
- arxiv url: http://arxiv.org/abs/2509.18802v1
- Date: Tue, 23 Sep 2025 08:49:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.781052
- Title: Surgical Video Understanding with Label Interpolation
- Title(参考訳): ラベル補間による手術映像の理解
- Authors: Garam Kim, Tae Kyeong Jeong, Juyoun Park,
- Abstract要約: ロボット補助手術 (RAS) は, 患者の回復を促進するとともに, 外科医の負担を軽減し, 近代的な手術において重要なパラダイムとなっている。
これまでの研究は主にシングルタスクのアプローチに焦点が当てられていたが、実際の手術シーンには複雑な時間的ダイナミクスと多様な楽器の相互作用が含まれる。
本稿では,光フローベースセグメンテーションラベルとマルチタスク学習を組み合わせた新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 3.880707330499936
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robot-assisted surgery (RAS) has become a critical paradigm in modern surgery, promoting patient recovery and reducing the burden on surgeons through minimally invasive approaches. To fully realize its potential, however, a precise understanding of the visual data generated during surgical procedures is essential. Previous studies have predominantly focused on single-task approaches, but real surgical scenes involve complex temporal dynamics and diverse instrument interactions that limit comprehensive understanding. Moreover, the effective application of multi-task learning (MTL) requires sufficient pixel-level segmentation data, which are difficult to obtain due to the high cost and expertise required for annotation. In particular, long-term annotations such as phases and steps are available for every frame, whereas short-term annotations such as surgical instrument segmentation and action detection are provided only for key frames, resulting in a significant temporal-spatial imbalance. To address these challenges, we propose a novel framework that combines optical flow-based segmentation label interpolation with multi-task learning. optical flow estimated from annotated key frames is used to propagate labels to adjacent unlabeled frames, thereby enriching sparse spatial supervision and balancing temporal and spatial information for training. This integration improves both the accuracy and efficiency of surgical scene understanding and, in turn, enhances the utility of RAS.
- Abstract(参考訳): ロボット補助手術 (RAS) は, 患者の回復を促進し, 手術者の負担を最小限の侵襲的アプローチで軽減し, 近代的な手術において重要なパラダイムとなっている。
しかし、その可能性を十分に実現するためには、外科手術中に発生する視覚的データの正確な理解が不可欠である。
これまでの研究は主にシングルタスクのアプローチに焦点が当てられていたが、実際の手術シーンには複雑な時間的ダイナミクスと、包括的な理解を制限する多様な楽器の相互作用が含まれる。
さらに,マルチタスク学習(MTL)を効果的に適用するには十分なピクセルレベルのセグメンテーションデータが必要である。
特に、フェーズやステップなどの長期アノテーションは各フレームで利用可能であるが、手術器具のセグメンテーションやアクション検出のような短期アノテーションはキーフレームでのみ提供されるため、時間的空間的不均衡は顕著である。
これらの課題に対処するために,光フローベースセグメンテーションラベル補間とマルチタスク学習を組み合わせた新しいフレームワークを提案する。
注釈付きキーフレームから推定される光フローは、ラベルを隣接したラベル付きフレームに伝達するために使用され、それによって空間的監督が疎くなり、時間的および空間的な情報を訓練するためのバランスをとる。
この統合により,手術シーン理解の精度と効率が向上し,RASの有用性が向上する。
関連論文リスト
- EndoARSS: Adapting Spatially-Aware Foundation Model for Efficient Activity Recognition and Semantic Segmentation in Endoscopic Surgery [11.286605039002419]
内視鏡手術は、ロボットによる最小侵襲手術のための金の標準である。
従来のディープラーニングモデルは、しばしばクロスアクティビティな干渉に悩まされ、下流の各タスクで最適以下のパフォーマンスをもたらす。
本研究では,内視鏡下手術活動認識とセマンティックセグメンテーションに特化して設計された,新しいマルチタスク学習フレームワークであるEndoARSSを提案する。
論文 参考訳(メタデータ) (2025-06-07T15:18:43Z) - Procedure-Aware Surgical Video-language Pretraining with Hierarchical Knowledge Augmentation [51.222684687924215]
手術用ビデオ言語事前学習は、知識領域のギャップとマルチモーダルデータの不足により、独特な課題に直面している。
本稿では,これらの課題に対処するために,階層的知識向上手法と新しい手術的知識向上型ビデオランゲージ事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-30T22:21:05Z) - Surgical Temporal Action-aware Network with Sequence Regularization for
Phase Recognition [28.52533700429284]
本稿では,STAR-Netと命名されたシークエンス正規化を施した手術時行動認識ネットワークを提案する。
MS-STAモジュールは、視覚的特徴と2Dネットワークを犠牲にして、手術行動の空間的および時間的知識を統合する。
我々のSTAR-Net with MS-STA and DSR can exploit of visual features of surgery action with effective regularization, which to the excellent performance of surgery phase recognition。
論文 参考訳(メタデータ) (2023-11-21T13:43:16Z) - Phase-Specific Augmented Reality Guidance for Microscopic Cataract
Surgery Using Long-Short Spatiotemporal Aggregation Transformer [14.568834378003707]
乳化白内障手術(英: Phaemulsification cataract surgery, PCS)は、外科顕微鏡を用いた外科手術である。
PCS誘導システムは、手術用顕微鏡映像から貴重な情報を抽出し、熟練度を高める。
既存のPCSガイダンスシステムでは、位相特異なガイダンスに悩まされ、冗長な視覚情報に繋がる。
本稿では,認識された手術段階に対応するAR情報を提供する,新しい位相特異的拡張現実(AR)誘導システムを提案する。
論文 参考訳(メタデータ) (2023-09-11T02:56:56Z) - GLSFormer : Gated - Long, Short Sequence Transformer for Step
Recognition in Surgical Videos [57.93194315839009]
本稿では,シーケンスレベルのパッチから時間的特徴を直接学習するための視覚変換器に基づくアプローチを提案する。
本研究では,白内障手術用ビデオデータセットである白内障-101とD99に対するアプローチを広範に評価し,各種の最先端手法と比較して優れた性能を示した。
論文 参考訳(メタデータ) (2023-07-20T17:57:04Z) - Federated Cycling (FedCy): Semi-supervised Federated Learning of
Surgical Phases [57.90226879210227]
FedCyは、FLと自己教師付き学習を組み合わせた半教師付き学習(FSSL)手法で、ラベル付きビデオとラベルなしビデオの両方の分散データセットを利用する。
外科的段階の自動認識作業において,最先端のFSSL法よりも顕著な性能向上を示した。
論文 参考訳(メタデータ) (2022-03-14T17:44:53Z) - Real-time landmark detection for precise endoscopic submucosal
dissection via shape-aware relation network [51.44506007844284]
内視鏡下粘膜下郭清術における高精度かつリアルタイムなランドマーク検出のための形状認識型関係ネットワークを提案する。
まず,ランドマーク間の空間的関係に関する先行知識を直感的に表現する関係キーポイント・ヒートマップを自動生成するアルゴリズムを考案する。
次に、事前知識を学習プロセスに段階的に組み込むために、2つの補完的な正規化手法を開発する。
論文 参考訳(メタデータ) (2021-11-08T07:57:30Z) - Robust Medical Instrument Segmentation Challenge 2019 [56.148440125599905]
腹腔鏡装置の術中追跡は、しばしばコンピュータとロボットによる介入の必要条件である。
本研究の課題は,30の手術症例から取得した10,040枚の注釈画像からなる外科的データセットに基づいていた。
結果は、初期仮説、すなわち、アルゴリズムの性能がドメインギャップの増大とともに低下することを確認する。
論文 参考訳(メタデータ) (2020-03-23T14:35:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。