論文の概要: Event Recognition in Laparoscopic Gynecology Videos with Hybrid
Transformers
- arxiv url: http://arxiv.org/abs/2312.00593v1
- Date: Fri, 1 Dec 2023 13:57:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-04 14:34:22.340527
- Title: Event Recognition in Laparoscopic Gynecology Videos with Hybrid
Transformers
- Title(参考訳): ハイブリッドトランスフォーマーを用いた腹腔鏡下婦人科ビデオにおける事象認識
- Authors: Sahar Nasirihaghighi, Negin Ghamsarian, Heinrich Husslein, Klaus
Schoeffmann
- Abstract要約: 腹腔鏡下ビデオにおいて,関連するイベント認識に適したデータセットを提案する。
本データセットは,術中大きな課題と術後合併症に関連する重要な事象に対するアノテーションを含む。
腹腔鏡下手術ビデオにおける4つの特定の事象を認識するために,ハイブリッドトランスフォーマーアーキテクチャと,カスタマイズしたトレーニング推論フレームワークを併用して評価を行った。
- 参考スコア(独自算出の注目度): 4.371909393924804
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Analyzing laparoscopic surgery videos presents a complex and multifaceted
challenge, with applications including surgical training, intra-operative
surgical complication prediction, and post-operative surgical assessment.
Identifying crucial events within these videos is a significant prerequisite in
a majority of these applications. In this paper, we introduce a comprehensive
dataset tailored for relevant event recognition in laparoscopic gynecology
videos. Our dataset includes annotations for critical events associated with
major intra-operative challenges and post-operative complications. To validate
the precision of our annotations, we assess event recognition performance using
several CNN-RNN architectures. Furthermore, we introduce and evaluate a hybrid
transformer architecture coupled with a customized training-inference framework
to recognize four specific events in laparoscopic surgery videos. Leveraging
the Transformer networks, our proposed architecture harnesses inter-frame
dependencies to counteract the adverse effects of relevant content occlusion,
motion blur, and surgical scene variation, thus significantly enhancing event
recognition accuracy. Moreover, we present a frame sampling strategy designed
to manage variations in surgical scenes and the surgeons' skill level,
resulting in event recognition with high temporal resolution. We empirically
demonstrate the superiority of our proposed methodology in event recognition
compared to conventional CNN-RNN architectures through a series of extensive
experiments.
- Abstract(参考訳): 腹腔鏡下手術ビデオの解析は,手術訓練,術中合併症予測,術後外科的評価など,複雑かつ多面的な課題を呈する。
これらのビデオ内で重要な出来事を特定することは、ほとんどのアプリケーションにおいて重要な前提条件である。
本稿では,腹腔鏡下婦人科ビデオにおけるイベント認識のための包括的データセットを提案する。
本データセットは,術中課題と術後合併症に関連する重要な事象に対するアノテーションを含む。
アノテーションの精度を評価するため,複数のCNN-RNNアーキテクチャを用いてイベント認識性能を評価する。
さらに,腹腔鏡下手術ビデオにおける4つの特定の事象を認識するために,トレーニング推論フレームワークをカスタマイズしたハイブリッドトランスフォーマーアーキテクチャを導入,評価する。
提案手法はトランスフォーマーネットワークを活用し, フレーム間依存性を利用して, 関連するコンテンツの閉塞, 動きのぼかし, および手術場面の変動の悪影響を対処し, イベント認識精度を著しく向上させる。
さらに,手術シーンと外科医のスキルレベルの変化を管理するためのフレームサンプリング戦略を提案し,時間分解能の高いイベント認識を実現する。
我々は,従来のcnn-rnnアーキテクチャと比較して,提案手法がイベント認識において優れていることを示す実験を行った。
関連論文リスト
- OphCLIP: Hierarchical Retrieval-Augmented Learning for Ophthalmic Surgical Video-Language Pretraining [55.15365161143354]
OphCLIPは、眼科手術ワークフロー理解のための階層的検索強化視覚言語事前学習フレームワークである。
OphCLIPは、短いビデオクリップと詳細な物語記述、構造化タイトルによるフルビデオの調整によって、細粒度と長期の視覚表現の両方を学習する。
我々のOphCLIPは、探索されていない大規模なサイレント手術ビデオを活用するために、検索強化事前訓練フレームワークも設計している。
論文 参考訳(メタデータ) (2024-11-23T02:53:08Z) - Procedure-Aware Surgical Video-language Pretraining with Hierarchical Knowledge Augmentation [51.222684687924215]
手術用ビデオ言語事前学習は、知識領域のギャップとマルチモーダルデータの不足により、独特な課題に直面している。
本稿では,これらの課題に対処するために,階層的知識向上手法と新しい手術的知識向上型ビデオランゲージ事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-30T22:21:05Z) - Hypergraph-Transformer (HGT) for Interactive Event Prediction in
Laparoscopic and Robotic Surgery [50.3022015601057]
腹腔内ビデオから外科的ワークフローの重要なインタラクティブな側面を理解し,予測できる予測型ニューラルネットワークを提案する。
我々は,既存の手術用データセットとアプリケーションに対するアプローチを検証し,アクション・トリプレットの検出と予測を行った。
この結果は、非構造的な代替案と比較して、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2024-02-03T00:58:05Z) - Cataract-1K: Cataract Surgery Dataset for Scene Segmentation, Phase
Recognition, and Irregularity Detection [5.47960852753243]
本稿では,コンピュータ化された手術ワークフロー解析を構築するための多様な要件に対処する,白内障手術用ビデオデータセットについて紹介する。
我々は、最先端のニューラルネットワークアーキテクチャの性能をベンチマークすることで、アノテーションの品質を検証する。
データセットとアノテーションは、論文の受理時に公開される。
論文 参考訳(メタデータ) (2023-12-11T10:53:05Z) - Action Recognition in Video Recordings from Gynecologic Laparoscopy [4.002010889177872]
行動認識は腹腔鏡画像解析における多くの応用の前提条件である。
本研究では,CNN-RNNアーキテクチャと,カスタマイズしたトレーニング推論フレームワークの設計と評価を行う。
論文 参考訳(メタデータ) (2023-11-30T16:15:46Z) - Phase-Specific Augmented Reality Guidance for Microscopic Cataract
Surgery Using Long-Short Spatiotemporal Aggregation Transformer [14.568834378003707]
乳化白内障手術(英: Phaemulsification cataract surgery, PCS)は、外科顕微鏡を用いた外科手術である。
PCS誘導システムは、手術用顕微鏡映像から貴重な情報を抽出し、熟練度を高める。
既存のPCSガイダンスシステムでは、位相特異なガイダンスに悩まされ、冗長な視覚情報に繋がる。
本稿では,認識された手術段階に対応するAR情報を提供する,新しい位相特異的拡張現実(AR)誘導システムを提案する。
論文 参考訳(メタデータ) (2023-09-11T02:56:56Z) - K-Space-Aware Cross-Modality Score for Synthesized Neuroimage Quality
Assessment [71.27193056354741]
クロスモダリティな医用画像合成をどう評価するかという問題は、ほとんど解明されていない。
本稿では,この課題の進展を促すため,新しい指標K-CROSSを提案する。
K-CROSSは、トレーニング済みのマルチモードセグメンテーションネットワークを使用して、病変の位置を予測する。
論文 参考訳(メタデータ) (2023-07-10T01:26:48Z) - CholecTriplet2021: A benchmark challenge for surgical action triplet
recognition [66.51610049869393]
腹腔鏡下手術における三肢の認識のためにMICCAI 2021で実施した内視鏡的視力障害であるColecTriplet 2021を提案する。
課題の参加者が提案する最先端の深層学習手法の課題設定と評価について述べる。
4つのベースライン法と19の新しいディープラーニングアルゴリズムが提示され、手術ビデオから直接手術行動三重項を認識し、平均平均精度(mAP)は4.2%から38.1%である。
論文 参考訳(メタデータ) (2022-04-10T18:51:55Z) - Relevance Detection in Cataract Surgery Videos by Spatio-Temporal Action
Localization [7.235239641693831]
白内障手術では、顕微鏡の助けを借りて手術を行います。
顕微鏡は最大2人程度でリアルタイム手術を観察できるため、記録されたビデオを用いて手術訓練の大部分を行う。
ビデオコンテンツでトレーニング手順を最適化するには、外科医は自動関連性検出アプローチが必要です。
本稿では,白内障映像における関連フェーズセグメントの検出と分類を行うための3モジュールフレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-29T12:01:08Z) - Robust Medical Instrument Segmentation Challenge 2019 [56.148440125599905]
腹腔鏡装置の術中追跡は、しばしばコンピュータとロボットによる介入の必要条件である。
本研究の課題は,30の手術症例から取得した10,040枚の注釈画像からなる外科的データセットに基づいていた。
結果は、初期仮説、すなわち、アルゴリズムの性能がドメインギャップの増大とともに低下することを確認する。
論文 参考訳(メタデータ) (2020-03-23T14:35:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。