論文の概要: Action Recognition in Video Recordings from Gynecologic Laparoscopy
- arxiv url: http://arxiv.org/abs/2311.18666v1
- Date: Thu, 30 Nov 2023 16:15:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 15:58:31.000867
- Title: Action Recognition in Video Recordings from Gynecologic Laparoscopy
- Title(参考訳): 婦人科腹腔鏡からの映像記録における行動認識
- Authors: Sahar Nasirihaghighi, Negin Ghamsarian, Daniela Stefanics, Klaus
Schoeffmann, Heinrich Husslein
- Abstract要約: 行動認識は腹腔鏡画像解析における多くの応用の前提条件である。
本研究では,CNN-RNNアーキテクチャと,カスタマイズしたトレーニング推論フレームワークの設計と評価を行う。
- 参考スコア(独自算出の注目度): 4.002010889177872
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Action recognition is a prerequisite for many applications in laparoscopic
video analysis including but not limited to surgical training, operation room
planning, follow-up surgery preparation, post-operative surgical assessment,
and surgical outcome estimation. However, automatic action recognition in
laparoscopic surgeries involves numerous challenges such as (I) cross-action
and intra-action duration variation, (II) relevant content distortion due to
smoke, blood accumulation, fast camera motions, organ movements, object
occlusion, and (III) surgical scene variations due to different illuminations
and viewpoints. Besides, action annotations in laparoscopy surgeries are
limited and expensive due to requiring expert knowledge. In this study, we
design and evaluate a CNN-RNN architecture as well as a customized
training-inference framework to deal with the mentioned challenges in
laparoscopic surgery action recognition. Using stacked recurrent layers, our
proposed network takes advantage of inter-frame dependencies to negate the
negative effect of content distortion and variation in action recognition.
Furthermore, our proposed frame sampling strategy effectively manages the
duration variations in surgical actions to enable action recognition with high
temporal resolution. Our extensive experiments confirm the superiority of our
proposed method in action recognition compared to static CNNs.
- Abstract(参考訳): 手術訓練,手術室計画,フォローアップ手術準備,術後外科的評価,手術成績推定など,腹腔鏡下ビデオ解析の多くの応用において,行動認識は必須条件である。
しかし,腹腔鏡下手術における自動行動認識には, (i) クロスアクションとイントラアクション持続時間の変化, (ii) 煙による関連コンテンツの歪み, 血液蓄積, 高速カメラ動作, オルガン運動, 物体閉塞, および (iii) 異なる照度と視点による手術場面の変動など, 数多くの課題がある。
また、腹腔鏡手術におけるアクションアノテーションは、専門知識を必要とするため、限定的で費用がかかる。
本研究では,腹腔鏡下手術行動認識における課題に対処するために,CNN-RNNアーキテクチャとカスタマイズしたトレーニング推論フレームワークの設計と評価を行う。
そこで,提案するネットワークは,フレーム間の依存性を利用して,コンテンツの歪みや動作認識のばらつきの悪影響を否定する。
さらに,提案するフレームサンプリング戦略は,手術動作の持続時間変化を効果的に管理し,時間分解能の高い動作認識を可能にする。
提案手法が静的CNNと比較して動作認識において優れていることを確認する。
関連論文リスト
- Hypergraph-Transformer (HGT) for Interactive Event Prediction in
Laparoscopic and Robotic Surgery [50.3022015601057]
腹腔内ビデオから外科的ワークフローの重要なインタラクティブな側面を理解し,予測できる予測型ニューラルネットワークを提案する。
我々は,既存の手術用データセットとアプリケーションに対するアプローチを検証し,アクション・トリプレットの検出と予測を行った。
この結果は、非構造的な代替案と比較して、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2024-02-03T00:58:05Z) - Cataract-1K: Cataract Surgery Dataset for Scene Segmentation, Phase
Recognition, and Irregularity Detection [5.47960852753243]
本稿では,コンピュータ化された手術ワークフロー解析を構築するための多様な要件に対処する,白内障手術用ビデオデータセットについて紹介する。
我々は、最先端のニューラルネットワークアーキテクチャの性能をベンチマークすることで、アノテーションの品質を検証する。
データセットとアノテーションは、論文の受理時に公開される。
論文 参考訳(メタデータ) (2023-12-11T10:53:05Z) - Event Recognition in Laparoscopic Gynecology Videos with Hybrid
Transformers [4.371909393924804]
腹腔鏡下ビデオにおいて,関連するイベント認識に適したデータセットを提案する。
本データセットは,術中大きな課題と術後合併症に関連する重要な事象に対するアノテーションを含む。
腹腔鏡下手術ビデオにおける4つの特定の事象を認識するために,ハイブリッドトランスフォーマーアーキテクチャと,カスタマイズしたトレーニング推論フレームワークを併用して評価を行った。
論文 参考訳(メタデータ) (2023-12-01T13:57:29Z) - GLSFormer : Gated - Long, Short Sequence Transformer for Step
Recognition in Surgical Videos [57.93194315839009]
本稿では,シーケンスレベルのパッチから時間的特徴を直接学習するための視覚変換器に基づくアプローチを提案する。
本研究では,白内障手術用ビデオデータセットである白内障-101とD99に対するアプローチを広範に評価し,各種の最先端手法と比較して優れた性能を示した。
論文 参考訳(メタデータ) (2023-07-20T17:57:04Z) - Learning How To Robustly Estimate Camera Pose in Endoscopic Videos [5.073761189475753]
カメラポーズ推定における2つの幾何学的損失を最小限に抑えるために,奥行きと光学的流れを推定するステレオ内視鏡の解を提案する。
最も重要なことは、入力画像の内容に応じてコントリビューションのバランスをとるために、2つの学習された画素単位の重みマッピングを導入することである。
パブリックなSCAREDデータセットに対する我々のアプローチを検証するとともに、新たなインビボデータセットであるStereoMISを導入しています。
論文 参考訳(メタデータ) (2023-04-17T07:05:01Z) - Live image-based neurosurgical guidance and roadmap generation using
unsupervised embedding [53.992124594124896]
本稿では,注釈付き脳外科ビデオの大規模なデータセットを活用するライブ画像のみのガイダンスを提案する。
生成されたロードマップは、トレーニングセットの手術で取られた一般的な解剖学的パスをエンコードする。
166例の腹腔鏡下腺摘出術を施行し,本法の有効性について検討した。
論文 参考訳(メタデータ) (2023-03-31T12:52:24Z) - Quantification of Robotic Surgeries with Vision-Based Deep Learning [45.165919577877695]
本稿では,手術中に録画されたビデオのみを対象とする統合型ディープラーニングフレームワークRoboformerを提案する。
我々は,ミニマル侵襲型ロボット手術において,一般的な2種類のステップの4つのビデオベースデータセットに対して,我々の枠組みを検証した。
論文 参考訳(メタデータ) (2022-05-06T06:08:35Z) - CholecTriplet2021: A benchmark challenge for surgical action triplet
recognition [66.51610049869393]
腹腔鏡下手術における三肢の認識のためにMICCAI 2021で実施した内視鏡的視力障害であるColecTriplet 2021を提案する。
課題の参加者が提案する最先端の深層学習手法の課題設定と評価について述べる。
4つのベースライン法と19の新しいディープラーニングアルゴリズムが提示され、手術ビデオから直接手術行動三重項を認識し、平均平均精度(mAP)は4.2%から38.1%である。
論文 参考訳(メタデータ) (2022-04-10T18:51:55Z) - LensID: A CNN-RNN-Based Framework Towards Lens Irregularity Detection in
Cataract Surgery Videos [6.743968799949719]
白内障手術後の合併症は、視力低下と眼外傷につながるレンズインプラントの脱臼である。
本稿では、レンズ導入フェーズを認識するエンドツーエンドのリカレントニューラルネットワークと、インプラントフェーズ後にレンズと瞳孔を分割する新しいセマンティックセマンティックセマンティックネットワークを提案する。
論文 参考訳(メタデータ) (2021-07-02T07:27:29Z) - Relevance Detection in Cataract Surgery Videos by Spatio-Temporal Action
Localization [7.235239641693831]
白内障手術では、顕微鏡の助けを借りて手術を行います。
顕微鏡は最大2人程度でリアルタイム手術を観察できるため、記録されたビデオを用いて手術訓練の大部分を行う。
ビデオコンテンツでトレーニング手順を最適化するには、外科医は自動関連性検出アプローチが必要です。
本稿では,白内障映像における関連フェーズセグメントの検出と分類を行うための3モジュールフレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-29T12:01:08Z) - One-shot action recognition towards novel assistive therapies [63.23654147345168]
この作業は、アクション模倣ゲームを含む医療療法の自動分析によって動機づけられます。
提案手法は、異種運動データ条件を標準化する前処理ステップを組み込んだものである。
自閉症者に対するセラピー支援のための自動ビデオ分析の実際の利用事例について検討した。
論文 参考訳(メタデータ) (2021-02-17T19:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。