論文の概要: Deep-Learning-Assisted Analysis of Cataract Surgery Videos
- arxiv url: http://arxiv.org/abs/2312.05900v1
- Date: Sun, 10 Dec 2023 14:25:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 18:02:24.512265
- Title: Deep-Learning-Assisted Analysis of Cataract Surgery Videos
- Title(参考訳): ディープラーニングを用いた白内障手術ビデオの解析
- Authors: Negin Ghamsarian
- Abstract要約: このような自動システムの需要が絶え間なく増加し、外科的ビデオ分析のための機械学習ベースのアプローチがもたらされた。
この論文は、白内障手術ビデオ解析における重要な課題に対処し、効率的な文脈認識システム構築の道を開く。
- 参考スコア(独自算出の注目度): 1.8673970128645236
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Following the technological advancements in medicine, the operation rooms are
evolving into intelligent environments. The context-aware systems (CAS) can
comprehensively interpret the surgical state, enable real-time warning, and
support decision-making, especially for novice surgeons. These systems can
automatically analyze surgical videos and perform indexing, documentation, and
post-operative report generation. The ever-increasing demand for such automatic
systems has sparked machine-learning-based approaches for surgical video
analysis. This thesis addresses the significant challenges in cataract surgery
video analysis to pave the way for building efficient context-aware systems.
The main contributions of this thesis are five folds: (1) This thesis
demonstrates that spatio-temporal localization of the relevant content can
considerably improve phase recognition accuracy. (2) This thesis proposes a
novel deep-learning-based framework for relevance-based compression to enable
real-time streaming and adaptive storage of cataract surgery videos. (3)
Several convolutional modules are proposed to boost the networks' semantic
interpretation performance in challenging conditions. These challenges include
blur and reflection distortion, transparency, deformability, color and texture
variation, blunt edges, and scale variation. (4) This thesis proposes and
evaluates the first framework for automatic irregularity detection in cataract
surgery videos. (5) To alleviate the requirement for manual pixel-based
annotations, this thesis proposes novel strategies for self-supervised
representation learning adapted to semantic segmentation.
- Abstract(参考訳): 医療技術の進歩に伴い、手術室はインテリジェントな環境へと進化している。
文脈認識システム(CAS)は、手術状態を包括的に解釈し、リアルタイム警告を可能にし、特に初心者外科医の意思決定を支援する。
これらのシステムは、手術ビデオを自動的に分析し、インデクシング、文書化、手術後のレポート生成を行うことができる。
このような自動システムに対する需要がますます高まる中、手術用ビデオ分析のための機械学習ベースのアプローチが生まれている。
この論文は白内障手術ビデオ解析における重要な課題に対処し、効率的な文脈認識システム構築の道を開く。
1) 本論文は, 関連コンテンツの時空間的局所化が位相認識精度を大幅に向上させることを示す。
2)本論文は,白内障手術ビデオのリアルタイムストリーミングと適応ストレージを実現するための,関連性に基づく圧縮のための新しいディープラーニングフレームワークを提案する。
3)いくつかの畳み込みモジュールが提案され,ネットワークの意味解釈性能の向上が期待できる。
これらの課題には、ぼかしと反射の歪み、透明性、変形性、色とテクスチャの変化、鈍いエッジ、スケールの変動などがある。
(4)白内障手術ビデオにおける自動不規則検出のための最初の枠組みを提案し,評価する。
(5)手動ピクセルベースのアノテーションの要件を軽減するため,セマンティックセグメンテーションに適応した自己教師付き表現学習のための新しい戦略を提案する。
関連論文リスト
- OphCLIP: Hierarchical Retrieval-Augmented Learning for Ophthalmic Surgical Video-Language Pretraining [55.15365161143354]
OphCLIPは、眼科手術ワークフロー理解のための階層的検索強化視覚言語事前学習フレームワークである。
OphCLIPは、短いビデオクリップと詳細な物語記述、構造化タイトルによるフルビデオの調整によって、細粒度と長期の視覚表現の両方を学習する。
我々のOphCLIPは、探索されていない大規模なサイレント手術ビデオを活用するために、検索強化事前訓練フレームワークも設計している。
論文 参考訳(メタデータ) (2024-11-23T02:53:08Z) - Procedure-Aware Surgical Video-language Pretraining with Hierarchical Knowledge Augmentation [51.222684687924215]
手術用ビデオ言語事前学習は、知識領域のギャップとマルチモーダルデータの不足により、独特な課題に直面している。
本稿では,これらの課題に対処するために,階層的知識向上手法と新しい手術的知識向上型ビデオランゲージ事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-30T22:21:05Z) - Thoracic Surgery Video Analysis for Surgical Phase Recognition [0.08706730566331035]
我々は,11種類の位相からなる胸部手術データセットを用いて,フレームベースおよびビデオクリッピングに基づく位相認識の解析と評価を行った。
ImageNet ViTによる52.31%に比べて,Masked Video Distillation(MVD)は72.9%の精度で優れた性能を示した。
論文 参考訳(メタデータ) (2024-06-13T14:47:57Z) - FLex: Joint Pose and Dynamic Radiance Fields Optimization for Stereo Endoscopic Videos [79.50191812646125]
内視鏡的シーンの再構築は、外科手術後の分析から教育訓練まで、様々な医療応用にとって重要な要素である。
変形組織の非常にダイナミックな環境下での移動内視鏡の挑戦的なセットアップに着目する。
複数重重なり合う4次元ニューラルラジアンスフィールド(NeRF)への暗黙的なシーン分離と、再構成とカメラのスクラッチからのポーズを協調的に最適化するプログレッシブ最適化手法を提案する。
これにより、使いやすさが向上し、5000フレーム以上の手術ビデオの処理に間に合うように復元能力を拡張できる。
論文 参考訳(メタデータ) (2024-03-18T19:13:02Z) - Learning Multi-modal Representations by Watching Hundreds of Surgical Video Lectures [51.78027546947034]
外科的コンピュータビジョンの最近の進歩は、言語意味論に欠ける視覚のみのモデルによって推進されている。
本稿では,eラーニングプラットフォームからの手術ビデオ講義を活用し,効果的な視覚情報と言語監督信号を提供する。
テキスト書き起こしのための複数自動音声認識システムを用いて,手術固有の言語課題に対処する。
論文 参考訳(メタデータ) (2023-07-27T22:38:12Z) - Learning How To Robustly Estimate Camera Pose in Endoscopic Videos [5.073761189475753]
カメラポーズ推定における2つの幾何学的損失を最小限に抑えるために,奥行きと光学的流れを推定するステレオ内視鏡の解を提案する。
最も重要なことは、入力画像の内容に応じてコントリビューションのバランスをとるために、2つの学習された画素単位の重みマッピングを導入することである。
パブリックなSCAREDデータセットに対する我々のアプローチを検証するとともに、新たなインビボデータセットであるStereoMISを導入しています。
論文 参考訳(メタデータ) (2023-04-17T07:05:01Z) - Robotic Navigation Autonomy for Subretinal Injection via Intelligent
Real-Time Virtual iOCT Volume Slicing [88.99939660183881]
網膜下注射のための自律型ロボットナビゲーションの枠組みを提案する。
提案手法は,機器のポーズ推定方法,ロボットとi OCTシステム間のオンライン登録,およびインジェクションターゲットへのナビゲーションに適した軌道計画から構成される。
ブタ前眼の精度と再現性について実験を行った。
論文 参考訳(メタデータ) (2023-01-17T21:41:21Z) - Relevance Detection in Cataract Surgery Videos by Spatio-Temporal Action
Localization [7.235239641693831]
白内障手術では、顕微鏡の助けを借りて手術を行います。
顕微鏡は最大2人程度でリアルタイム手術を観察できるため、記録されたビデオを用いて手術訓練の大部分を行う。
ビデオコンテンツでトレーニング手順を最適化するには、外科医は自動関連性検出アプローチが必要です。
本稿では,白内障映像における関連フェーズセグメントの検出と分類を行うための3モジュールフレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-29T12:01:08Z) - Simulation-to-Real domain adaptation with teacher-student learning for
endoscopic instrument segmentation [1.1047993346634768]
注釈付きシミュレーションデータとラベルのない実データから共同学習する教師学習手法を紹介します。
3つのデータセットの実証結果は、提案したフレームワークの有効性を浮き彫りにする。
論文 参考訳(メタデータ) (2021-03-02T09:30:28Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z) - Synthetic and Real Inputs for Tool Segmentation in Robotic Surgery [10.562627972607892]
腹腔鏡画像と組み合わせたロボットキネマティックデータを用いてラベル付け問題を緩和できる可能性が示唆された。
腹腔鏡画像とシミュレーション画像の並列処理のための新しい深層学習モデルを提案する。
論文 参考訳(メタデータ) (2020-07-17T16:33:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。