論文の概要: Learning Representations of Endoscopic Videos to Detect Tool Presence
Without Supervision
- arxiv url: http://arxiv.org/abs/2008.12321v1
- Date: Thu, 27 Aug 2020 18:23:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 08:12:38.025401
- Title: Learning Representations of Endoscopic Videos to Detect Tool Presence
Without Supervision
- Title(参考訳): 内視鏡的映像表現の学習とツールプレゼンス検出
- Authors: David Z. Li, Masaru Ishii, Russell H. Taylor, Gregory D. Hager, Ayushi
Sinha
- Abstract要約: 我々は,内視鏡的映像フレームの表現を学習し,外科的ツールの有無を監督せずに識別する作業を行う。
本手法では, 内視鏡的ビデオフレームが平均精度71.56, 73.93, 76.18のツールを含むか否かを判定する。
- 参考スコア(独自算出の注目度): 20.40423303055869
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we explore whether it is possible to learn representations of
endoscopic video frames to perform tasks such as identifying surgical tool
presence without supervision. We use a maximum mean discrepancy (MMD)
variational autoencoder (VAE) to learn low-dimensional latent representations
of endoscopic videos and manipulate these representations to distinguish frames
containing tools from those without tools. We use three different methods to
manipulate these latent representations in order to predict tool presence in
each frame. Our fully unsupervised methods can identify whether endoscopic
video frames contain tools with average precision of 71.56, 73.93, and 76.18,
respectively, comparable to supervised methods. Our code is available at
https://github.com/zdavidli/tool-presence/
- Abstract(参考訳): そこで本研究では,内視鏡的ビデオフレームの表現を学習し,手術器具の存在を監視せずに識別する作業を行うことができるか検討する。
我々は、最大平均差分法(MMD)変動オートエンコーダ(VAE)を用いて、内視鏡ビデオの低次元潜在表現を学習し、これらの表現を操作して、ツールを持たないものとツールを含むフレームを区別する。
各フレームにおけるツールの存在を予測するために,これらの潜在表現を3つの異なる方法で操作する。
内視鏡的ビデオフレームに71.56, 73.93, 76.18の平均精度のツールが含まれているか, 完全に教師なしの手法で識別できる。
私たちのコードはhttps://github.com/zdavidli/tool-presence/で利用可能です。
関連論文リスト
- What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - Weakly-Supervised Surgical Phase Recognition [19.27227976291303]
本研究では,グラフ分割の概念と自己教師付き学習を結合して,フレーム単位の位相予測のためのランダムウォーク解を導出する。
腹腔鏡下胆嚢摘出術ビデオのColec80データセットを用いて実験を行い,本法の有効性を確認した。
論文 参考訳(メタデータ) (2023-10-26T07:54:47Z) - Learning Multi-modal Representations by Watching Hundreds of Surgical
Video Lectures [54.376834698110684]
本研究では,オープンな外科的eラーニングプラットフォームを通じて利用可能な手術ビデオ講義が,効果的な監視信号を提供することができるという考えを提起した。
我々は複数の補完的な自動音声認識システムを用いてテキストの書き起こしを生成する。
次に、多モーダル表現学習のための新しい方法、Surg - Surgery Vision Language Pre-trainingを提案する。
論文 参考訳(メタデータ) (2023-07-27T22:38:12Z) - Surgical tool classification and localization: results and methods from
the MICCAI 2022 SurgToolLoc challenge [69.91670788430162]
SurgLoc 2022 チャレンジの結果を示す。
目標は、ツール検出のためにトレーニングされた機械学習モデルにおいて、ツールの存在データを弱いラベルとして活用することだった。
これらの結果を機械学習と手術データ科学の幅広い文脈で論じることで結論付ける。
論文 参考訳(メタデータ) (2023-05-11T21:44:39Z) - Automatic Detection of Out-of-body Frames in Surgical Videos for Privacy
Protection Using Self-supervised Learning and Minimal Labels [4.356941104145803]
手術映像における身体外フレームを正確に検出するフレームワークを提案する。
我々は大量の未ラベルの内視鏡画像を用いて、自己監督的な方法で意味のある表現を学習する。
論文 参考訳(メタデータ) (2023-03-31T14:53:56Z) - Pseudo-label Guided Cross-video Pixel Contrast for Robotic Surgical
Scene Segmentation with Limited Annotations [72.15956198507281]
シーンセグメンテーションを促進するために,新しい擬似ラベル付きクロスビデオコントラスト学習法であるPGV-CLを提案する。
本研究では,ロボット外科手術データセットEndoVis18と白内障手術データセットCaDISについて検討した。
論文 参考訳(メタデータ) (2022-07-20T05:42:19Z) - Segmentation of kidney stones in endoscopic video feeds [2.572404739180802]
生のビデオからデータセットを構築する方法と、可能な限り多くのプロセスを自動化するパイプラインを開発する方法について説明します。
また, リアルタイム使用の可能性を示すため, 最適なトレーニングモデルにより, 毎秒30フレームの動画を正確にアノテートできることを確認した。
論文 参考訳(メタデータ) (2022-04-29T16:00:52Z) - Efficient Video Segmentation Models with Per-frame Inference [117.97423110566963]
推論のオーバーヘッドを導入することなく、時間的一貫性を改善することに注力する。
本稿では,時間的一貫性の喪失やオンライン/オフラインの知識蒸留手法など,ビデオシーケンスから学ぶためのいくつかの手法を提案する。
論文 参考訳(メタデータ) (2022-02-24T23:51:36Z) - Contrastive Learning with Continuous Proxy Meta-Data for 3D MRI
Classification [1.714108629548376]
我々は、y-Aware InfoNCE Losという新たな損失を導入することで、対照的な学習フレームワークにおいて、継続的なプロキシメタデータを活用することを提案する。
104ドルの健康脳MRIスキャンで事前訓練された3D CNNモデルは、3つの分類タスクに関連する特徴を抽出することができる。
微調整された場合、これらのタスクをスクラッチからトレーニングした3D CNNと、最先端の自己管理手法を上回ります。
論文 参考訳(メタデータ) (2021-06-16T14:17:04Z) - Towards Unsupervised Learning for Instrument Segmentation in Robotic
Surgery with Cycle-Consistent Adversarial Networks [54.00217496410142]
本稿では、入力された内視鏡画像と対応するアノテーションとのマッピングを学習することを目的として、未ペア画像から画像への変換を提案する。
当社のアプローチでは,高価なアノテーションを取得することなく,イメージセグメンテーションモデルをトレーニングすることが可能です。
提案手法をEndovis 2017チャレンジデータセットで検証し,教師付きセグメンテーション手法と競合することを示す。
論文 参考訳(メタデータ) (2020-07-09T01:39:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。