Fugu-MT 論文翻訳(概要): Learning Representations of Endoscopic Videos to Detect Tool Presence Without Supervision

論文の概要: Learning Representations of Endoscopic Videos to Detect Tool Presence Without Supervision

arxiv url: http://arxiv.org/abs/2008.12321v1
Date: Thu, 27 Aug 2020 18:23:05 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-24 08:12:38.025401
Title: Learning Representations of Endoscopic Videos to Detect Tool Presence Without Supervision
Title（参考訳）: 内視鏡的映像表現の学習とツールプレゼンス検出
Authors: David Z. Li, Masaru Ishii, Russell H. Taylor, Gregory D. Hager, Ayushi Sinha
Abstract要約: 我々は,内視鏡的映像フレームの表現を学習し,外科的ツールの有無を監督せずに識別する作業を行う。本手法では, 内視鏡的ビデオフレームが平均精度71.56, 73.93, 76.18のツールを含むか否かを判定する。
参考スコア（独自算出の注目度）: 20.40423303055869
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this work, we explore whether it is possible to learn representations of endoscopic video frames to perform tasks such as identifying surgical tool presence without supervision. We use a maximum mean discrepancy (MMD) variational autoencoder (VAE) to learn low-dimensional latent representations of endoscopic videos and manipulate these representations to distinguish frames containing tools from those without tools. We use three different methods to manipulate these latent representations in order to predict tool presence in each frame. Our fully unsupervised methods can identify whether endoscopic video frames contain tools with average precision of 71.56, 73.93, and 76.18, respectively, comparable to supervised methods. Our code is available at https://github.com/zdavidli/tool-presence/
Abstract（参考訳）: そこで本研究では,内視鏡的ビデオフレームの表現を学習し,手術器具の存在を監視せずに識別する作業を行うことができるか検討する。我々は、最大平均差分法(MMD)変動オートエンコーダ(VAE)を用いて、内視鏡ビデオの低次元潜在表現を学習し、これらの表現を操作して、ツールを持たないものとツールを含むフレームを区別する。各フレームにおけるツールの存在を予測するために,これらの潜在表現を3つの異なる方法で操作する。内視鏡的ビデオフレームに71.56, 73.93, 76.18の平均精度のツールが含まれているか, 完全に教師なしの手法で識別できる。私たちのコードはhttps://github.com/zdavidli/tool-presence/で利用可能です。

関連論文リスト

VidFuncta: Towards Generalizable Neural Representations for Ultrasound Videos [3.5951107525164576]
暗黙的ニューラル表現(INR)による超音波ビデオ解析の新しい視点を提供する。我々はFunctaというINRフレームワークを構築し、各イメージを共有ニューラルネットワークを条件とした変調ベクトルで表現する。本稿では,Functaを利用して可変長の超音波ビデオをコンパクトな時間分解表現に符号化する新しいフレームワークであるVidFunctaを提案する。
論文参考訳（メタデータ） (2025-07-29T14:35:08Z)
Enhancing Surgical Documentation through Multimodal Visual-Temporal Transformers and Generative AI [15.513949299806582]
外科的ビデオの自動要約は, 手続き的文書の充実, 外科的訓練の支援, 術後分析の促進に不可欠である。本稿では,コンピュータビジョンと大規模言語モデルの最近の進歩を活用して,包括的な映像要約を生成するマルチモーダルフレームワークを提案する。また,50個の腹腔鏡画像からの計測とアクションアノテーションを用いて,ColecT50データセットを用いて本手法の評価を行った。
論文参考訳（メタデータ） (2025-04-28T15:46:02Z)
Revisiting Surgical Instrument Segmentation Without Human Intervention: A Graph Partitioning View [7.594796294925481]
本稿では,ビデオフレーム分割をグラフ分割問題として再検討し,教師なしの手法を提案する。自己教師付き事前学習モデルは、まず、高レベルな意味的特徴をキャプチャする特徴抽出器として活用される。ディープ」固有ベクトルでは、手術用ビデオフレームは、ツールや組織などの異なるモジュールに意味的に分割され、区別可能な意味情報を提供する。
論文参考訳（メタデータ） (2024-08-27T05:31:30Z)
Efficient Surgical Tool Recognition via HMM-Stabilized Deep Learning [25.146476653453227]
ツール存在検出のためのHMM安定化深層学習手法を提案する。様々な実験により、提案手法がより低いトレーニングとランニングコストでより良い性能を達成することが確認された。これらの結果から,過度に複雑化したモデル構造を持つ一般的なディープラーニング手法は,非効率なデータ利用に悩まされる可能性が示唆された。
論文参考訳（メタデータ） (2024-04-07T15:27:35Z)
What Makes Pre-Trained Visual Representations Successful for Robust Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文参考訳（メタデータ） (2023-11-03T18:09:08Z)
Tool Documentation Enables Zero-Shot Tool-Usage with Large Language Models [90.96816639172464]
大規模言語モデル(LLM)は、ツールの使用のデモを提供することで、新しいツールを使用するように教えられている。デモよりも、ツールドキュメンテーションの使用、個々のツール使用方法の説明を推奨します。
論文参考訳（メタデータ） (2023-08-01T17:21:38Z)
Surgical tool classification and localization: results and methods from the MICCAI 2022 SurgToolLoc challenge [69.91670788430162]
SurgLoc 2022 チャレンジの結果を示す。目標は、ツール検出のためにトレーニングされた機械学習モデルにおいて、ツールの存在データを弱いラベルとして活用することだった。これらの結果を機械学習と手術データ科学の幅広い文脈で論じることで結論付ける。
論文参考訳（メタデータ） (2023-05-11T21:44:39Z)
Automatic Detection of Out-of-body Frames in Surgical Videos for Privacy Protection Using Self-supervised Learning and Minimal Labels [4.356941104145803]
手術映像における身体外フレームを正確に検出するフレームワークを提案する。我々は大量の未ラベルの内視鏡画像を用いて、自己監督的な方法で意味のある表現を学習する。
論文参考訳（メタデータ） (2023-03-31T14:53:56Z)
Pseudo-label Guided Cross-video Pixel Contrast for Robotic Surgical Scene Segmentation with Limited Annotations [72.15956198507281]
シーンセグメンテーションを促進するために,新しい擬似ラベル付きクロスビデオコントラスト学習法であるPGV-CLを提案する。本研究では,ロボット外科手術データセットEndoVis18と白内障手術データセットCaDISについて検討した。
論文参考訳（メタデータ） (2022-07-20T05:42:19Z)
Efficient Video Segmentation Models with Per-frame Inference [117.97423110566963]
推論のオーバーヘッドを導入することなく、時間的一貫性を改善することに注力する。本稿では,時間的一貫性の喪失やオンライン/オフラインの知識蒸留手法など,ビデオシーケンスから学ぶためのいくつかの手法を提案する。
論文参考訳（メタデータ） (2022-02-24T23:51:36Z)
Contrastive Learning with Continuous Proxy Meta-Data for 3D MRI Classification [1.714108629548376]
我々は、y-Aware InfoNCE Losという新たな損失を導入することで、対照的な学習フレームワークにおいて、継続的なプロキシメタデータを活用することを提案する。 104ドルの健康脳MRIスキャンで事前訓練された3D CNNモデルは、3つの分類タスクに関連する特徴を抽出することができる。微調整された場合、これらのタスクをスクラッチからトレーニングした3D CNNと、最先端の自己管理手法を上回ります。
論文参考訳（メタデータ） (2021-06-16T14:17:04Z)
One to Many: Adaptive Instrument Segmentation via Meta Learning and Dynamic Online Adaptation in Robotic Surgical Video [71.43912903508765]
MDALは、ロボット支援手術における機器セグメンテーションのための動的オンライン適応学習スキームです。ビデオ固有のメタ学習パラダイムを通じて、楽器の一般的な知識と高速適応能力を学ぶ。 2つのデータセットで他の最先端のメソッドよりも優れています。
論文参考訳（メタデータ） (2021-03-24T05:02:18Z)
Towards Unsupervised Learning for Instrument Segmentation in Robotic Surgery with Cycle-Consistent Adversarial Networks [54.00217496410142]
本稿では、入力された内視鏡画像と対応するアノテーションとのマッピングを学習することを目的として、未ペア画像から画像への変換を提案する。当社のアプローチでは,高価なアノテーションを取得することなく,イメージセグメンテーションモデルをトレーニングすることが可能です。提案手法をEndovis 2017チャレンジデータセットで検証し,教師付きセグメンテーション手法と競合することを示す。
論文参考訳（メタデータ） (2020-07-09T01:39:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。