論文の概要: General surgery vision transformer: A video pre-trained foundation model
for general surgery
- arxiv url: http://arxiv.org/abs/2403.05949v2
- Date: Tue, 12 Mar 2024 03:23:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 11:45:14.288468
- Title: General surgery vision transformer: A video pre-trained foundation model
for general surgery
- Title(参考訳): 一般手術用視覚変換器:一般手術のためのビデオ事前訓練基礎モデル
- Authors: Samuel Schmidgall, Ji Woong Kim, Jeffery Jopling, Axel Krieger
- Abstract要約: 現在までに680時間に及ぶ手術ビデオのデータセットをオープンソース化しています。
本稿では,前方映像予測に基づく手術映像における一般手術視変換器(GSViT)の事前訓練手法を提案する。
- 参考スコア(独自算出の注目度): 2.8151416427118643
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The absence of openly accessible data and specialized foundation models is a
major barrier for computational research in surgery. Toward this, (i) we
open-source the largest dataset of general surgery videos to-date, consisting
of 680 hours of surgical videos, including data from robotic and laparoscopic
techniques across 28 procedures; (ii) we propose a technique for video
pre-training a general surgery vision transformer (GSViT) on surgical videos
based on forward video prediction that can run in real-time for surgical
applications, toward which we open-source the code and weights of GSViT; (iii)
we also release code and weights for procedure-specific fine-tuned versions of
GSViT across 10 procedures; (iv) we demonstrate the performance of GSViT on the
Cholec80 phase annotation task, displaying improved performance over
state-of-the-art single frame predictors.
- Abstract(参考訳): オープンアクセスデータや特別な基礎モデルがないことは、手術における計算研究の大きな障壁である。
これに向かって
(i)これまでで最大の手術ビデオデータセットをオープンソース化した。手術時間は680時間で、28の手順にわたるロボットと腹腔鏡の手法のデータを含む。
(II)手術現場でリアルタイムに動作可能な前方ビデオ予測に基づく手術用ビジョントランスフォーマー(GSViT)の事前訓練手法を提案し,GSViTのコードと重みをオープンソース化する。
(iii) 10の手順にまたがる手続き固有のgsvitの微調整版のコード及び重みもリリースする。
(iv)cholec80フェーズアノテーションタスクにおけるgsvitの性能を実証し,最先端シングルフレーム予測器の性能向上を示す。
関連論文リスト
- Hypergraph-Transformer (HGT) for Interactive Event Prediction in
Laparoscopic and Robotic Surgery [50.3022015601057]
腹腔内ビデオから外科的ワークフローの重要なインタラクティブな側面を理解し,予測できる予測型ニューラルネットワークを提案する。
我々は,既存の手術用データセットとアプリケーションに対するアプローチを検証し,アクション・トリプレットの検出と予測を行った。
この結果は、非構造的な代替案と比較して、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2024-02-03T00:58:05Z) - Cataract-1K: Cataract Surgery Dataset for Scene Segmentation, Phase
Recognition, and Irregularity Detection [5.47960852753243]
本稿では,コンピュータ化された手術ワークフロー解析を構築するための多様な要件に対処する,白内障手術用ビデオデータセットについて紹介する。
我々は、最先端のニューラルネットワークアーキテクチャの性能をベンチマークすることで、アノテーションの品質を検証する。
データセットとアノテーションは、論文の受理時に公開される。
論文 参考訳(メタデータ) (2023-12-11T10:53:05Z) - SAMSNeRF: Segment Anything Model (SAM) Guides Dynamic Surgical Scene
Reconstruction by Neural Radiance Field (NeRF) [4.740415113160021]
本稿では,Segment Anything Model(SAM)とNeRF技術を組み合わせたSAMSNeRFという新しい手法を提案する。
内視鏡下外科的画像を用いた実験の結果,高忠実度ダイナミックな手術シーンの再構築に成功していることが示された。
論文 参考訳(メタデータ) (2023-08-22T20:31:00Z) - Learning Multi-modal Representations by Watching Hundreds of Surgical
Video Lectures [54.376834698110684]
本研究では,オープンな外科的eラーニングプラットフォームを通じて利用可能な手術ビデオ講義が,効果的な監視信号を提供することができるという考えを提起した。
我々は複数の補完的な自動音声認識システムを用いてテキストの書き起こしを生成する。
次に、多モーダル表現学習のための新しい方法、Surg - Surgery Vision Language Pre-trainingを提案する。
論文 参考訳(メタデータ) (2023-07-27T22:38:12Z) - Neural LerPlane Representations for Fast 4D Reconstruction of Deformable
Tissues [52.886545681833596]
LerPlaneは単一視点環境下での手術シーンの高速かつ正確な再構築手法である。
LerPlaneは外科手術を4Dボリュームとして扱い、静的および動的フィールドの明示的な2D平面に分解する。
LerPlaneは静的フィールドを共有し、動的組織モデリングのワークロードを大幅に削減する。
論文 参考訳(メタデータ) (2023-05-31T14:38:35Z) - LoViT: Long Video Transformer for Surgical Phase Recognition [59.06812739441785]
短時間・長期の時間情報を融合する2段階のLong Video Transformer(LoViT)を提案する。
このアプローチは、Colec80とAutoLaparoデータセットの最先端メソッドを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-15T20:06:14Z) - Surgical tool classification and localization: results and methods from
the MICCAI 2022 SurgToolLoc challenge [69.91670788430162]
SurgLoc 2022 チャレンジの結果を示す。
目標は、ツール検出のためにトレーニングされた機械学習モデルにおいて、ツールの存在データを弱いラベルとして活用することだった。
これらの結果を機械学習と手術データ科学の幅広い文脈で論じることで結論付ける。
論文 参考訳(メタデータ) (2023-05-11T21:44:39Z) - A real-time spatiotemporal AI model analyzes skill in open surgical
videos [2.4907439112059278]
これまでで最大のオープンな手術用ビデオデータセットであるYouTubeから、50か国からアップロードされた23の手術用プロシージャから1997年の動画を収集することで、AIモデルをトレーニングするための既存のデータ制限を克服しました。
我々は,手術行動,手,道具のリアルタイム理解が可能なマルチタスクAIモデルを開発した。
論文 参考訳(メタデータ) (2021-12-14T08:11:02Z) - Multimodal Semantic Scene Graphs for Holistic Modeling of Surgical
Procedures [70.69948035469467]
カメラビューから3Dグラフを生成するための最新のコンピュータビジョン手法を利用する。
次に,手術手順の象徴的,意味的表現を統一することを目的としたマルチモーダルセマンティックグラフシーン(MSSG)を紹介する。
論文 参考訳(メタデータ) (2021-06-09T14:35:44Z) - Surgical Visual Domain Adaptation: Results from the MICCAI 2020
SurgVisDom Challenge [9.986124942784969]
この研究は、データプライバシの懸念を克服するために、手術における視覚領域適応の可能性を探究する。
特に,外科手術のバーチャルリアリティ(VR)シミュレーションのビデオを用いて,臨床ライクな環境下でのタスク認識アルゴリズムの開発を提案する。
課題参加者によって開発された視覚的ドメイン適応を解決するためのさまざまなアプローチのパフォーマンスを紹介します。
論文 参考訳(メタデータ) (2021-02-26T18:45:28Z) - Using Computer Vision to Automate Hand Detection and Tracking of Surgeon
Movements in Videos of Open Surgery [8.095095522269352]
コンピュータビジョンの進歩を活かし,外科手術の映像解析に自動的アプローチを導入する。
オブジェクト検出のための最先端の畳み込みニューラルネットワークアーキテクチャを使用して、開手術ビデオの操作手を検出する。
本モデルの操作手の空間的検出は、既存の手検出データセットを用いて達成した検出を大幅に上回る。
論文 参考訳(メタデータ) (2020-12-13T03:10:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。