Fugu-MT 論文翻訳(概要): General surgery vision transformer: A video pre-trained foundation model for general surgery

論文の概要: General surgery vision transformer: A video pre-trained foundation model for general surgery

arxiv url: http://arxiv.org/abs/2403.05949v3
Date: Fri, 12 Apr 2024 22:30:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-16 20:21:55.046226
Title: General surgery vision transformer: A video pre-trained foundation model for general surgery
Title（参考訳）: 一般手術用視覚変換器:一般手術のためのビデオ事前訓練基礎モデル
Authors: Samuel Schmidgall, Ji Woong Kim, Jeffrey Jopling, Axel Krieger,
Abstract要約: 現在までに680時間に及ぶ手術ビデオのデータセットをオープンソース化しています。本稿では,前方映像予測に基づく手術映像における一般手術視変換器(GSViT)の事前訓練手法を提案する。
参考スコア（独自算出の注目度）: 2.576958141988598
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The absence of openly accessible data and specialized foundation models is a major barrier for computational research in surgery. Toward this, (i) we open-source the largest dataset of general surgery videos to-date, consisting of 680 hours of surgical videos, including data from robotic and laparoscopic techniques across 28 procedures; (ii) we propose a technique for video pre-training a general surgery vision transformer (GSViT) on surgical videos based on forward video prediction that can run in real-time for surgical applications, toward which we open-source the code and weights of GSViT; (iii) we also release code and weights for procedure-specific fine-tuned versions of GSViT across 10 procedures; (iv) we demonstrate the performance of GSViT on the Cholec80 phase annotation task, displaying improved performance over state-of-the-art single frame predictors.
Abstract（参考訳）: オープンアクセスデータや特別な基礎モデルがないことは、手術における計算研究の大きな障壁である。これに向けて。 (i)これまでで最大の手術ビデオデータセットをオープンソース化した。手術時間は680時間で、28の手順にわたるロボットと腹腔鏡の手法のデータを含む。 (II)手術現場でリアルタイムに動作可能な前方ビデオ予測に基づく手術用ビジョントランスフォーマー(GSViT)の事前訓練手法を提案し,GSViTのコードと重みをオープンソース化する。 (iii)プロシージャ固有の細調整されたGSViTのコードと重みを10のプロシージャでリリースする。 (4) Cholec80相アノテーションタスクにおけるGSViTの性能を実証し、最先端の単一フレーム予測器よりも優れた性能を示す。

関連論文リスト

Enhancing Surgical Documentation through Multimodal Visual-Temporal Transformers and Generative AI [15.513949299806582]
外科的ビデオの自動要約は, 手続き的文書の充実, 外科的訓練の支援, 術後分析の促進に不可欠である。本稿では,コンピュータビジョンと大規模言語モデルの最近の進歩を活用して,包括的な映像要約を生成するマルチモーダルフレームワークを提案する。また,50個の腹腔鏡画像からの計測とアクションアノテーションを用いて,ColecT50データセットを用いて本手法の評価を行った。
論文参考訳（メタデータ） (2025-04-28T15:46:02Z)
OphCLIP: Hierarchical Retrieval-Augmented Learning for Ophthalmic Surgical Video-Language Pretraining [55.15365161143354]
OphCLIPは、眼科手術ワークフロー理解のための階層的検索強化視覚言語事前学習フレームワークである。 OphCLIPは、短いビデオクリップと詳細な物語記述、構造化タイトルによるフルビデオの調整によって、細粒度と長期の視覚表現の両方を学習する。我々のOphCLIPは、探索されていない大規模なサイレント手術ビデオを活用するために、検索強化事前訓練フレームワークも設計している。
論文参考訳（メタデータ） (2024-11-23T02:53:08Z)
VISAGE: Video Synthesis using Action Graphs for Surgery [34.21344214645662]
腹腔鏡下手術における映像生成の新しい課題について紹介する。提案手法であるVISAGEは,アクションシーングラフのパワーを利用して,腹腔鏡下手術のシーケンシャルな特徴を捉える。腹腔鏡下手術における高忠実度ビデオ生成について検討した。
論文参考訳（メタデータ） (2024-10-23T10:28:17Z)
Procedure-Aware Surgical Video-language Pretraining with Hierarchical Knowledge Augmentation [51.222684687924215]
手術用ビデオ言語事前学習は、知識領域のギャップとマルチモーダルデータの不足により、独特な課題に直面している。本稿では,これらの課題に対処するために,階層的知識向上手法と新しい手術的知識向上型ビデオランゲージ事前学習フレームワークを提案する。
論文参考訳（メタデータ） (2024-09-30T22:21:05Z)
PitVis-2023 Challenge: Workflow Recognition in videos of Endoscopic Pituitary Surgery [46.2901962659261]
The Pituitary Vision (VisVis) 2023 Challengeは、内視鏡下垂体手術のビデオで、コミュニティに認識のステップと計測を課している。これは、より小さな作業スペースのため、他の最小侵襲の手術と比較しても、ユニークなタスクである。 6つの国にまたがる9チームから18のチームがあり、さまざまなディープラーニングモデルを使用していた。
論文参考訳（メタデータ） (2024-09-02T11:38:06Z)
Thoracic Surgery Video Analysis for Surgical Phase Recognition [0.08706730566331035]
我々は,11種類の位相からなる胸部手術データセットを用いて,フレームベースおよびビデオクリッピングに基づく位相認識の解析と評価を行った。 ImageNet ViTによる52.31%に比べて,Masked Video Distillation(MVD)は72.9%の精度で優れた性能を示した。
論文参考訳（メタデータ） (2024-06-13T14:47:57Z)
OphNet: A Large-Scale Video Benchmark for Ophthalmic Surgical Workflow Understanding [26.962250661485967]
OphNetは、眼科の外科的ワークフロー理解のための、大規模な、専門家による注釈付きビデオベンチマークである。 66種類の白内障、緑内障、角膜手術にまたがる2,278本の外科的ビデオの多彩なコレクションがあり、102個のユニークな外科的フェーズと150個の微細な手術の詳細な注記がある。 OphNetは、既存の最大の外科的ワークフロー分析ベンチマークの約20倍の大きさである。
論文参考訳（メタデータ） (2024-06-11T17:18:11Z)
Endora: Video Generation Models as Endoscopy Simulators [53.72175969751398]
本稿では,臨床内視鏡シーンをシミュレートする医用ビデオを作成するための革新的な手法であるモデルを紹介する。また、ビデオ生成モデルを用いた内視鏡シミュレーションのための最初の公開ベンチマークを開拓した。 Endoraは、臨床内視鏡研究のための生成AIの展開において、注目すべきブレークスルーとなる。
論文参考訳（メタデータ） (2024-03-17T00:51:59Z)
Learning Multi-modal Representations by Watching Hundreds of Surgical Video Lectures [50.09187683845788]
手術用コンピュータビジョンの応用の最近の進歩は、視覚のみのモデルによって駆動されている。これらの手法は、固定されたオブジェクトカテゴリのセットを予測するために手動で注釈付き手術ビデオに依存する。本研究では,オープンな外科的eラーニングプラットフォームを通じて提供される外科的ビデオ講義が,効果的な視覚と言語監督の信号を提供することができるという考えを提起した。
論文参考訳（メタデータ） (2023-07-27T22:38:12Z)
LoViT: Long Video Transformer for Surgical Phase Recognition [59.06812739441785]
短時間・長期の時間情報を融合する2段階のLong Video Transformer(LoViT)を提案する。このアプローチは、Colec80とAutoLaparoデータセットの最先端メソッドを一貫して上回る。
論文参考訳（メタデータ） (2023-05-15T20:06:14Z)
A real-time spatiotemporal AI model analyzes skill in open surgical videos [2.4907439112059278]
これまでで最大のオープンな手術用ビデオデータセットであるYouTubeから、50か国からアップロードされた23の手術用プロシージャから1997年の動画を収集することで、AIモデルをトレーニングするための既存のデータ制限を克服しました。我々は,手術行動,手,道具のリアルタイム理解が可能なマルチタスクAIモデルを開発した。
論文参考訳（メタデータ） (2021-12-14T08:11:02Z)
Multimodal Semantic Scene Graphs for Holistic Modeling of Surgical Procedures [70.69948035469467]
カメラビューから3Dグラフを生成するための最新のコンピュータビジョン手法を利用する。次に,手術手順の象徴的,意味的表現を統一することを目的としたマルチモーダルセマンティックグラフシーン(MSSG)を紹介する。
論文参考訳（メタデータ） (2021-06-09T14:35:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。