Fugu-MT 論文翻訳(概要): General surgery vision transformer: A video pre-trained foundation model for general surgery

論文の概要: General surgery vision transformer: A video pre-trained foundation model for general surgery

arxiv url: http://arxiv.org/abs/2403.05949v2
Date: Tue, 12 Mar 2024 03:23:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-13 11:45:14.288468
Title: General surgery vision transformer: A video pre-trained foundation model for general surgery
Title（参考訳）: 一般手術用視覚変換器:一般手術のためのビデオ事前訓練基礎モデル
Authors: Samuel Schmidgall, Ji Woong Kim, Jeffery Jopling, Axel Krieger
Abstract要約: 現在までに680時間に及ぶ手術ビデオのデータセットをオープンソース化しています。本稿では,前方映像予測に基づく手術映像における一般手術視変換器(GSViT)の事前訓練手法を提案する。
参考スコア（独自算出の注目度）: 2.8151416427118643
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The absence of openly accessible data and specialized foundation models is a major barrier for computational research in surgery. Toward this, (i) we open-source the largest dataset of general surgery videos to-date, consisting of 680 hours of surgical videos, including data from robotic and laparoscopic techniques across 28 procedures; (ii) we propose a technique for video pre-training a general surgery vision transformer (GSViT) on surgical videos based on forward video prediction that can run in real-time for surgical applications, toward which we open-source the code and weights of GSViT; (iii) we also release code and weights for procedure-specific fine-tuned versions of GSViT across 10 procedures; (iv) we demonstrate the performance of GSViT on the Cholec80 phase annotation task, displaying improved performance over state-of-the-art single frame predictors.
Abstract（参考訳）: オープンアクセスデータや特別な基礎モデルがないことは、手術における計算研究の大きな障壁である。これに向かって (i)これまでで最大の手術ビデオデータセットをオープンソース化した。手術時間は680時間で、28の手順にわたるロボットと腹腔鏡の手法のデータを含む。 (II)手術現場でリアルタイムに動作可能な前方ビデオ予測に基づく手術用ビジョントランスフォーマー(GSViT)の事前訓練手法を提案し,GSViTのコードと重みをオープンソース化する。 (iii) 10の手順にまたがる手続き固有のgsvitの微調整版のコード及び重みもリリースする。 (iv)cholec80フェーズアノテーションタスクにおけるgsvitの性能を実証し,最先端シングルフレーム予測器の性能向上を示す。

関連論文リスト

UniSurg: A Video-Native Foundation Model for Universal Understanding of Surgical Videos [81.9180187964947]
我々は,学習パラダイムを画素レベルの再構成から潜在動作予測に移行する基礎モデルUniSurgを提案する。大規模な事前トレーニングを可能にするため,13の解剖学的領域にわたる50源からの3,658時間の動画を含む,これまでで最大規模の手術用ビデオデータセットをキュレートした。これらの結果は、UniSurgを、ユニバーサルでモーション指向の外科的ビデオ理解の新しい標準として確立している。
論文参考訳（メタデータ） (2026-02-05T13:18:33Z)
SurgLLM: A Versatile Large Multimodal Model with Spatial Focus and Temporal Awareness for Surgical Video Understanding [75.00667948967848]
SurgLLMフレームワークは、多用途の手術ビデオ理解タスクに適した、大規模なマルチモーダルモデルである。外科的ビデオの空間的焦点を高めるために,SurgLLMの動画エンコーダのためのSurg-Pretraining(Surg-Pretraining)を最初に考案した。外科的時間的知識をSurgLLMに組み込むため, インターリーブ型マルチモーダル埋め込みによる時間的推論を改善するために, 時間的対応型マルチモーダルチューニング(TM-Tuning)を提案する。
論文参考訳（メタデータ） (2025-08-30T04:36:41Z)
SurgVidLM: Towards Multi-grained Surgical Video Understanding with Large Language Model [55.13206879750197]
SurgVidLMは、完全かつきめ細かい外科的ビデオ理解に対処するために設計された最初のビデオ言語モデルである。手術ビデオの多段階的理解を行うための2段階フレームワークであるStageFocus機構について紹介する。実験結果から,SurgVidLMは全精細ビデオ理解タスクおよび精細ビデオ理解タスクにおいて,最先端のVid-LLMよりも有意に優れていた。
論文参考訳（メタデータ） (2025-06-22T02:16:18Z)
SurgBench: A Unified Large-Scale Benchmark for Surgical Video Analysis [20.566701996432226]
SurgBenchは、事前トレーニングデータセットである textbfSurgBench-P と、評価ベンチマークである textbfSurgBench-E で構成される統一的な手術ビデオベンチマークフレームワークである。 SurgBench-Pは、22の外科手術と11の専門分野にわたる5300万フレームをカバーし、SurgBench-Eは72のきめ細かいタスクにまたがる6つのカテゴリ(フェーズ分類、カメラモーション、ツール認識、疾患診断、行動分類、臓器検出)で堅牢な評価を提供する。
論文参考訳（メタデータ） (2025-06-09T10:02:58Z)
SurgVLM: A Large Vision-Language Model and Systematic Evaluation Benchmark for Surgical Intelligence [72.10889173696928]
SurgVLMは,外科的知能に関する最初の大規模視覚言語基盤モデルの一つである。我々は16種以上の外科的タイプと18の解剖学的構造にまたがる大規模なマルチモーダル手術データベースSurgVLM-DBを構築した。この包括的データセットに基づいて,Qwen2.5-VLをベースとしたSurgVLMを提案する。
論文参考訳（メタデータ） (2025-06-03T07:44:41Z)
Surgical Foundation Model Leveraging Compression and Entropy Maximization for Image-Guided Surgical Assistance [50.486523249499115]
低侵襲手術(MIS)におけるリアルタイム映像理解の重要性手術ビデオからコンパクトで情報的表現を学習するための,新しい自己教師型フレームワークであるCompress-to-Explore (C2E)を提案する。 C2Eは、エントロピー最大化デコーダを使用して、臨床的に関連する詳細を保持しながら画像を圧縮し、ラベル付きデータなしでエンコーダのパフォーマンスを向上させる。
論文参考訳（メタデータ） (2025-05-16T14:02:24Z)
Enhancing Surgical Documentation through Multimodal Visual-Temporal Transformers and Generative AI [15.513949299806582]
外科的ビデオの自動要約は, 手続き的文書の充実, 外科的訓練の支援, 術後分析の促進に不可欠である。本稿では,コンピュータビジョンと大規模言語モデルの最近の進歩を活用して,包括的な映像要約を生成するマルチモーダルフレームワークを提案する。また,50個の腹腔鏡画像からの計測とアクションアノテーションを用いて,ColecT50データセットを用いて本手法の評価を行った。
論文参考訳（メタデータ） (2025-04-28T15:46:02Z)
OphCLIP: Hierarchical Retrieval-Augmented Learning for Ophthalmic Surgical Video-Language Pretraining [55.15365161143354]
OphCLIPは、眼科手術ワークフロー理解のための階層的検索強化視覚言語事前学習フレームワークである。 OphCLIPは、短いビデオクリップと詳細な物語記述、構造化タイトルによるフルビデオの調整によって、細粒度と長期の視覚表現の両方を学習する。我々のOphCLIPは、探索されていない大規模なサイレント手術ビデオを活用するために、検索強化事前訓練フレームワークも設計している。
論文参考訳（メタデータ） (2024-11-23T02:53:08Z)
VISAGE: Video Synthesis using Action Graphs for Surgery [34.21344214645662]
腹腔鏡下手術における映像生成の新しい課題について紹介する。提案手法であるVISAGEは,アクションシーングラフのパワーを利用して,腹腔鏡下手術のシーケンシャルな特徴を捉える。腹腔鏡下手術における高忠実度ビデオ生成について検討した。
論文参考訳（メタデータ） (2024-10-23T10:28:17Z)
Procedure-Aware Surgical Video-language Pretraining with Hierarchical Knowledge Augmentation [51.222684687924215]
手術用ビデオ言語事前学習は、知識領域のギャップとマルチモーダルデータの不足により、独特な課題に直面している。本稿では,これらの課題に対処するために,階層的知識向上手法と新しい手術的知識向上型ビデオランゲージ事前学習フレームワークを提案する。
論文参考訳（メタデータ） (2024-09-30T22:21:05Z)
PitVis-2023 Challenge: Workflow Recognition in videos of Endoscopic Pituitary Surgery [46.2901962659261]
The Pituitary Vision (VisVis) 2023 Challengeは、内視鏡下垂体手術のビデオで、コミュニティに認識のステップと計測を課している。これは、より小さな作業スペースのため、他の最小侵襲の手術と比較しても、ユニークなタスクである。 6つの国にまたがる9チームから18のチームがあり、さまざまなディープラーニングモデルを使用していた。
論文参考訳（メタデータ） (2024-09-02T11:38:06Z)
Thoracic Surgery Video Analysis for Surgical Phase Recognition [0.08706730566331035]
我々は,11種類の位相からなる胸部手術データセットを用いて,フレームベースおよびビデオクリッピングに基づく位相認識の解析と評価を行った。 ImageNet ViTによる52.31%に比べて,Masked Video Distillation(MVD)は72.9%の精度で優れた性能を示した。
論文参考訳（メタデータ） (2024-06-13T14:47:57Z)
OphNet: A Large-Scale Video Benchmark for Ophthalmic Surgical Workflow Understanding [26.962250661485967]
OphNetは、眼科の外科的ワークフロー理解のための、大規模な、専門家による注釈付きビデオベンチマークである。 66種類の白内障、緑内障、角膜手術にまたがる2,278本の外科的ビデオの多彩なコレクションがあり、102個のユニークな外科的フェーズと150個の微細な手術の詳細な注記がある。 OphNetは、既存の最大の外科的ワークフロー分析ベンチマークの約20倍の大きさである。
論文参考訳（メタデータ） (2024-06-11T17:18:11Z)
Endora: Video Generation Models as Endoscopy Simulators [53.72175969751398]
本稿では,臨床内視鏡シーンをシミュレートする医用ビデオを作成するための革新的な手法であるモデルを紹介する。また、ビデオ生成モデルを用いた内視鏡シミュレーションのための最初の公開ベンチマークを開拓した。 Endoraは、臨床内視鏡研究のための生成AIの展開において、注目すべきブレークスルーとなる。
論文参考訳（メタデータ） (2024-03-17T00:51:59Z)
Learning Multi-modal Representations by Watching Hundreds of Surgical Video Lectures [50.09187683845788]
手術用コンピュータビジョンの応用の最近の進歩は、視覚のみのモデルによって駆動されている。これらの手法は、固定されたオブジェクトカテゴリのセットを予測するために手動で注釈付き手術ビデオに依存する。本研究では,オープンな外科的eラーニングプラットフォームを通じて提供される外科的ビデオ講義が,効果的な視覚と言語監督の信号を提供することができるという考えを提起した。
論文参考訳（メタデータ） (2023-07-27T22:38:12Z)
LoViT: Long Video Transformer for Surgical Phase Recognition [59.06812739441785]
短時間・長期の時間情報を融合する2段階のLong Video Transformer(LoViT)を提案する。このアプローチは、Colec80とAutoLaparoデータセットの最先端メソッドを一貫して上回る。
論文参考訳（メタデータ） (2023-05-15T20:06:14Z)
A real-time spatiotemporal AI model analyzes skill in open surgical videos [2.4907439112059278]
これまでで最大のオープンな手術用ビデオデータセットであるYouTubeから、50か国からアップロードされた23の手術用プロシージャから1997年の動画を収集することで、AIモデルをトレーニングするための既存のデータ制限を克服しました。我々は,手術行動,手,道具のリアルタイム理解が可能なマルチタスクAIモデルを開発した。
論文参考訳（メタデータ） (2021-12-14T08:11:02Z)
Multimodal Semantic Scene Graphs for Holistic Modeling of Surgical Procedures [70.69948035469467]
カメラビューから3Dグラフを生成するための最新のコンピュータビジョン手法を利用する。次に,手術手順の象徴的,意味的表現を統一することを目的としたマルチモーダルセマンティックグラフシーン(MSSG)を紹介する。
論文参考訳（メタデータ） (2021-06-09T14:35:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。