Fugu-MT 論文翻訳(概要): A real-time spatiotemporal AI model analyzes skill in open surgical videos

論文の概要: A real-time spatiotemporal AI model analyzes skill in open surgical videos

arxiv url: http://arxiv.org/abs/2112.07219v1
Date: Tue, 14 Dec 2021 08:11:02 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-15 14:40:06.556350
Title: A real-time spatiotemporal AI model analyzes skill in open surgical videos
Title（参考訳）: リアルタイム時空間AIモデルによるオープン手術ビデオのスキル分析
Authors: Emmett D. Goodman, Krishna K. Patel, Yilun Zhang, William Locke, Chris J. Kennedy, Rohan Mehrotra, Stephen Ren, Melody Guan, Maren Downing, Hao Wei Chen, Jevin Z. Clark, Gabriel A. Brat, Serena Yeung
Abstract要約: これまでで最大のオープンな手術用ビデオデータセットであるYouTubeから、50か国からアップロードされた23の手術用プロシージャから1997年の動画を収集することで、AIモデルをトレーニングするための既存のデータ制限を克服しました。我々は,手術行動,手,道具のリアルタイム理解が可能なマルチタスクAIモデルを開発した。
参考スコア（独自算出の注目度）: 2.4907439112059278
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Open procedures represent the dominant form of surgery worldwide. Artificial intelligence (AI) has the potential to optimize surgical practice and improve patient outcomes, but efforts have focused primarily on minimally invasive techniques. Our work overcomes existing data limitations for training AI models by curating, from YouTube, the largest dataset of open surgical videos to date: 1997 videos from 23 surgical procedures uploaded from 50 countries. Using this dataset, we developed a multi-task AI model capable of real-time understanding of surgical behaviors, hands, and tools - the building blocks of procedural flow and surgeon skill. We show that our model generalizes across diverse surgery types and environments. Illustrating this generalizability, we directly applied our YouTube-trained model to analyze open surgeries prospectively collected at an academic medical center and identified kinematic descriptors of surgical skill related to efficiency of hand motion. Our Annotated Videos of Open Surgery (AVOS) dataset and trained model will be made available for further development of surgical AI.
Abstract（参考訳）: オープンプロシージャは世界中で主要な手術形態である。 ai(artificial intelligence, 人工知能)は、外科手術を最適化し、患者の予後を改善する可能性を秘めている。我々の研究は、現在50カ国からアップロードされた23の手術手順の1997年の動画をキュレートすることで、aiモデルのトレーニングのための既存のデータ制限を克服しています。このデータセットを用いて,手術の動作や手,ツールのリアルタイム理解を可能にするマルチタスクaiモデルを開発した。我々のモデルは様々な手術の種類や環境にまたがって一般化している。この一般化性を図示するために,本研究は,大学医療センターで前向きに収集したオープンサージリーをYouTubeトレーニングモデルに直接適用し,手の動きの効率に関する外科的スキルのキネマティック記述者を特定した。我々のアノテーション付きオープン手術ビデオ(AVOS)データセットとトレーニングされたモデルは、外科用AIのさらなる開発のために利用できる。

関連論文リスト

SurgVidLM: Towards Multi-grained Surgical Video Understanding with Large Language Model [55.13206879750197]
SurgVidLMは、完全かつきめ細かい外科的ビデオ理解に対処するために設計された最初のビデオ言語モデルである。手術ビデオの多段階的理解を行うための2段階フレームワークであるStageFocus機構について紹介する。実験結果から,SurgVidLMは全精細ビデオ理解タスクおよび精細ビデオ理解タスクにおいて,最先端のVid-LLMよりも有意に優れていた。
論文参考訳（メタデータ） (2025-06-22T02:16:18Z)
Large-scale Self-supervised Video Foundation Model for Intelligent Surgery [27.418249899272155]
本稿では,大規模な外科的ビデオデータから共同時間的表現学習を可能にする,最初のビデオレベルの手術前トレーニングフレームワークを紹介する。 SurgVISTAは,空間構造を捕捉し,時間的ダイナミックスを複雑化する再構成型事前学習手法である。実験では、SurgVISTAは自然領域と外科領域の事前訓練されたモデルの両方を一貫して上回っている。
論文参考訳（メタデータ） (2025-06-03T09:42:54Z)
Surgical Foundation Model Leveraging Compression and Entropy Maximization for Image-Guided Surgical Assistance [50.486523249499115]
低侵襲手術(MIS)におけるリアルタイム映像理解の重要性手術ビデオからコンパクトで情報的表現を学習するための,新しい自己教師型フレームワークであるCompress-to-Explore (C2E)を提案する。 C2Eは、エントロピー最大化デコーダを使用して、臨床的に関連する詳細を保持しながら画像を圧縮し、ラベル付きデータなしでエンコーダのパフォーマンスを向上させる。
論文参考訳（メタデータ） (2025-05-16T14:02:24Z)
EndoChat: Grounded Multimodal Large Language Model for Endoscopic Surgery [52.992415247012296]
手術シーン理解における対話のパラダイムやサブタスクに対処するために,EndoChatを導入する。本モデルは,5つの対話パラダイムと8つの手術シーン理解タスクにまたがって,最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-01-20T09:12:06Z)
VISAGE: Video Synthesis using Action Graphs for Surgery [34.21344214645662]
腹腔鏡下手術における映像生成の新しい課題について紹介する。提案手法であるVISAGEは,アクションシーングラフのパワーを利用して,腹腔鏡下手術のシーケンシャルな特徴を捉える。腹腔鏡下手術における高忠実度ビデオ生成について検討した。
論文参考訳（メタデータ） (2024-10-23T10:28:17Z)
Procedure-Aware Surgical Video-language Pretraining with Hierarchical Knowledge Augmentation [51.222684687924215]
手術用ビデオ言語事前学習は、知識領域のギャップとマルチモーダルデータの不足により、独特な課題に直面している。本稿では,これらの課題に対処するために,階層的知識向上手法と新しい手術的知識向上型ビデオランゲージ事前学習フレームワークを提案する。
論文参考訳（メタデータ） (2024-09-30T22:21:05Z)
PitVis-2023 Challenge: Workflow Recognition in videos of Endoscopic Pituitary Surgery [46.2901962659261]
The Pituitary Vision (VisVis) 2023 Challengeは、内視鏡下垂体手術のビデオで、コミュニティに認識のステップと計測を課している。これは、より小さな作業スペースのため、他の最小侵襲の手術と比較しても、ユニークなタスクである。 6つの国にまたがる9チームから18のチームがあり、さまざまなディープラーニングモデルを使用していた。
論文参考訳（メタデータ） (2024-09-02T11:38:06Z)
Creating a Digital Twin of Spinal Surgery: A Proof of Concept [68.37190859183663]
手術デジタル化は、現実世界の手術の仮想レプリカを作成するプロセスである。脊椎外科手術に応用した手術デジタル化のための概念実証(PoC)を提案する。 5台のRGB-Dカメラを外科医の動的3D再構成に、ハイエンドカメラを解剖学の3D再構成に、赤外線ステレオカメラを手術器具追跡に、レーザースキャナーを手術室の3D再構成とデータ融合に使用した。
論文参考訳（メタデータ） (2024-03-25T13:09:40Z)
General surgery vision transformer: A video pre-trained foundation model for general surgery [2.576958141988598]
現在までに680時間に及ぶ手術ビデオのデータセットをオープンソース化しています。本稿では,前方映像予測に基づく手術映像における一般手術視変換器(GSViT)の事前訓練手法を提案する。
論文参考訳（メタデータ） (2024-03-09T16:02:46Z)
Toward a Surgeon-in-the-Loop Ophthalmic Robotic Apprentice using Reinforcement and Imitation Learning [18.72371138886818]
眼内白内障手術における外科医中心の自律エージェントに対する画像誘導アプローチを提案する。外科医の行動と嗜好をトレーニングプロセスに統合することにより、ロボットは個々の外科医のユニークなテクニックを暗黙的に学習し、適応することができる。
論文参考訳（メタデータ） (2023-11-29T15:00:06Z)
SAMSNeRF: Segment Anything Model (SAM) Guides Dynamic Surgical Scene Reconstruction by Neural Radiance Field (NeRF) [4.740415113160021]
本稿では,Segment Anything Model(SAM)とNeRF技術を組み合わせたSAMSNeRFという新しい手法を提案する。内視鏡下外科的画像を用いた実験の結果,高忠実度ダイナミックな手術シーンの再構築に成功していることが示された。
論文参考訳（メタデータ） (2023-08-22T20:31:00Z)
Learning Multi-modal Representations by Watching Hundreds of Surgical Video Lectures [50.09187683845788]
手術用コンピュータビジョンの応用の最近の進歩は、視覚のみのモデルによって駆動されている。これらの手法は、固定されたオブジェクトカテゴリのセットを予測するために手動で注釈付き手術ビデオに依存する。本研究では,オープンな外科的eラーニングプラットフォームを通じて提供される外科的ビデオ講義が,効果的な視覚と言語監督の信号を提供することができるという考えを提起した。
論文参考訳（メタデータ） (2023-07-27T22:38:12Z)
Surgical tool classification and localization: results and methods from the MICCAI 2022 SurgToolLoc challenge [69.91670788430162]
SurgLoc 2022 チャレンジの結果を示す。目標は、ツール検出のためにトレーニングされた機械学習モデルにおいて、ツールの存在データを弱いラベルとして活用することだった。これらの結果を機械学習と手術データ科学の幅広い文脈で論じることで結論付ける。
論文参考訳（メタデータ） (2023-05-11T21:44:39Z)
CholecTriplet2021: A benchmark challenge for surgical action triplet recognition [66.51610049869393]
腹腔鏡下手術における三肢の認識のためにMICCAI 2021で実施した内視鏡的視力障害であるColecTriplet 2021を提案する。課題の参加者が提案する最先端の深層学習手法の課題設定と評価について述べる。 4つのベースライン法と19の新しいディープラーニングアルゴリズムが提示され、手術ビデオから直接手術行動三重項を認識し、平均平均精度(mAP)は4.2%から38.1%である。
論文参考訳（メタデータ） (2022-04-10T18:51:55Z)
Using Computer Vision to Automate Hand Detection and Tracking of Surgeon Movements in Videos of Open Surgery [8.095095522269352]
コンピュータビジョンの進歩を活かし,外科手術の映像解析に自動的アプローチを導入する。オブジェクト検出のための最先端の畳み込みニューラルネットワークアーキテクチャを使用して、開手術ビデオの操作手を検出する。本モデルの操作手の空間的検出は、既存の手検出データセットを用いて達成した検出を大幅に上回る。
論文参考訳（メタデータ） (2020-12-13T03:10:09Z)
LRTD: Long-Range Temporal Dependency based Active Learning for Surgical Workflow Recognition [67.86810761677403]
本稿では,費用対効果の高い手術ビデオ解析のための新しい能動的学習法を提案する。具体的には,非局所的再帰的畳み込みネットワーク (NL-RCNet) を提案する。手術ワークフロー認識タスクを実行することで,大規模な手術ビデオデータセット(Cholec80)に対するアプローチを検証する。
論文参考訳（メタデータ） (2020-04-21T09:21:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。