論文の概要: Recognize Any Surgical Object: Unleashing the Power of Weakly-Supervised Data
- arxiv url: http://arxiv.org/abs/2501.15326v2
- Date: Tue, 06 May 2025 03:57:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 14:45:09.174047
- Title: Recognize Any Surgical Object: Unleashing the Power of Weakly-Supervised Data
- Title(参考訳): あらゆる外科的対象を認識する: 弱めに監督されたデータのパワーを解放する
- Authors: Jiajie Li, Brian R Quaranto, Chenhui Xu, Ishan Mishra, Ruiyang Qin, Dancheng Liu, Peter C W Kim, Jinjun Xiong,
- Abstract要約: RASOは外科的対象を認識するために設計された基礎モデルである。
大規模な未発表の外科的講義ビデオからタグと画像のペアを自動生成する。
我々のスケーラブルなデータ生成パイプラインは2200の手術手順を集め、360万のタグアノテーションを生成します。
- 参考スコア(独自算出の注目度): 15.00025814170182
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present RASO, a foundation model designed to Recognize Any Surgical Object, offering robust open-set recognition capabilities across a broad range of surgical procedures and object classes, in both surgical images and videos. RASO leverages a novel weakly-supervised learning framework that generates tag-image-text pairs automatically from large-scale unannotated surgical lecture videos, significantly reducing the need for manual annotations. Our scalable data generation pipeline gathers 2,200 surgical procedures and produces 3.6 million tag annotations across 2,066 unique surgical tags. Our experiments show that RASO achieves improvements of 2.9 mAP, 4.5 mAP, 10.6 mAP, and 7.2 mAP on four standard surgical benchmarks, respectively, in zero-shot settings, and surpasses state-of-the-art models in supervised surgical action recognition tasks. Code, model, and demo are available at https://ntlm1686.github.io/raso.
- Abstract(参考訳): 外科的対象を認識するために設計された基礎モデルであるRASOを,外科的画像とビデオの両方において,広範囲の外科的処置および対象クラスにわたって堅牢なオープンセット認識機能を提供する。
RASOは、大規模な未発表の外科的講義ビデオからタグ-画像-テキストペアを自動的に生成し、手動アノテーションの必要性を大幅に低減する、新しい弱い教師付き学習フレームワークを活用している。
我々のスケーラブルなデータ生成パイプラインは2200の外科的処置を集め、2,066のユニークな外科的タグに対して360万のタグアノテーションを生成します。
実験の結果, RASOは4つの標準手術用ベンチマークでそれぞれ2.9mAP, 4.5mAP, 10.6mAP, 7.2mAPの改善を達成し, 外科的行動認識タスクにおける最先端モデルを上回っていることがわかった。
コード、モデル、デモはhttps://ntlm1686.github.io/raso.comで公開されている。
関連論文リスト
- SurgVLM: A Large Vision-Language Model and Systematic Evaluation Benchmark for Surgical Intelligence [72.10889173696928]
SurgVLMは,外科的知能に関する最初の大規模視覚言語基盤モデルの一つである。
我々は16種以上の外科的タイプと18の解剖学的構造にまたがる大規模なマルチモーダル手術データベースSurgVLM-DBを構築した。
この包括的データセットに基づいて,Qwen2.5-VLをベースとしたSurgVLMを提案する。
論文 参考訳(メタデータ) (2025-06-03T07:44:41Z) - Surgical Foundation Model Leveraging Compression and Entropy Maximization for Image-Guided Surgical Assistance [50.486523249499115]
低侵襲手術(MIS)におけるリアルタイム映像理解の重要性
手術ビデオからコンパクトで情報的表現を学習するための,新しい自己教師型フレームワークであるCompress-to-Explore (C2E)を提案する。
C2Eは、エントロピー最大化デコーダを使用して、臨床的に関連する詳細を保持しながら画像を圧縮し、ラベル付きデータなしでエンコーダのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2025-05-16T14:02:24Z) - Surg-3M: A Dataset and Foundation Model for Perception in Surgical Settings [4.912213082028129]
本稿では,Surg-3Mをベースとした自己教師型基礎モデルであるSurgFMについて述べる。
Surg-3MとSurgFMはどちらも、自律的なロボット手術システムの開発を加速する大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-03-25T15:05:00Z) - Identifying Surgical Instruments in Pedagogical Cataract Surgery Videos through an Optimized Aggregation Network [1.053373860696675]
本稿では白内障手術ビデオにおける手術器具のリアルタイム同定のためのディープラーニングモデルを提案する。
YOLOV9のアーキテクチャにインスパイアされたこのモデルは、プログラマブル・グラディエント・インフォメーション(PGI)機構と、新しい汎用高効率層アグリゲーション・ネットワーク(Go-ELAN)を採用している。
YOLO v5, v7, v8, v9 vanilla, Laptool, DETR に対して評価された Go-ELAN YOLOV9 モデルは,IoU 0.5 において 615 画像のデータセットで 73.74 の優れた mAP を達成している。
論文 参考訳(メタデータ) (2025-01-05T18:18:52Z) - Is Segment Anything Model 2 All You Need for Surgery Video Segmentation? A Systematic Evaluation [25.459372606957736]
本稿では,ゼロショット手術映像分割作業におけるSAM2モデルの性能を体系的に評価する。
我々は、異なるプロンプト戦略やロバスト性など、異なる構成で実験を行った。
論文 参考訳(メタデータ) (2024-12-31T16:20:05Z) - Think Step by Step: Chain-of-Gesture Prompting for Error Detection in Robotic Surgical Videos [18.106255939686545]
このレターでは、新しいエンドツーエンドエラー検出フレームワークであるChain-of-Thought(COG)のプロンプトを提示する。
これは、専門家外科医の意思決定プロセスを模倣するために設計された2つの推論モジュールを含んでいる。
本手法は,F1スコアの4.6%,精度の4.6%,ジャカード指数の5.9%,各フレームを平均6.69ミリ秒で処理しながら,外科的活動に固有の推論過程をカプセル化する。
論文 参考訳(メタデータ) (2024-06-27T14:43:50Z) - OphNet: A Large-Scale Video Benchmark for Ophthalmic Surgical Workflow Understanding [26.962250661485967]
OphNetは、眼科の外科的ワークフロー理解のための、大規模な、専門家による注釈付きビデオベンチマークである。
66種類の白内障、緑内障、角膜手術にまたがる2,278本の外科的ビデオの多彩なコレクションがあり、102個のユニークな外科的フェーズと150個の微細な手術の詳細な注記がある。
OphNetは、既存の最大の外科的ワークフロー分析ベンチマークの約20倍の大きさである。
論文 参考訳(メタデータ) (2024-06-11T17:18:11Z) - OSSAR: Towards Open-Set Surgical Activity Recognition in Robot-assisted
Surgery [13.843251369739908]
本稿では,OSSAR(Open-Set Surgery Activity Recognition)フレームワークについて紹介する。
提案手法は超球面逆点戦略を利用して特徴空間における未知クラスと未知クラスとの区別を強化する。
我々の主張をサポートするために、公開JIGSAWSデータセットを利用したオープンセットの外科的活動ベンチマークを構築した。
論文 参考訳(メタデータ) (2024-02-10T16:23:12Z) - SAR-RARP50: Segmentation of surgical instrumentation and Action
Recognition on Robot-Assisted Radical Prostatectomy Challenge [72.97934765570069]
外科的動作認識と意味計測のセグメンテーションのための,最初のマルチモーダルなインビボデータセットを公開し,ロボット補助根治術(RARP)の50の縫合ビデオセグメントを収録した。
この課題の目的は、提供されたデータセットのスケールを活用し、外科領域における堅牢で高精度なシングルタスクアクション認識とツールセグメンテーションアプローチを開発することである。
合計12チームがこのチャレンジに参加し、7つのアクション認識方法、9つの計器のセグメンテーション手法、そしてアクション認識と計器のセグメンテーションを統合した4つのマルチタスクアプローチをコントリビュートした。
論文 参考訳(メタデータ) (2023-12-31T13:32:18Z) - SAMSNeRF: Segment Anything Model (SAM) Guides Dynamic Surgical Scene
Reconstruction by Neural Radiance Field (NeRF) [4.740415113160021]
本稿では,Segment Anything Model(SAM)とNeRF技術を組み合わせたSAMSNeRFという新しい手法を提案する。
内視鏡下外科的画像を用いた実験の結果,高忠実度ダイナミックな手術シーンの再構築に成功していることが示された。
論文 参考訳(メタデータ) (2023-08-22T20:31:00Z) - Learning Multi-modal Representations by Watching Hundreds of Surgical Video Lectures [51.78027546947034]
外科的コンピュータビジョンの最近の進歩は、言語意味論に欠ける視覚のみのモデルによって推進されている。
本稿では,eラーニングプラットフォームからの手術ビデオ講義を活用し,効果的な視覚情報と言語監督信号を提供する。
テキスト書き起こしのための複数自動音声認識システムを用いて,手術固有の言語課題に対処する。
論文 参考訳(メタデータ) (2023-07-27T22:38:12Z) - GLSFormer : Gated - Long, Short Sequence Transformer for Step
Recognition in Surgical Videos [57.93194315839009]
本稿では,シーケンスレベルのパッチから時間的特徴を直接学習するための視覚変換器に基づくアプローチを提案する。
本研究では,白内障手術用ビデオデータセットである白内障-101とD99に対するアプローチを広範に評価し,各種の最先端手法と比較して優れた性能を示した。
論文 参考訳(メタデータ) (2023-07-20T17:57:04Z) - Next-generation Surgical Navigation: Marker-less Multi-view 6DoF Pose
Estimation of Surgical Instruments [66.74633676595889]
静止カメラとヘッドマウントカメラを組み合わせたマルチカメラ・キャプチャー・セットアップを提案する。
第2に,手術用ウェットラボと実際の手術用劇場で撮影された元脊椎手術のマルチビューRGB-Dビデオデータセットを公表した。
第3に,手術器具の6DoFポーズ推定の課題に対して,最先端のシングルビューとマルチビューの3つの手法を評価した。
論文 参考訳(メタデータ) (2023-05-05T13:42:19Z) - Dissecting Self-Supervised Learning Methods for Surgical Computer Vision [51.370873913181605]
一般のコンピュータビジョンコミュニティでは,自己監視学習(SSL)手法が普及し始めている。
医学や手術など、より複雑で影響力のある領域におけるSSLメソッドの有効性は、限定的かつ未調査のままである。
外科的文脈理解,位相認識,ツール存在検出の2つの基本的なタスクに対して,これらの手法の性能をColec80データセット上で広範囲に解析する。
論文 参考訳(メタデータ) (2022-07-01T14:17:11Z) - CholecTriplet2021: A benchmark challenge for surgical action triplet
recognition [66.51610049869393]
腹腔鏡下手術における三肢の認識のためにMICCAI 2021で実施した内視鏡的視力障害であるColecTriplet 2021を提案する。
課題の参加者が提案する最先端の深層学習手法の課題設定と評価について述べる。
4つのベースライン法と19の新しいディープラーニングアルゴリズムが提示され、手術ビデオから直接手術行動三重項を認識し、平均平均精度(mAP)は4.2%から38.1%である。
論文 参考訳(メタデータ) (2022-04-10T18:51:55Z) - Towards Unified Surgical Skill Assessment [18.601526803020885]
自動手術スキル評価のための統合型マルチパスフレームワークを提案する。
手術シミュレーションのJIGSAWSデータセットと腹腔鏡下手術の新たな臨床データセットについて実験を行った。
論文 参考訳(メタデータ) (2021-06-02T09:06:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。