Fugu-MT 論文翻訳(概要): ReSurgSAM2: Referring Segment Anything in Surgical Video via Credible Long-term Tracking

論文の概要: ReSurgSAM2: Referring Segment Anything in Surgical Video via Credible Long-term Tracking

arxiv url: http://arxiv.org/abs/2505.08581v1
Date: Tue, 13 May 2025 13:56:10 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-14 20:57:54.592729
Title: ReSurgSAM2: Referring Segment Anything in Surgical Video via Credible Long-term Tracking
Title（参考訳）: ReSurgSAM2:Creredible Long-Term Trackingによる手術ビデオのセグメンテーションの参照
Authors: Haofeng Liu, Mingqi Gao, Xuxiao Luo, Ziyue Wang, Guanyi Qin, Junde Wu, Yueming Jin,
Abstract要約: ReSurgSAM2は2段階の外科的セグメンテーションフレームワークである。クロスモーダルな時空間マンバを用いて正確な検出とセグメンテーション結果を生成する。信頼性と多様なメモリバンクを維持し、一貫した長期追跡を保証する、多様性駆動型メモリ機構を備えている。
参考スコア（独自算出の注目度）: 15.83425997240828
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Surgical scene segmentation is critical in computer-assisted surgery and is vital for enhancing surgical quality and patient outcomes. Recently, referring surgical segmentation is emerging, given its advantage of providing surgeons with an interactive experience to segment the target object. However, existing methods are limited by low efficiency and short-term tracking, hindering their applicability in complex real-world surgical scenarios. In this paper, we introduce ReSurgSAM2, a two-stage surgical referring segmentation framework that leverages Segment Anything Model 2 to perform text-referred target detection, followed by tracking with reliable initial frame identification and diversity-driven long-term memory. For the detection stage, we propose a cross-modal spatial-temporal Mamba to generate precise detection and segmentation results. Based on these results, our credible initial frame selection strategy identifies the reliable frame for the subsequent tracking. Upon selecting the initial frame, our method transitions to the tracking stage, where it incorporates a diversity-driven memory mechanism that maintains a credible and diverse memory bank, ensuring consistent long-term tracking. Extensive experiments demonstrate that ReSurgSAM2 achieves substantial improvements in accuracy and efficiency compared to existing methods, operating in real-time at 61.2 FPS. Our code and datasets will be available at https://github.com/jinlab-imvr/ReSurgSAM2.
Abstract（参考訳）: 外科的シーンセグメンテーションは、コンピュータ支援手術において重要であり、外科的品質と患者の結果を高めるために不可欠である。近年,手術対象のセグメンテーションにインタラクティブな体験を外科医に提供するという利点から,外科的セグメンテーションへの言及が表面化しつつある。しかし、既存の手法は低効率と短期追跡によって制限されており、複雑な実世界の手術シナリオにおける適用性を妨げている。本稿では,Segment Anything Model 2を利用した2段階の外科的参照セグメンテーションフレームワークReSurgSAM2を紹介する。検出段階では,正確な検出とセグメンテーション結果を生成するクロスモーダル時空間マンバを提案する。これらの結果に基づいて,我々の信頼できる初期フレーム選択戦略は,その後の追跡の信頼性の高いフレームを識別する。提案手法は,初期フレームを選択すると追跡段階に移行し,信頼性が高く多様なメモリバンクを維持できる多様性駆動型メモリ機構を内蔵し,一貫した長期追跡を確保する。大規模な実験により、ReSurgSAM2は既存の手法に比べて精度と効率が大幅に向上し、61.2 FPSでリアルタイムに動作することを示した。私たちのコードとデータセットはhttps://github.com/jinlab-imvr/ReSurgSAM2.comで公開されます。

関連論文リスト

CRISP-SAM2: SAM2 with Cross-Modal Interaction and Semantic Prompting for Multi-Organ Segmentation [32.48945636401865]
CRoss-modal Interaction と Semantic Prompting をベースとした CRISP-SAM2 という新しいモデルを提案する。このモデルは、臓器のテキスト記述によって導かれる多臓器医療セグメンテーションへの有望なアプローチを示す。我々の手法は、視覚的およびテキスト的入力を相互に文脈化されたセマンティクスに変換することから始まる。
論文参考訳（メタデータ） (2025-06-29T07:05:27Z)
Novel adaptation of video segmentation to 3D MRI: efficient zero-shot knee segmentation with SAM2 [1.6237741047782823]
Segment Anything Model 2 を応用した3次元膝関節MRIのゼロショット単発セグメンテーション法を提案する。 3次元医用ボリュームのスライスを個々のビデオフレームとして扱うことで、SAM2の高度な能力を利用して、モーションおよび空間認識の予測を生成する。 SAM2は、訓練や微調整を伴わずに、ゼロショット方式でセグメント化タスクを効率的に実行できることを実証する。
論文参考訳（メタデータ） (2024-08-08T21:39:15Z)
Think Step by Step: Chain-of-Gesture Prompting for Error Detection in Robotic Surgical Videos [18.106255939686545]
このレターでは、新しいエンドツーエンドエラー検出フレームワークであるChain-of-Thought(COG)のプロンプトを提示する。これは、専門家外科医の意思決定プロセスを模倣するために設計された2つの推論モジュールを含んでいる。本手法は,F1スコアの4.6%,精度の4.6%,ジャカード指数の5.9%,各フレームを平均6.69ミリ秒で処理しながら,外科的活動に固有の推論過程をカプセル化する。
論文参考訳（メタデータ） (2024-06-27T14:43:50Z)
SAR-RARP50: Segmentation of surgical instrumentation and Action Recognition on Robot-Assisted Radical Prostatectomy Challenge [72.97934765570069]
外科的動作認識と意味計測のセグメンテーションのための,最初のマルチモーダルなインビボデータセットを公開し,ロボット補助根治術(RARP)の50の縫合ビデオセグメントを収録した。この課題の目的は、提供されたデータセットのスケールを活用し、外科領域における堅牢で高精度なシングルタスクアクション認識とツールセグメンテーションアプローチを開発することである。合計12チームがこのチャレンジに参加し、7つのアクション認識方法、9つの計器のセグメンテーション手法、そしてアクション認識と計器のセグメンテーションを統合した4つのマルチタスクアプローチをコントリビュートした。
論文参考訳（メタデータ） (2023-12-31T13:32:18Z)
Hierarchical Semi-Supervised Learning Framework for Surgical Gesture Segmentation and Recognition Based on Multi-Modality Data [2.8770761243361593]
多モードデータを用いた外科的ジェスチャー分割のための階層型半教師付き学習フレームワークを開発した。トレーニング済みのResNet-18'バックボーンを備えたTransformerベースのネットワークを使用して,手術ビデオから視覚的特徴を抽出する。提案手法は、Suturing, Needle Passing, Knot Tyingタスクを含む、公開されているJIGSデータベースのデータを用いて評価されている。
論文参考訳（メタデータ） (2023-07-31T21:17:59Z)
GLSFormer : Gated - Long, Short Sequence Transformer for Step Recognition in Surgical Videos [57.93194315839009]
本稿では,シーケンスレベルのパッチから時間的特徴を直接学習するための視覚変換器に基づくアプローチを提案する。本研究では,白内障手術用ビデオデータセットである白内障-101とD99に対するアプローチを広範に評価し,各種の最先端手法と比較して優れた性能を示した。
論文参考訳（メタデータ） (2023-07-20T17:57:04Z)
LoViT: Long Video Transformer for Surgical Phase Recognition [59.06812739441785]
短時間・長期の時間情報を融合する2段階のLong Video Transformer(LoViT)を提案する。このアプローチは、Colec80とAutoLaparoデータセットの最先端メソッドを一貫して上回る。
論文参考訳（メタデータ） (2023-05-15T20:06:14Z)
TraSeTR: Track-to-Segment Transformer with Contrastive Query for Instance-level Instrument Segmentation in Robotic Surgery [60.439434751619736]
そこで我々は,TraSeTRを提案する。TraSeTR,TraSeTR,Trace-to-Segment Transformerは,手術器具のセグメンテーションを支援する。 TraSeTRは、機器の種類、位置、アイデンティティとインスタンスレベルの予測を共同で理由付けている。提案手法の有効性を,3つの公開データセットに対して,最先端の計器型セグメンテーション結果を用いて実証した。
論文参考訳（メタデータ） (2022-02-17T05:52:18Z)
Efficient Global-Local Memory for Real-time Instrument Segmentation of Robotic Surgical Video [53.14186293442669]
手術器具の知覚における重要な手がかりとして,隣接するフレームからの局所的時間依存性と,長距離における大域的意味的相関があげられる。本稿では,グローバルとローカルの両方の時間的知識を関連付ける新しいデュアルメモリネットワーク(DMNet)を提案する。本手法は,実時間速度を維持しながらセグメント化精度を向上する手法である。
論文参考訳（メタデータ） (2021-09-28T10:10:14Z)
Symmetric Dilated Convolution for Surgical Gesture Recognition [10.699258974625073]
外科的ジェスチャーを自動的に検出・分節する新しい時間的畳み込みアーキテクチャを提案する。本研究では,長期時間パターンを符号化・復号化するために,自己アテンションモジュールでブリッジされた対称的拡張構造を用いて手法を考案する。 JIGSAWSデータセットからの基本的なロボット縫合タスクに対するアプローチを検証する。
論文参考訳（メタデータ） (2020-07-13T13:34:48Z)
Robust Medical Instrument Segmentation Challenge 2019 [56.148440125599905]
腹腔鏡装置の術中追跡は、しばしばコンピュータとロボットによる介入の必要条件である。本研究の課題は,30の手術症例から取得した10,040枚の注釈画像からなる外科的データセットに基づいていた。結果は、初期仮説、すなわち、アルゴリズムの性能がドメインギャップの増大とともに低下することを確認する。
論文参考訳（メタデータ） (2020-03-23T14:35:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。