論文の概要: TSMS-SAM2: Multi-scale Temporal Sampling Augmentation and Memory-Splitting Pruning for Promptable Video Object Segmentation and Tracking in Surgical Scenarios
- arxiv url: http://arxiv.org/abs/2508.05829v1
- Date: Thu, 07 Aug 2025 20:11:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:05.999518
- Title: TSMS-SAM2: Multi-scale Temporal Sampling Augmentation and Memory-Splitting Pruning for Promptable Video Object Segmentation and Tracking in Surgical Scenarios
- Title(参考訳): TSMS-SAM2: 手術シナリオにおけるプロンプブルなビデオオブジェクト分割と追跡のためのマルチスケールテンポラルサンプリング増幅とメモリ分割プルーニング
- Authors: Guoping Xu, Hua-Chieh Shao, You Zhang,
- Abstract要約: 本稿では,高速物体運動とメモリ冗長性の課題に対処して,手術ビデオにおけるVOSTの高速化を実現する新しいフレームワークであるTSMS-SAM2を提案する。
TSMS-SAM2は、動作変動に対する堅牢性を改善するためのマルチ時間スケールビデオサンプリング強化と、過去のフレーム機能を整理・フィルタリングするメモリ分割・プルーニングメカニズムの2つの主要な戦略を導入している。
- 参考スコア(独自算出の注目度): 1.0596160761674702
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Promptable video object segmentation and tracking (VOST) has seen significant advances with the emergence of foundation models like Segment Anything Model 2 (SAM2); however, their application in surgical video analysis remains challenging due to complex motion dynamics and the redundancy of memory that impedes effective learning. In this work, we propose TSMS-SAM2, a novel framework that enhances promptable VOST in surgical videos by addressing challenges of rapid object motion and memory redundancy in SAM2. TSMS-SAM2 introduces two key strategies: multi-temporal-scale video sampling augmentation to improve robustness against motion variability, and a memory splitting and pruning mechanism that organizes and filters past frame features for more efficient and accurate segmentation. Evaluated on EndoVis2017 and EndoVis2018 datasets, TSMS-SAM2 achieved the highest mean Dice scores of 95.24 and 86.73, respectively, outperforming prior SAM-based and task-specific methods. Extensive ablation studies confirm the effectiveness of multiscale temporal augmentation and memory splitting, highlighting the framework's potential for robust, efficient segmentation in complex surgical scenarios. Our source code will be available at https://github.com/apple1986/TSMS-SAM2.
- Abstract(参考訳): VOST(promptable video object segmentation and tracking)は、Segment Anything Model 2 (SAM2) のような基礎モデルの出現とともに大きな進歩を遂げてきたが、複雑なモーションダイナミクスと効果的な学習を妨げる記憶の冗長性のために、手術ビデオ解析におけるそれらの応用は依然として困難である。
本研究では,迅速な物体の動きとSAM2のメモリ冗長性の課題に対処することで,手術ビデオにおけるVOSTの高速化を実現する新しいフレームワークであるTSMS-SAM2を提案する。
TSMS-SAM2は、動作変動に対するロバスト性を改善するためのマルチ時間スケールビデオサンプリング強化と、過去のフレーム機能を整理・フィルタリングしてより効率的かつ正確なセグメンテーションを実現するメモリ分割・プルーニングメカニズムの2つの主要な戦略を導入している。
EndoVis2017とEndoVis2018のデータセットに基づいて評価され、TSMS-SAM2は、それぞれ95.24と86.73の平均Diceスコアを達成し、以前のSAMベースの手法とタスク固有の手法を上回った。
広範囲にわたるアブレーション研究は、複雑な手術シナリオにおける堅牢で効率的なセグメンテーションに対するフレームワークの可能性を強調し、マルチスケールの時間拡張とメモリ分割の有効性を確認した。
ソースコードはhttps://github.com/apple 1986/TSMS-SAM2.comで公開されます。
関連論文リスト
- SAM2-UNeXT: An Improved High-Resolution Baseline for Adapting Foundation Models to Downstream Segmentation Tasks [50.97089872043121]
SAM2-UNeXTはSAM2-UNetの中核となる原理を基盤とした高度なフレームワークである。
我々は、補助的なDINOv2エンコーダの統合によりSAM2の表現能力を拡張する。
我々のアプローチは、単純なアーキテクチャでより正確なセグメンテーションを可能にし、複雑なデコーダ設計の必要性を緩和する。
論文 参考訳(メタデータ) (2025-08-05T15:36:13Z) - Depthwise-Dilated Convolutional Adapters for Medical Object Tracking and Segmentation Using the Segment Anything Model 2 [1.0596160761674702]
本稿では SAM2 の効率的な適応フレームワーク DD-SAM2 を提案する。
DD-SAM2にはDepthwise-Dilated Adapter (DD-Adapter)が組み込まれている。
DD-SAM2はSAM2のストリーミングメモリを完全に活用し、医療ビデオオブジェクトの追跡とセグメンテーションを行う。
論文 参考訳(メタデータ) (2025-07-19T13:19:55Z) - Memory-Augmented SAM2 for Training-Free Surgical Video Segmentation [18.71772979219666]
トレーニング不要なビデオオブジェクトセグメンテーション戦略である Memory Augmented (MA)-SAM2 を導入する。
MA-SAM2は、複雑な楽器の動きから生じる閉塞や相互作用に対して強い堅牢性を示す。
MA-SAM2は追加のパラメータを導入せず、さらなるトレーニングも必要とせず、EndoVis 2017とEndoVis 2018データセットでSAM2よりも4.36%と6.1%のパフォーマンス向上を達成した。
論文 参考訳(メタデータ) (2025-07-13T11:05:25Z) - EdgeTAM: On-Device Track Anything Model [65.10032957471824]
Segment Anything Model (SAM) 2はさらに、イメージからビデオへの入力をメモリバンク機構を通じて拡張する。
私たちはSAM 2をより効率的にし、同等のパフォーマンスを維持しながらモバイルデバイス上でも動作できるようにすることを目標としています。
計算コストを削減するために,新しい2次元空間知覚器を利用するEdgeTAMを提案する。
論文 参考訳(メタデータ) (2025-01-13T12:11:07Z) - Look Every Frame All at Once: Video-Ma$^2$mba for Efficient Long-form Video Understanding with Multi-Axis Gradient Checkpointing [52.050036778325094]
Video-Ma$2$mbaは、Mamba-2フレームワークにステートスペースモデル(SSM)を組み込んだ新しいアーキテクチャである。
本手法は,標準勾配チェックポイントに比べてメモリフットプリントを大幅に削減する。
時間的ダイナミクスの詳細なキャプチャーを維持することで、長いビデオ理解タスクにおける応答の精度と関連性を改善することができる。
論文 参考訳(メタデータ) (2024-11-29T04:12:13Z) - SAM2-UNet: Segment Anything 2 Makes Strong Encoder for Natural and Medical Image Segmentation [51.90445260276897]
我々は,Segment Anything Model 2 (SAM2) がU字型セグメンテーションモデルの強力なエンコーダであることを証明した。
本稿では, SAM2-UNet と呼ばれる, 汎用画像分割のための簡易かつ効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-16T17:55:38Z) - Surgical SAM 2: Real-time Segment Anything in Surgical Video by Efficient Frame Pruning [13.90996725220123]
SurgSAM2 は SAM2 と EFP (Efficient Frame Pruning) 機構を併用した高度なモデルであり,リアルタイムな手術ビデオ分割を容易にする。
SurgSAM2はバニラSAM2と比較して効率とセグメンテーションの精度を著しく向上させる。
実験の結果,SurgSAM2 は SAM2 と比較して 3$times$ FPS を達成できた。
論文 参考訳(メタデータ) (2024-08-15T04:59:12Z) - FocSAM: Delving Deeply into Focused Objects in Segmenting Anything [58.042354516491024]
Segment Anything Model (SAM)はセグメンテーションモデルにおいて注目すべきマイルストーンである。
2つの重要な側面に基づいてパイプラインを再設計したFocSAMを提案する。
まず,Dwin-MSA(Dynamic Window Multi-head Self-Attention)を提案する。
次に,Pixel-wise Dynamic ReLU (P-DyReLU)を提案する。
論文 参考訳(メタデータ) (2024-05-29T02:34:13Z) - Full-Duplex Strategy for Video Object Segmentation [141.43983376262815]
Full- Strategy Network (FSNet)はビデオオブジェクトセグメンテーション(VOS)のための新しいフレームワークである
我々のFSNetは、融合復号ステージの前に、クロスモーダルな機能パス(すなわち、送信と受信)を同時に実行します。
我々のFSNetは、VOSとビデオの有能なオブジェクト検出タスクの両方において、他の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-06T14:50:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。