論文の概要: Memory-Enhanced SAM3 for Occlusion-Robust Surgical Instrument Segmentation
- arxiv url: http://arxiv.org/abs/2512.16880v1
- Date: Thu, 18 Dec 2025 18:49:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.225285
- Title: Memory-Enhanced SAM3 for Occlusion-Robust Surgical Instrument Segmentation
- Title(参考訳): 咬合整形外科用機器セグメンテーションのための記憶増強SAM3
- Authors: Valay Bundele, Mehran Hosseinzadeh, Hendrik P. A. Lensch,
- Abstract要約: 本稿では,SAM3のトレーニング不要なメモリ拡張であるReMeDI-SAM3を提案する。
SAM3よりも約7%,16%改善し,バニラトレーニングベースのアプローチよりも優れていた。
- 参考スコア(独自算出の注目度): 5.392406404237512
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate surgical instrument segmentation in endoscopic videos is crucial for computer-assisted interventions, yet remains challenging due to frequent occlusions, rapid motion, specular artefacts, and long-term instrument re-entry. While SAM3 provides a powerful spatio-temporal framework for video object segmentation, its performance in surgical scenes is limited by indiscriminate memory updates, fixed memory capacity, and weak identity recovery after occlusions. We propose ReMeDI-SAM3, a training-free memory-enhanced extension of SAM3, that addresses these limitations through three components: (i) relevance-aware memory filtering with a dedicated occlusion-aware memory for storing pre-occlusion frames, (ii) a piecewise interpolation scheme that expands the effective memory capacity, and (iii) a feature-based re-identification module with temporal voting for reliable post-occlusion identity disambiguation. Together, these components mitigate error accumulation and enable reliable recovery after occlusions. Evaluations on EndoVis17 and EndoVis18 under a zero-shot setting show absolute mcIoU improvements of around 7% and 16%, respectively, over vanilla SAM3, outperforming even prior training-based approaches. Project page: https://valaybundele.github.io/remedi-sam3/.
- Abstract(参考訳): 内視鏡的ビデオの正確な手術器具分割は、コンピュータ支援の介入には不可欠であるが、頻繁な閉塞、急激な運動、特異な人工物、長期の機器再突入などにより、依然として困難である。
SAM3は、ビデオオブジェクトセグメンテーションのための強力な時空間フレームワークを提供するが、手術シーンにおけるパフォーマンスは、メモリ更新の不特定、メモリ容量の固定、オクルージョン後の弱いアイデンティティ回復によって制限される。
SAM3のトレーニング不要なメモリ拡張であるReMeDI-SAM3を提案する。
(i)事前閉塞フレームを格納するための専用オクルージョン対応メモリによる関連性対応メモリフィルタリング
(ii)有効メモリ容量を拡大する断片的補間方式、及び
(iii) 機能に基づく再識別モジュールで, 時間的投票による包括後識別の曖昧化を図った。
これらのコンポーネントは、エラーの蓄積を軽減し、閉塞後の信頼性の高いリカバリを可能にする。
ゼロショット設定でのEndoVis17とEndoVis18の評価は、それぞれ7%と16%の絶対mcIoU改善を示し、バニラSAM3よりも優れ、トレーニングベースアプローチよりも優れていた。
プロジェクトページ: https://valaybundele.github.io/remedi-sam3/。
関連論文リスト
- EfficientSAM3: Progressive Hierarchical Distillation for Video Concept Segmentation from SAM1, 2, and 3 [1.0243211938789691]
プログレッシブ階層蒸留(PHD)に基づく効率的なモデル群であるEfficientSAM3を提案する。
PHDは、SA-1B上でのプロンプト・イン・ザ・ループ・トレーニングを通じて、画像の特徴を整列する; (2) テンポラルメモリ蒸留は、SA-V上で訓練されたコンパクトなPerceiverベースのモジュールで高密度メモリを置き換える。
人気の高いVOSデータセットをベンチマークし、さまざまなリライトされた作業と比較し、強力なパフォーマンスと効率のトレードオフを実現しています。
論文 参考訳(メタデータ) (2025-11-19T19:42:22Z) - CenterMamba-SAM: Center-Prioritized Scanning and Temporal Prototypes for Brain Lesion Segmentation [8.455097722395125]
CenterMamba-SAMは、トレーニング済みのバックボーンを凍結し、効率的な微調整のための軽量アダプタのみを訓練するエンドツーエンドフレームワークである。
コアとなるCenterMambaエンコーダは、3x3角軸中心短周期走査方式を採用している。
メモリ駆動構造プロンプト発生器は、隣接するスライスにまたがるプロトタイプバンクを維持し、信頼性の高いプロンプトの自動合成を可能にする。
論文 参考訳(メタデータ) (2025-11-03T05:27:28Z) - VesSAM: Efficient Multi-Prompting for Segmenting Complex Vessel [68.24765319399286]
本稿では,2次元血管セグメンテーションに適した,強力で効率的なフレームワークであるVesSAMを提案する。
VesSAMは、(1)局所的なテクスチャ機能を強化する畳み込みアダプタ、(2)解剖学的プロンプトを融合するマルチプロンプトエンコーダ、(3)ジャグアーティファクトを減らす軽量マスクデコーダを統合する。
VesSAMは、最先端のPEFTベースのSAMを10%以上のDiceと13%のIoUで一貫して上回っている。
論文 参考訳(メタデータ) (2025-11-02T15:47:05Z) - LightMem: Lightweight and Efficient Memory-Augmented Generation [72.21680105265824]
我々は、メモリシステムの性能と効率のバランスをとるLightMemという新しいメモリシステムを紹介した。
人間の記憶のアトキンソン・シフリンモデルにインスパイアされたLightMemは、メモリを3つの相補的なステージにまとめる。
GPTとQwenのバックボーンを用いたLongMemEvalの実験では、LightMemは高いベースライン(最大10.9%のゲイン)を上回り、トークンの使用量を最大117倍に削減している。
論文 参考訳(メタデータ) (2025-10-21T17:58:17Z) - Memory-Augmented SAM2 for Training-Free Surgical Video Segmentation [18.71772979219666]
トレーニング不要なビデオオブジェクトセグメンテーション戦略である Memory Augmented (MA)-SAM2 を導入する。
MA-SAM2は、複雑な楽器の動きから生じる閉塞や相互作用に対して強い堅牢性を示す。
MA-SAM2は追加のパラメータを導入せず、さらなるトレーニングも必要とせず、EndoVis 2017とEndoVis 2018データセットでSAM2よりも4.36%と6.1%のパフォーマンス向上を達成した。
論文 参考訳(メタデータ) (2025-07-13T11:05:25Z) - MEM1: Learning to Synergize Memory and Reasoning for Efficient Long-Horizon Agents [84.62985963113245]
我々は,長時間のマルチターンタスクに対して,エージェントが一定のメモリで動作可能な,エンドツーエンドの強化学習フレームワークMEM1を紹介する。
各ターンでMEM1は、メモリ統合と推論を共同でサポートするコンパクトな共有内部状態を更新する。
その結果,MEM1-7Bは16目的のマルチホップQAタスクにおいて,Qwen2.5-14B-Instructと比較してメモリ使用量を3.7倍削減し,3.5倍の性能向上を示す。
論文 参考訳(メタデータ) (2025-06-18T19:44:46Z) - Memorizing SAM: 3D Medical Segment Anything Model with Memorizing Transformer [8.973249762345793]
本稿では,メモリトランスフォーマーをプラグインとして組み込んだ新しい3DSAMアーキテクチャであるMemorizing SAMを提案する。
トレーニングや推論中に内部表現を保存した従来の記憶変換器とは異なり、Memorizing SAMは既存の高精度な内部表現をメモリソースとして利用しています。
我々はTotalSegmentatorデータセットから,33カテゴリのSAMの記憶性能を評価し,Memorizing SAMは,平均Dice増加率11.36%,推論時間4.38ミリ秒のコストで,最先端の3D SAMの変種であるFastSAM3Dより優れていることを示した。
論文 参考訳(メタデータ) (2024-12-18T14:51:25Z) - Recurrent Dynamic Embedding for Video Object Segmentation [54.52527157232795]
一定サイズのメモリバンクを構築するためにRDE(Recurrent Dynamic Embedding)を提案する。
本稿では, SAM を長時間の動画でより堅牢にするため, トレーニング段階での無バイアス誘導損失を提案する。
また、メモリバンクの異なる品質のマスクの埋め込みをネットワークが修復できるように、新たな自己補正戦略を設計する。
論文 参考訳(メタデータ) (2022-05-08T02:24:43Z) - Efficient Global-Local Memory for Real-time Instrument Segmentation of
Robotic Surgical Video [53.14186293442669]
手術器具の知覚における重要な手がかりとして,隣接するフレームからの局所的時間依存性と,長距離における大域的意味的相関があげられる。
本稿では,グローバルとローカルの両方の時間的知識を関連付ける新しいデュアルメモリネットワーク(DMNet)を提案する。
本手法は,実時間速度を維持しながらセグメント化精度を向上する手法である。
論文 参考訳(メタデータ) (2021-09-28T10:10:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。