論文の概要: FreeVPS: Repurposing Training-Free SAM2 for Generalizable Video Polyp Segmentation
- arxiv url: http://arxiv.org/abs/2508.19705v1
- Date: Wed, 27 Aug 2025 09:12:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.570713
- Title: FreeVPS: Repurposing Training-Free SAM2 for Generalizable Video Polyp Segmentation
- Title(参考訳): FreeVPS: 一般的なビデオポリープセグメンテーションのためのトレーニング不要SAM2の再購入
- Authors: Qiang Hu, Ying Zhou, Gepeng Ji, Nick Barnes, Qiang Li, Zhiwei Wang,
- Abstract要約: 我々は,ビデオポリプセグメンテーション(VPS)タスクをトラック・バイ・デテクト・パラダイムとして再放送する。
セグメント情報モデル2(SAM2)の時間的モデリング機能を統合する。
SAM2を2つのトレーニングフリーモジュールを備えたポリプビデオセグメンタとして再利用することで、この問題を軽減する。
- 参考スコア(独自算出の注目度): 42.07387869183688
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing video polyp segmentation (VPS) paradigms usually struggle to balance between spatiotemporal modeling and domain generalization, limiting their applicability in real clinical scenarios. To embrace this challenge, we recast the VPS task as a track-by-detect paradigm that leverages the spatial contexts captured by the image polyp segmentation (IPS) model while integrating the temporal modeling capabilities of segment anything model 2 (SAM2). However, during long-term polyp tracking in colonoscopy videos, SAM2 suffers from error accumulation, resulting in a snowball effect that compromises segmentation stability. We mitigate this issue by repurposing SAM2 as a video polyp segmenter with two training-free modules. In particular, the intra-association filtering module eliminates spatial inaccuracies originating from the detecting stage, reducing false positives. The inter-association refinement module adaptively updates the memory bank to prevent error propagation over time, enhancing temporal coherence. Both modules work synergistically to stabilize SAM2, achieving cutting-edge performance in both in-domain and out-of-domain scenarios. Furthermore, we demonstrate the robust tracking capabilities of FreeVPS in long-untrimmed colonoscopy videos, underscoring its potential reliable clinical analysis.
- Abstract(参考訳): 既存のビデオポリプセグメンテーション(VPS)パラダイムは通常、時空間モデリングとドメインの一般化のバランスをとるのに苦労し、実際の臨床シナリオにおける適用性を制限する。
この課題に対処するため、我々はVPSタスクを、画像ポリプセグメンテーション(IPS)モデルで捉えた空間コンテキストを活用するトラック・バイ・ディテクト・パラダイムとして再考し、セグメンテーション・モデル2(SAM2)の時間的モデリング機能を統合する。
しかし、大腸内視鏡ビデオにおける長期ポリプ追跡では、SAM2はエラーの蓄積に悩まされ、雪玉効果によりセグメンテーションの安定性が損なわれる。
SAM2を2つのトレーニングフリーモジュールを備えたビデオポリプセグメンタとして再利用することで、この問題を軽減する。
特に、連想内フィルタリングモジュールは、検出段階から発生した空間的不正確性を排除し、偽陽性を低減させる。
連想改善モジュールはメモリバンクを適応的に更新し、時間とともにエラーの伝播を防止し、時間的コヒーレンスを高める。
どちらのモジュールもSAM2を安定させるために相乗的に働き、ドメイン内シナリオとドメイン外シナリオの両方で最先端のパフォーマンスを達成する。
さらに,長期的大腸内視鏡検査におけるFreeVPSのロバストな追跡能力を実証し,信頼性の高い臨床分析の可能性を示唆した。
関連論文リスト
- AVPDN: Learning Motion-Robust and Scale-Adaptive Representations for Video-Based Polyp Detection [0.0682074616451595]
大腸内視鏡画像における多目的ポリープ検出のための頑健なフレームワークであるadaptive Video Polyp Detection Network (AVPDN)を提案する。
AVPDNにはAdaptive Feature Interaction and Augmentation (AFIA)モジュールとScale-Aware Context Integration (SACI)モジュールという2つの重要なコンポーネントが含まれている。
提案手法の有効性と一般化能力について,いくつかの挑戦的な公開ベンチマーク実験を行った。
論文 参考訳(メタデータ) (2025-08-05T13:59:18Z) - SAMITE: Position Prompted SAM2 with Calibrated Memory for Visual Object Tracking [58.35852822355312]
Visual Object Tracking (VOT)は、ビデオ内のターゲットを継続的に追跡する自律運転のようなアプリケーションで広く使われている。
これらの問題に対処するために、ビデオ基盤モデルSAM2をVOTに適用し、各フレームの追跡結果をメモリとして符号化し、残りのフレームを自己回帰的に条件付けする手法を提案する。
これらの課題に対処するために,SAM2 上にモジュールを追加して構築した SAMITE モデルを提案する。
論文 参考訳(メタデータ) (2025-07-29T12:11:56Z) - Self-Prompting Polyp Segmentation in Colonoscopy using Hybrid Yolo-SAM 2 Model [18.61909523131399]
本稿では,Segment Anything Model(SAM2)とYOLOv8モデルを統合することで,ポリプセグメンテーションの新たなアプローチを提案する。
本手法では,YOLOv8のバウンディングボックス予測を利用してSAM 2の入力プロンプトを自動生成することで,手動アノテーションの必要性を軽減している。
われわれは,5つのベンチマーク大腸内視鏡画像データセットと2つの大腸内視鏡ビデオデータセットの徹底的な試験を行い,この手法が画像分割タスクおよびビデオ分割タスクの最先端モデルを上回ることを示した。
論文 参考訳(メタデータ) (2024-09-14T17:11:37Z) - ASPS: Augmented Segment Anything Model for Polyp Segmentation [77.25557224490075]
SAM(Segment Anything Model)は、ポリープセグメンテーションに先例のないポテンシャルを導入している。
SAMのTransformerベースの構造は、グローバルおよび低周波情報を優先する。
CFAはトレーニング可能なCNNエンコーダブランチと凍結したViTエンコーダを統合し、ドメイン固有の知識の統合を可能にする。
論文 参考訳(メタデータ) (2024-06-30T14:55:32Z) - SALI: Short-term Alignment and Long-term Interaction Network for Colonoscopy Video Polyp Segmentation [22.3944058892309]
大腸内視鏡ビデオは直腸癌診断のためのポリープセグメンテーションにおいてより豊かな情報を提供する。
内視鏡の速い動きとクローズアップの観察により、現在の手法は大きな空間的不整合と連続的な低品質フレームに悩まされる。
短期アライメントモジュール(SAM)と長期インタラクションモジュール(LIM)のハイブリッドであるSALIネットワークを提案する。
論文 参考訳(メタデータ) (2024-06-19T13:15:04Z) - PolypNextLSTM: A lightweight and fast polyp video segmentation network
using ConvNext and ConvLSTM [40.01199300702993]
PolypNextLSTMは、UNetライクな構造で、ConvNext-Tinyをバックボーンとして、パラメータオーバーヘッドを減らすために、最後の2つのレイヤを戦略的に省略する。
我々の第一の斬新さはPolypNextLSTMであり、パラメータの最もリーンで最速のモデルとして際立っている。
論文 参考訳(メタデータ) (2024-02-18T13:24:48Z) - ECC-PolypDet: Enhanced CenterNet with Contrastive Learning for Automatic
Polyp Detection [88.4359020192429]
既存の手法では、計算コストのかかるコンテキストアグリゲーションが伴うか、ポリープの事前モデリングが欠如しているため、難解なケースでは性能が低下する。
本稿では,2段階のトレーニングとエンドツーエンド推論フレームワークである Enhanced CenterNet with Contrastive Learning (ECC-PolypDet) を提案する。
Box-assisted Contrastive Learning (BCL) は, クラス内差を最小限に抑え, 前庭ポリープと背景のクラス間差を最大化するため, 隠れポリープを捕捉する。
微調整段階におけるIoU誘導サンプル再重み付けの導入
論文 参考訳(メタデータ) (2024-01-10T07:03:41Z) - Dual-scale Enhanced and Cross-generative Consistency Learning for Semi-supervised Medical Image Segmentation [49.57907601086494]
医用画像のセグメンテーションはコンピュータ支援診断において重要な役割を担っている。
半教師型医用画像(DEC-Seg)のための新しいDual-scale Enhanced and Cross-generative consistency learning frameworkを提案する。
論文 参考訳(メタデータ) (2023-12-26T12:56:31Z) - Lesion-aware Dynamic Kernel for Polyp Segmentation [49.63274623103663]
ポリープセグメンテーションのための障害対応動的ネットワーク(LDNet)を提案する。
従来のU字型エンコーダ・デコーダ構造であり、動的カーネル生成と更新スキームが組み込まれている。
この単純だが効果的なスキームは、我々のモデルに強力なセグメンテーション性能と一般化能力を与える。
論文 参考訳(メタデータ) (2023-01-12T09:53:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。