論文の概要: SAM-PD: How Far Can SAM Take Us in Tracking and Segmenting Anything in
Videos by Prompt Denoising
- arxiv url: http://arxiv.org/abs/2403.04194v1
- Date: Thu, 7 Mar 2024 03:52:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 15:12:45.998175
- Title: SAM-PD: How Far Can SAM Take Us in Tracking and Segmenting Anything in
Videos by Prompt Denoising
- Title(参考訳): SAM-PD:SAMがプロンプトのデノイングでビデオ中のあらゆるものを追跡し、セグメンテーションするのにどれくらいの時間がかかるか
- Authors: Tao Zhou, Wenhan Luo, Qi Ye, Zhiguo Shi, Jiming Chen
- Abstract要約: ビデオ中のオブジェクトの追跡とセグメンテーションにセグメンション・任意のモデルを適用する可能性について検討する。
具体的には、次のフレームのプロンプトとして、前フレーム内の各オブジェクトのマスクのバウンディングボックスを反復的に伝播する。
そこで本研究では,SAMの位置と大きさの変動に対する認知能力を高めるために,マルチプロンプト戦略を提案する。
- 参考スコア(独自算出の注目度): 37.216493829454706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, promptable segmentation models, such as the Segment Anything Model
(SAM), have demonstrated robust zero-shot generalization capabilities on static
images. These promptable models exhibit denoising abilities for imprecise
prompt inputs, such as imprecise bounding boxes. In this paper, we explore the
potential of applying SAM to track and segment objects in videos where we
recognize the tracking task as a prompt denoising task. Specifically, we
iteratively propagate the bounding box of each object's mask in the preceding
frame as the prompt for the next frame. Furthermore, to enhance SAM's denoising
capability against position and size variations, we propose a multi-prompt
strategy where we provide multiple jittered and scaled box prompts for each
object and preserve the mask prediction with the highest semantic similarity to
the template mask. We also introduce a point-based refinement stage to handle
occlusions and reduce cumulative errors. Without involving tracking modules,
our approach demonstrates comparable performance in video object/instance
segmentation tasks on three datasets: DAVIS2017, YouTubeVOS2018, and UVO,
serving as a concise baseline and endowing SAM-based downstream applications
with tracking capabilities.
- Abstract(参考訳): 近年,segment anything model (sam) などのプロンプトブルセグメンテーションモデルでは,静的画像に対するロバストなゼロショット一般化が実現されている。
これらのプロンプトモデルでは、不正確なバウンディングボックスなど、不正確なプロンプト入力のデノイジング能力を示す。
本稿では,追跡タスクを瞬時に発生するタスクとして認識するビデオにおけるオブジェクトの追跡とセグメンテーションにsamを適用する可能性について検討する。
具体的には、次のフレームのプロンプトとして、前フレーム内の各オブジェクトのマスクの境界ボックスを反復的に伝播する。
さらに,SAMの位置や大きさの変動に対する認知能力を高めるために,複数のジッタリングおよび拡張ボックスプロンプトを各オブジェクトに対して提供し,テンプレートマスクに最もセマンティックな類似性でマスク予測を保持するマルチプロンプト戦略を提案する。
また,オクルージョンの処理や累積誤差の低減を目的としたポイントベースリファインメントステージも導入する。
DAVIS2017、YouTubeVOS2018、UVOの3つのデータセット上で、トラッキングモジュールを伴わずに、ビデオオブジェクト/インスタンスセグメンテーションタスクで同等のパフォーマンスを示し、簡潔なベースラインとして機能し、トラッキング機能を備えたSAMベースのダウンストリームアプリケーションを提供する。
関連論文リスト
- Crowd-SAM: SAM as a Smart Annotator for Object Detection in Crowded Scenes [18.244508068200236]
Crowd-SAMは、混み合ったシーンでSAMのパフォーマンスを高めるために設計されたフレームワークである。
混み合ったシーンにおけるマスク選択と精度を高めるために,効率的なプロンプトサンプリング (EPS) とPWD-Net (Part-whole discrimination network) を導入する。
Crowd-SAMは、CrowdHumanやCityPersonsなどいくつかのベンチマークにおいて、最先端のSOTA(State-of-the-art)と競合する。
論文 参考訳(メタデータ) (2024-07-16T08:00:01Z) - SAM-PM: Enhancing Video Camouflaged Object Detection using Spatio-Temporal Attention [0.0]
Segment Anything Model (SAM) は画像セグメンテーションにおける異常な性能で注目されている。
カモフラージュされた物体は一般的に背景に溶け込み、静止画では区別が難しい。
これらの課題を克服するために,SAMスパイダーモジュール (SAM-PM) と呼ばれる新しい手法を提案する。
本手法は,SAMのパラメータの1%未満の追加で,時間的一貫性とドメイン固有の専門知識をセグメンテーションネットワークに効果的に組み込む。
論文 参考訳(メタデータ) (2024-06-09T14:33:38Z) - FocSAM: Delving Deeply into Focused Objects in Segmenting Anything [58.042354516491024]
Segment Anything Model (SAM)はセグメンテーションモデルにおいて注目すべきマイルストーンである。
2つの重要な側面に基づいてパイプラインを再設計したFocSAMを提案する。
まず,Dwin-MSA(Dynamic Window Multi-head Self-Attention)を提案する。
次に,Pixel-wise Dynamic ReLU (P-DyReLU)を提案する。
論文 参考訳(メタデータ) (2024-05-29T02:34:13Z) - Leveraging Foundation models for Unsupervised Audio-Visual Segmentation [49.94366155560371]
AVS (Audio-Visual) は、可聴物体をピクセルレベルの視覚シーンで正確に概説することを目的としている。
既存のAVS手法では、教師付き学習方式でオーディオマスク対の細かいアノテーションを必要とする。
タスク固有のデータアノテーションやモデルトレーニングを必要とせず、教師なしの音声-視覚的セグメンテーションを導入する。
論文 参考訳(メタデータ) (2023-09-13T05:05:47Z) - Segment Anything Meets Point Tracking [116.44931239508578]
本稿では,SAMと長期点追跡を併用した,ポイント中心の対話型ビデオセグメンテーションの新たな手法を提案する。
ゼロショットオープンワールドUnidentified Video Objects(UVO)ベンチマークで直接評価することで,ポイントベーストラッキングのメリットを強調した。
DAVIS, YouTube-VOS, BDD100Kなどの人気ビデオオブジェクトのセグメンテーションと多目的セグメンテーションのベンチマーク実験により, ポイントベースセグメンテーショントラッカーがより優れたゼロショット性能と効率的なインタラクションをもたらすことが示唆された。
論文 参考訳(メタデータ) (2023-07-03T17:58:01Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - UVOSAM: A Mask-free Paradigm for Unsupervised Video Object Segmentation via Segment Anything Model [5.632631449489529]
Segment Anything Model (SAM)は、画像セグメンテーションのための新しいプロンプト駆動パラダイムを導入し、新しい可能性を提供している。
本稿では,STD-Netトラッカーを用いたUVOSのマスクフリーパラダイムであるUVOSAMを提案する。
STD-Netは、フレーム内特徴とフレーム間特徴の効果的な相関を確立するために、空間的・時間的疎結合な変形可能なアテンション機構を組み込んでいる。
論文 参考訳(メタデータ) (2023-05-22T03:03:29Z) - Personalize Segment Anything Model with One Shot [52.54453744941516]
我々は,Segment Anything Model (SAM) のためのトレーニング不要なパーソナライズ手法を提案する。
PerSAMは、参照マスクを持つ1つのイメージしか持たないため、最初にターゲットのコンセプトを以前のロケーションでローカライズする。
PerSAMは、ターゲット誘導された注意、ターゲットセマンティックなプロンプト、そしてカスケードされたポストリファインメントという3つのテクニックを通じて、他の画像やビデオにセグメントする。
論文 参考訳(メタデータ) (2023-05-04T17:59:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。