論文の概要: Segment Anything Meets Point Tracking
- arxiv url: http://arxiv.org/abs/2307.01197v1
- Date: Mon, 3 Jul 2023 17:58:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-05 12:02:13.793560
- Title: Segment Anything Meets Point Tracking
- Title(参考訳): Segment Anythingがポイントトラッキングに挑戦
- Authors: Frano Raji\v{c}, Lei Ke, Yu-Wing Tai, Chi-Keung Tang, Martin
Danelljan, Fisher Yu
- Abstract要約: Segment Anything Model (SAM) は強力なゼロショット画像分割モデルとして確立されている。
本稿では SAM-PT について述べる。これは SAM の機能を拡張し,ダイナミックビデオ中のあらゆるものを追跡・セグメンテーションする手法である。
- 参考スコア(独自算出の注目度): 96.40433299905773
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Segment Anything Model (SAM) has established itself as a powerful
zero-shot image segmentation model, employing interactive prompts such as
points to generate masks. This paper presents SAM-PT, a method extending SAM's
capability to tracking and segmenting anything in dynamic videos. SAM-PT
leverages robust and sparse point selection and propagation techniques for mask
generation, demonstrating that a SAM-based segmentation tracker can yield
strong zero-shot performance across popular video object segmentation
benchmarks, including DAVIS, YouTube-VOS, and MOSE. Compared to traditional
object-centric mask propagation strategies, we uniquely use point propagation
to exploit local structure information that is agnostic to object semantics. We
highlight the merits of point-based tracking through direct evaluation on the
zero-shot open-world Unidentified Video Objects (UVO) benchmark. To further
enhance our approach, we utilize K-Medoids clustering for point initialization
and track both positive and negative points to clearly distinguish the target
object. We also employ multiple mask decoding passes for mask refinement and
devise a point re-initialization strategy to improve tracking accuracy. Our
code integrates different point trackers and video segmentation benchmarks and
will be released at https://github.com/SysCV/sam-pt.
- Abstract(参考訳): segment anything model (sam) は強力なゼロショット画像セグメンテーションモデルとして確立されており、マスクを生成するポイントのようなインタラクティブなプロンプトを使用している。
本稿では SAM-PT について述べる。これは SAM の機能を拡張し,ダイナミックビデオ中のあらゆるものを追跡・セグメンテーションする手法である。
SAM-PTは、マスク生成のための堅牢でスパースな点選択と伝播技術を活用し、SAMベースのセグメンテーショントラッカーが、DAVIS、YouTube-VOS、MOSEを含む一般的なビデオオブジェクトセグメンテーションベンチマークにおいて、強力なゼロショット性能を得ることができることを示した。
従来のオブジェクト中心マスク伝播戦略と比較して,我々は,オブジェクトの意味に依存しない局所構造情報を活用するために,点伝播を用いる。
ゼロショットオープンワールドUnidentified Video Objects(UVO)ベンチマークの直接評価によるポイントベーストラッキングのメリットを強調した。
このアプローチをさらに強化するために,k-medoidsクラスタリングを用いて点初期化を行い,正の点と負の点の両方を追跡し,対象オブジェクトを明確に区別する。
また,マスクリファインメントのために複数のマスクデコードパスを採用し,トラッキング精度を向上させるために点再初期化戦略を考案した。
私たちのコードは、異なるポイントトラッカとビデオセグメンテーションベンチマークを統合し、https://github.com/syscv/sam-ptでリリースします。
関連論文リスト
- Training-Free Robust Interactive Video Object Segmentation [82.05906654403684]
対話型ビデオオブジェクトセグメンテーション(I-PT)のためのトレーニングフリープロンプトトラッキングフレームワークを提案する。
スパースポイントとボックストラッキングを共同で採用し、不安定なポイントをフィルタリングし、オブジェクトワイズ情報をキャプチャします。
我々のフレームワークは、人気のあるVOSデータセット上で、ゼロショットビデオセグメンテーションの堅牢な結果を示してきた。
論文 参考訳(メタデータ) (2024-06-08T14:25:57Z) - Lidar Panoptic Segmentation and Tracking without Bells and Whistles [48.078270195629415]
ライダーセグメンテーションと追跡のための検出中心ネットワークを提案する。
私たちのネットワークのコアコンポーネントの1つは、オブジェクトインスタンス検出ブランチです。
提案手法を複数の3D/4D LPSベンチマークで評価し,我々のモデルがオープンソースモデル間で新たな最先端性を確立することを確認した。
論文 参考訳(メタデータ) (2023-10-19T04:44:43Z) - BURST: A Benchmark for Unifying Object Recognition, Segmentation and
Tracking in Video [58.71785546245467]
複数の既存のベンチマークには、ビデオ内のオブジェクトのトラッキングとセグメンテーションが含まれる。
異なるベンチマークデータセットとメトリクスを使用するため、それらの相互作用はほとんどありません。
高品質なオブジェクトマスクを備えた数千の多様なビデオを含むデータセットであるBURSTを提案する。
すべてのタスクは、同じデータと同等のメトリクスを使って評価されます。
論文 参考訳(メタデータ) (2022-09-25T01:27:35Z) - Tag-Based Attention Guided Bottom-Up Approach for Video Instance
Segmentation [83.13610762450703]
ビデオインスタンスは、ビデオシーケンス全体にわたるオブジェクトインスタンスのセグメンテーションと追跡を扱う、基本的なコンピュータビジョンタスクである。
そこで本研究では,従来の領域プロモーター方式ではなく,画素レベルの粒度でインスタンスマスク予測を実現するための,単純なエンドツーエンドのボトムアップ方式を提案する。
提案手法は,YouTube-VIS と DAVIS-19 のデータセット上での競合結果を提供する。
論文 参考訳(メタデータ) (2022-04-22T15:32:46Z) - Target-Aware Object Discovery and Association for Unsupervised Video
Multi-Object Segmentation [79.6596425920849]
本稿では,教師なしビデオマルチオブジェクトセグメンテーションの課題について述べる。
より正確で効率的な時間区分のための新しいアプローチを紹介します。
DAVIS$_17$とYouTube-VISに対する提案手法を評価した結果,セグメント化精度と推論速度の両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-04-10T14:39:44Z) - CompFeat: Comprehensive Feature Aggregation for Video Instance
Segmentation [67.17625278621134]
ビデオインスタンスのセグメンテーションは、特定のビデオのそれぞれのオブジェクトを検出し、セグメンテーションし、追跡する必要がある複雑なタスクです。
従来のアプローチは、オブジェクトの検出、セグメンテーション、追跡にのみシングルフレーム機能を使用します。
本稿では,時間的および空間的コンテキスト情報を用いて,フレームレベルとオブジェクトレベルでの機能を洗練する新しい包括的特徴集約アプローチ(compfeat)を提案する。
論文 参考訳(メタデータ) (2020-12-07T00:31:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。