論文の概要: A Distractor-Aware Memory for Visual Object Tracking with SAM2
- arxiv url: http://arxiv.org/abs/2411.17576v2
- Date: Wed, 04 Dec 2024 08:58:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 15:04:53.099607
- Title: A Distractor-Aware Memory for Visual Object Tracking with SAM2
- Title(参考訳): SAM2を用いた視覚的物体追跡のためのディトラクタ対応メモリ
- Authors: Jovana Videnovic, Alan Lukezic, Matej Kristan,
- Abstract要約: メモリベースのトラッカー(英: Memory-based tracker)は、最近追跡されたフレームをメモリバッファに連結し、現在の画像をバッファされたフレームに到達させることでターゲットをローカライズすることにより、ターゲットモデルを形成するビデオオブジェクトセグメンテーション手法である。
SAM2.1++はSAM2.1と関連するSAMメモリ拡張を7つのベンチマークで上回り、6つのベンチマークで新しい最先端を設定できる。
- 参考スコア(独自算出の注目度): 11.864619292028278
- License:
- Abstract: Memory-based trackers are video object segmentation methods that form the target model by concatenating recently tracked frames into a memory buffer and localize the target by attending the current image to the buffered frames. While already achieving top performance on many benchmarks, it was the recent release of SAM2 that placed memory-based trackers into focus of the visual object tracking community. Nevertheless, modern trackers still struggle in the presence of distractors. We argue that a more sophisticated memory model is required, and propose a new distractor-aware memory model for SAM2 and an introspection-based update strategy that jointly addresses the segmentation accuracy as well as tracking robustness. The resulting tracker is denoted as SAM2.1++. We also propose a new distractor-distilled DiDi dataset to study the distractor problem better. SAM2.1++ outperforms SAM2.1 and related SAM memory extensions on seven benchmarks and sets a solid new state-of-the-art on six of them.
- Abstract(参考訳): メモリベースのトラッカー(英: Memory-based tracker)は、最近追跡されたフレームをメモリバッファに連結し、現在の画像をバッファされたフレームに到達させることでターゲットをローカライズすることにより、ターゲットモデルを形成するビデオオブジェクトセグメンテーション手法である。
すでに多くのベンチマークでトップパフォーマンスを達成したが、先日リリースされたSAM2は、メモリベースのトラッカーをビジュアルオブジェクト追跡コミュニティに焦点を合わせたものだ。
しかし、現代のトラッカーはいまだに邪魔者の存在に苦戦している。
我々は、より洗練されたメモリモデルが必要であり、SAM2の新しいイントラクタ対応メモリモデルと、セグメンテーション精度とロバスト性に共同で対処するイントロスペクションベースの更新戦略を提案する。
結果のトラッカーはSAM2.1++と表記される。
また,ディストラクタ問題をよりよく研究するために,新しいディストラクタ蒸留DiDiデータセットを提案する。
SAM2.1++はSAM2.1と関連するSAMメモリ拡張を7つのベンチマークで上回り、6つのベンチマークで新しい最先端を設定できる。
関連論文リスト
- SAMURAI: Adapting Segment Anything Model for Zero-Shot Visual Tracking with Motion-Aware Memory [23.547018300192065]
本稿では,視覚的物体追跡に特化して設計されたSAM 2を改良したSAmuraiを紹介する。
提案した動き認識メモリ選択機構に時間的動作手がかりを組み込むことで、物体の動きを効果的に予測し、マスク選択を洗練し、トレーニングや微調整を必要とせず、堅牢で正確なトラッキングを実現する。
評価では、既存のトラッカーよりも成功率と精度が大幅に向上し、LaSOT$_ext$で7.1%、GOT-10kで3.5%向上した。
論文 参考訳(メタデータ) (2024-11-18T05:59:03Z) - SAM2Long: Enhancing SAM 2 for Long Video Segmentation with a Training-Free Memory Tree [79.26409013413003]
SAM2Longは、トレーニング不要のビデオオブジェクトセグメンテーションを改良した手法である。
各フレーム内のセグメンテーションの不確実性を考慮し、複数のセグメンテーション経路からビデオレベルの最適結果を選択する。
SAM2Longは、24の頭対頭比較で平均3.0点の改善を実現している。
論文 参考訳(メタデータ) (2024-10-21T17:59:19Z) - From SAM to SAM 2: Exploring Improvements in Meta's Segment Anything Model [0.5639904484784127]
Segment Anything Model (SAM)は、2023年4月にMetaによってコンピュータビジョンコミュニティに導入された。
SAMはゼロショットのパフォーマンスに優れ、追加のトレーニングなしで見えないオブジェクトをセグメンテーションする。
SAM 2は、この機能をビデオに拡張し、前および後続のフレームからのメモリを活用して、ビデオ全体にわたって正確なセグメンテーションを生成する。
論文 参考訳(メタデータ) (2024-08-12T17:17:35Z) - TF-SASM: Training-free Spatial-aware Sparse Memory for Multi-object Tracking [6.91631684487121]
コンピュータビジョンにおけるマルチオブジェクト追跡(MOT)は依然として重要な課題であり、ビデオシーケンス内の複数のオブジェクトの正確な位置決めと連続的な追跡が必要である。
本稿では,オブジェクトの動きと重なり合う認識に基づいて,重要な特徴を選択的に記憶するメモリベースの新しいアプローチを提案する。
提案手法はDanceTrackテストセットのMOTRv2よりも有意に改善し,AsAスコアが2.0%,IFF1スコアが2.1%向上した。
論文 参考訳(メタデータ) (2024-07-05T07:55:19Z) - FocSAM: Delving Deeply into Focused Objects in Segmenting Anything [58.042354516491024]
Segment Anything Model (SAM)はセグメンテーションモデルにおいて注目すべきマイルストーンである。
2つの重要な側面に基づいてパイプラインを再設計したFocSAMを提案する。
まず,Dwin-MSA(Dynamic Window Multi-head Self-Attention)を提案する。
次に,Pixel-wise Dynamic ReLU (P-DyReLU)を提案する。
論文 参考訳(メタデータ) (2024-05-29T02:34:13Z) - Recurrent Dynamic Embedding for Video Object Segmentation [54.52527157232795]
一定サイズのメモリバンクを構築するためにRDE(Recurrent Dynamic Embedding)を提案する。
本稿では, SAM を長時間の動画でより堅牢にするため, トレーニング段階での無バイアス誘導損失を提案する。
また、メモリバンクの異なる品質のマスクの埋め込みをネットワークが修復できるように、新たな自己補正戦略を設計する。
論文 参考訳(メタデータ) (2022-05-08T02:24:43Z) - Learning Dynamic Compact Memory Embedding for Deformable Visual Object
Tracking [82.34356879078955]
本稿では,セグメント化に基づく変形可能な視覚追跡手法の識別を強化するために,コンパクトなメモリ埋め込みを提案する。
DAVIS 2017ベンチマークでは,D3SやSiamMaskなどのセグメンテーションベースのトラッカーよりも優れている。
論文 参考訳(メタデータ) (2021-11-23T03:07:12Z) - Online Multiple Object Tracking with Cross-Task Synergy [120.70085565030628]
位置予測と埋め込み結合の相乗効果を考慮した新しい統一モデルを提案する。
この2つのタスクは、時間認識対象の注意と注意の注意、およびアイデンティティ認識メモリ集約モデルによってリンクされる。
論文 参考訳(メタデータ) (2021-04-01T10:19:40Z) - DMV: Visual Object Tracking via Part-level Dense Memory and Voting-based
Retrieval [61.366644088881735]
DMVと呼ばれる部分レベル高密度メモリと投票ベースの検索による新しいメモリベースのトラッカーを提案する。
また,メモリの信頼できない情報をフィルタリングする新たな投票機構を提案する。
論文 参考訳(メタデータ) (2020-03-20T10:05:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。