論文の概要: SAMITE: Position Prompted SAM2 with Calibrated Memory for Visual Object Tracking
- arxiv url: http://arxiv.org/abs/2507.21732v1
- Date: Tue, 29 Jul 2025 12:11:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:56.1619
- Title: SAMITE: Position Prompted SAM2 with Calibrated Memory for Visual Object Tracking
- Title(参考訳): SAMITE: ビジュアルオブジェクト追跡のためのキャリブレーションメモリを備えたSAM2の位置プロンプト
- Authors: Qianxiong Xu, Lanyun Zhu, Chenxi Liu, Guosheng Lin, Cheng Long, Ziyue Li, Rui Zhao,
- Abstract要約: Visual Object Tracking (VOT)は、ビデオ内のターゲットを継続的に追跡する自律運転のようなアプリケーションで広く使われている。
これらの問題に対処するために、ビデオ基盤モデルSAM2をVOTに適用し、各フレームの追跡結果をメモリとして符号化し、残りのフレームを自己回帰的に条件付けする手法を提案する。
これらの課題に対処するために,SAM2 上にモジュールを追加して構築した SAMITE モデルを提案する。
- 参考スコア(独自算出の注目度): 58.35852822355312
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Object Tracking (VOT) is widely used in applications like autonomous driving to continuously track targets in videos. Existing methods can be roughly categorized into template matching and autoregressive methods, where the former usually neglects the temporal dependencies across frames and the latter tends to get biased towards the object categories during training, showing weak generalizability to unseen classes. To address these issues, some methods propose to adapt the video foundation model SAM2 for VOT, where the tracking results of each frame would be encoded as memory for conditioning the rest of frames in an autoregressive manner. Nevertheless, existing methods fail to overcome the challenges of object occlusions and distractions, and do not have any measures to intercept the propagation of tracking errors. To tackle them, we present a SAMITE model, built upon SAM2 with additional modules, including: (1) Prototypical Memory Bank: We propose to quantify the feature-wise and position-wise correctness of each frame's tracking results, and select the best frames to condition subsequent frames. As the features of occluded and distracting objects are feature-wise and position-wise inaccurate, their scores would naturally be lower and thus can be filtered to intercept error propagation; (2) Positional Prompt Generator: To further reduce the impacts of distractors, we propose to generate positional mask prompts to provide explicit positional clues for the target, leading to more accurate tracking. Extensive experiments have been conducted on six benchmarks, showing the superiority of SAMITE. The code is available at https://github.com/Sam1224/SAMITE.
- Abstract(参考訳): Visual Object Tracking (VOT)は、ビデオ内のターゲットを継続的に追跡する自律運転のようなアプリケーションで広く使われている。
既存の方法はテンプレートマッチングと自己回帰メソッドに大まかに分類することができ、前者はフレーム間の時間的依存関係を無視し、後者はトレーニング中にオブジェクトカテゴリに偏りを呈し、目に見えないクラスに対して弱い一般化性を示す。
これらの問題に対処するために、ビデオ基盤モデルSAM2をVOTに適用し、各フレームの追跡結果をメモリとして符号化し、残りのフレームを自己回帰的に条件付けする手法を提案する。
それでも、既存の手法は、オブジェクトの閉塞や妨害の難しさを克服できず、追跡エラーの伝播を妨害する手段も持っていない。
1) プロトタイプメモリバンク: 各フレームのトラッキング結果の特徴的および位置的正当性を定量化し, その後のフレームを条件付けするための最適なフレームを選択することを提案する。
物体を隠蔽する特徴が特徴的かつ位置的不正確なため、それらのスコアは自然に低くなり、エラー伝播を妨害するためにフィルタできる。(2)位置プロンプト発生器: イントラクタの影響をさらに軽減するために、位置マスキングプロンプトを生成し、目標に対して明確な位置的手がかりを提供することを提案し、より正確な追跡を行う。
6つのベンチマークで大規模な実験が行われ、SAMITEの優位性を示している。
コードはhttps://github.com/Sam1224/SAMITEで公開されている。
関連論文リスト
- SAM2RL: Towards Reinforcement Learning Memory Control in Segment Anything Model 2 [2.659882635924329]
Segment Anything Model 2 (SAM2) は、オブジェクトセグメンテーションタスクにおいて強力なパフォーマンスを示している。
最近の方法では、イントラクタやオブジェクトの動きをよりよく扱うために手作りの更新ルールでSAM 2を拡張している。
SAM 2におけるメモリ更新を最適化するための強化学習を用いた基本的なアプローチを提案する。
論文 参考訳(メタデータ) (2025-07-11T12:53:19Z) - A Distractor-Aware Memory for Visual Object Tracking with SAM2 [11.864619292028278]
メモリベースのトラッカー(英: Memory-based tracker)は、最近追跡されたフレームをメモリバッファに連結し、現在の画像をバッファされたフレームに到達させることでターゲットをローカライズすることにより、ターゲットモデルを形成するビデオオブジェクトセグメンテーション手法である。
SAM2.1++はSAM2.1と関連するSAMメモリ拡張を7つのベンチマークで上回り、6つのベンチマークで新しい最先端を設定できる。
論文 参考訳(メタデータ) (2024-11-26T16:41:09Z) - RTracker: Recoverable Tracking via PN Tree Structured Memory [71.05904715104411]
本稿では,木構造メモリを用いてトラッカーと検出器を動的に関連付け,自己回復を可能にするRTrackerを提案する。
具体的には,正負と負のターゲットサンプルを時系列に保存し,維持する正負のツリー構造メモリを提案する。
我々の中核となる考え方は、正と負の目標カテゴリーの支持サンプルを用いて、目標損失の信頼性評価のための相対的距離に基づく基準を確立することである。
論文 参考訳(メタデータ) (2024-03-28T08:54:40Z) - SAM-PD: How Far Can SAM Take Us in Tracking and Segmenting Anything in
Videos by Prompt Denoising [37.216493829454706]
ビデオ中のオブジェクトの追跡とセグメンテーションにセグメンション・任意のモデルを適用する可能性について検討する。
具体的には、次のフレームのプロンプトとして、前フレーム内の各オブジェクトのマスクのバウンディングボックスを反復的に伝播する。
そこで本研究では,SAMの位置と大きさの変動に対する認知能力を高めるために,マルチプロンプト戦略を提案する。
論文 参考訳(メタデータ) (2024-03-07T03:52:59Z) - SOOD: Towards Semi-Supervised Oriented Object Detection [57.05141794402972]
本稿では, 主流の擬似ラベリングフレームワーク上に構築された, SOOD と呼ばれる, 半教師付きオブジェクト指向物体検出モデルを提案する。
提案した2つの損失をトレーニングした場合,SOODはDOTA-v1.5ベンチマークの様々な設定下で,最先端のSSOD法を超越することを示した。
論文 参考訳(メタデータ) (2023-04-10T11:10:42Z) - Tracking by Associating Clips [110.08925274049409]
本稿では,オブジェクト関連をクリップワイドマッチングとして扱う方法を検討する。
我々の新しい視点では、1つの長いビデオシーケンスを複数のショートクリップとみなし、そのトラックはクリップ内とクリップ間の両方で実行される。
この新しい手法の利点は2つある。まず、ビデオチャンキングによって中断フレームをバイパスできるため、エラーの蓄積や伝播の追跡に頑健である。
次に、クリップワイドマッチング中に複数のフレーム情報を集約し、現在のフレームワイドマッチングよりも高精度な長距離トラックアソシエーションを実現する。
論文 参考訳(メタデータ) (2022-12-20T10:33:17Z) - Online Multiple Object Tracking with Cross-Task Synergy [120.70085565030628]
位置予測と埋め込み結合の相乗効果を考慮した新しい統一モデルを提案する。
この2つのタスクは、時間認識対象の注意と注意の注意、およびアイデンティティ認識メモリ集約モデルによってリンクされる。
論文 参考訳(メタデータ) (2021-04-01T10:19:40Z) - Cascaded Regression Tracking: Towards Online Hard Distractor
Discrimination [202.2562153608092]
本稿では,2段階の逐次回帰トラッカーを提案する。
第1段階では, 容易に同定可能な負の候補を抽出する。
第2段階では、残留するあいまいな硬質試料をダブルチェックするために、離散サンプリングに基づくリッジ回帰を設計する。
論文 参考訳(メタデータ) (2020-06-18T07:48:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。