論文の概要: Decoupled Spatio-Temporal Consistency Learning for Self-Supervised Tracking
- arxiv url: http://arxiv.org/abs/2507.21606v1
- Date: Tue, 29 Jul 2025 09:04:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:55.954154
- Title: Decoupled Spatio-Temporal Consistency Learning for Self-Supervised Tracking
- Title(参考訳): 自己教師付きトラッキングのための分散時空間一貫性学習
- Authors: Yaozong Zheng, Bineng Zhong, Qihua Liang, Ning Li, Shuxiang Song,
- Abstract要約: ボックスアノテーションを不要にするために,textbftrackerというセルフスーパービジョントラッキングフレームワークを提案する。
GOT10K, LaSOT, TrackingNetデータセットのAUC(AO)スコアが25.3%, 20.4%, 14.8%向上した。
- 参考スコア(独自算出の注目度): 12.910676293067231
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The success of visual tracking has been largely driven by datasets with manual box annotations. However, these box annotations require tremendous human effort, limiting the scale and diversity of existing tracking datasets. In this work, we present a novel Self-Supervised Tracking framework named \textbf{{\tracker}}, designed to eliminate the need of box annotations. Specifically, a decoupled spatio-temporal consistency training framework is proposed to learn rich target information across timestamps through global spatial localization and local temporal association. This allows for the simulation of appearance and motion variations of instances in real-world scenarios. Furthermore, an instance contrastive loss is designed to learn instance-level correspondences from a multi-view perspective, offering robust instance supervision without additional labels. This new design paradigm enables {\tracker} to effectively learn generic tracking representations in a self-supervised manner, while reducing reliance on extensive box annotations. Extensive experiments on nine benchmark datasets demonstrate that {\tracker} surpasses \textit{SOTA} self-supervised tracking methods, achieving an improvement of more than 25.3\%, 20.4\%, and 14.8\% in AUC (AO) score on the GOT10K, LaSOT, TrackingNet datasets, respectively. Code: https://github.com/GXNU-ZhongLab/SSTrack.
- Abstract(参考訳): ビジュアルトラッキングの成功は、主に手動のボックスアノテーションによるデータセットによって支えられている。
しかし、これらのボックスアノテーションは、既存のトラッキングデータセットのスケールと多様性を制限し、多大な人的労力を必要とする。
本稿では,ボックスアノテーションの不要化を目的とした,新しいセルフスーパービジョントラッキングフレームワークであるtextbf{{\tracker}}を提案する。
具体的には,グローバルな空間的局所化と局所的時間的関連性を通じて,タイムスタンプをまたいだリッチな目標情報を学習するための分散時空間整合性トレーニングフレームワークを提案する。
これにより、現実世界のシナリオにおけるインスタンスの外観や動きの変化のシミュレーションが可能になる。
さらに、マルチビューの観点からインスタンスレベルの対応を学習するように設計されており、ラベルを追加せずに堅牢なインスタンス管理を提供する。
この新たな設計パラダイムは、広範囲なボックスアノテーションへの依存を低減しつつ、自己教師付きでジェネリックトラッキング表現を効果的に学習することを可能にする。
9つのベンチマークデータセットに対する大規模な実験により、 {\tracker} は、それぞれ GOT10K, LaSOT, TrackingNet データセット上の AUC (AO) スコアの 25.3\%, 20.4\%, 14.8\% 以上の改善を達成している。
コード:https://github.com/GXNU-ZhongLab/SSTrack.com
関連論文リスト
- Unified People Tracking with Graph Neural Networks [39.22185669123208]
我々は、検出を軌跡に関連付けることを学ぶ多人数追跡のための統一的で完全に差別化可能なモデルを提案する。
モデルは動的グラフを構築し、空間的、文脈的、時間的情報を集約する。
また,25の重なり合うビュー,詳細なシーン再構築,広範囲なオクルージョンを備えた新しいスケールデータセットも導入した。
論文 参考訳(メタデータ) (2025-07-11T11:17:25Z) - SPAMming Labels: Efficient Annotations for the Trackers of Tomorrow [35.76243023101549]
SPAMは、人間の介入を最小限に抑えた高品質なラベルを提供するビデオラベルエンジンである。
我々は統合グラフの定式化を用いて、トラックの検知と同一性関連の両方のアノテーションに時間をかけて対処する。
我々はSPAMラベルでトレーニングされたトラッカーが人間のアノテーションでトレーニングされたトラッカーに匹敵する性能を発揮することを示した。
論文 参考訳(メタデータ) (2024-04-17T14:33:41Z) - Learning Tracking Representations from Single Point Annotations [49.47550029470299]
本稿では,単一点アノテーションから追跡表現を弱教師付きで学習することを提案する。
具体的には,エンド・ツー・エンド・エンド・コントラスト学習に先立って,対象対象対象性を取り入れたソフトコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-15T06:50:58Z) - ACTrack: Adding Spatio-Temporal Condition for Visual Object Tracking [0.5371337604556311]
視覚的物体追跡(VOT)において,物体の時間的関係を効果的にモデル化することが重要な課題である
既存の手法は外観に基づく類似性や長期関係モデリングによって追跡され、連続するフレーム間の時間的コンテキストは容易に見過ごされてしまう。
本稿では,大規模な記憶条件を持つ付加的前時間追跡フレームワークであるACTrackについて述べる。このフレームワークは,そのパラメータを凍結することにより,トレーニング済みバックボーンの品質と性能を保ち,トラッキングにおける時間関係をモデル化するためのトレーニング可能な軽量付加性ネットを作成する。
我々は空間的特徴と時間的順序の整合性を確保するための付加的なシアム畳み込みネットワークを設計する。
論文 参考訳(メタデータ) (2024-02-27T07:34:08Z) - End-to-end Tracking with a Multi-query Transformer [96.13468602635082]
マルチオブジェクトトラッキング(MOT)は、時間とともにシーン内のオブジェクトの位置、外観、アイデンティティを同時に推論する必要がある課題である。
本研究の目的は、トラッキング・バイ・ディテクト・アプローチを超えて、未知のオブジェクト・クラスに対してもよく機能するクラスに依存しないトラッキングへと移行することである。
論文 参考訳(メタデータ) (2022-10-26T10:19:37Z) - Dynamic Supervisor for Cross-dataset Object Detection [52.95818230087297]
オブジェクト検出タスクにおけるデータセット間のトレーニングは、データセットにまたがるカテゴリ内の不整合が、完全に教師付き学習を半教師付き学習に変換するため、複雑である。
本稿では,ハードラベルとソフトラベルを併用した複数更新サブモデルを用いて,アノテーションを複数回更新する動的スーパーバイザフレームワークを提案する。
最終生成アノテーションでは、ハードラベルトレーニングとソフトラベルトレーニングを統合することで、リコールと精度が大幅に向上した。
論文 参考訳(メタデータ) (2022-04-01T03:18:46Z) - Video Annotation for Visual Tracking via Selection and Refinement [74.08109740917122]
ビデオシーケンスのバウンディングボックスアノテーションを容易にするための新しいフレームワークを提案する。
目標位置の時間的コヒーレンスを捉えることのできる時間的アセスメントネットワークを提案する。
また、選択したトラッキング結果をさらに強化するために、ビジュアルジオメトリ・リファインメント・ネットワークが設計されている。
論文 参考訳(メタデータ) (2021-08-09T05:56:47Z) - Learning to Track with Object Permanence [61.36492084090744]
共同物体の検出と追跡のためのエンドツーエンドのトレーニング可能なアプローチを紹介します。
私たちのモデルは、合成データと実データで共同トレーニングされ、KITTIおよびMOT17データセットの最先端を上回ります。
論文 参考訳(メタデータ) (2021-03-26T04:43:04Z) - A Closer Look at Temporal Sentence Grounding in Videos: Datasets and
Metrics [70.45937234489044]
2つの広く使用されているTSGVデータセット(Charades-STAとActivityNet Captions)を再編成し、トレーニング分割と異なるものにします。
基本的なIoUスコアを校正するために、新しい評価基準「dR@$n$,IoU@$m$」を導入する。
すべての結果は、再編成されたデータセットと新しいメトリクスがTSGVの進捗をよりよく監視できることを示している。
論文 参考訳(メタデータ) (2021-01-22T09:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。