論文の概要: Boosting Self-Supervised Tracking with Contextual Prompts and Noise Learning
- arxiv url: http://arxiv.org/abs/2605.06092v1
- Date: Thu, 07 May 2026 12:12:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.753902
- Title: Boosting Self-Supervised Tracking with Contextual Prompts and Noise Learning
- Title(参考訳): 文脈的プロンプトと雑音学習による自己監督型トラッキングの強化
- Authors: Yaozong Zheng, Qihua Liang, Bineng Zhong, Shuimu Zeng, Yuanliang Xue, Ning Li, Shuxiang Song,
- Abstract要約: 本研究では,より詳細なセマンティックプロンプトとコンテキストノイズを併用して,ロバストなトラッキング表現を学習するための,新しい自己教師付きトラッキングフレームワークであるtextbftrackerを提案する。
提案手法は,トレーニング中にのみ適用され,効率的な推論を保ちながら,ラベル付きビデオから高品質な追跡表現を学習することを可能にする。
- 参考スコア(独自算出の注目度): 35.23193821692872
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning robust contextual knowledge from unlabeled videos is essential for advancing self-supervised tracking. However, conventional self-supervised trackers lack effective context modeling, while existing context association methods based on non-semantic queries struggle to adapt to unlabeled tracking scenarios, making it difficult to learn reliable contextual cues. In this work, we propose a novel self-supervised tracking framework, named \textbf{\tracker}, which introduces a dual-modal context association mechanism that jointly leverages fine-grained semantic prompts and contextual noise to drive the model toward learning robust tracking representations. Adherent to the easy-to-hard learning principle, our contextual association mechanism operates based on two stages. During early training, instance patch tokens (prompts) are assigned to both forward and backward tracking branches to facilitate the acquisition of tracking knowledge. As training progresses, contextual noise is gradually injected into the model to perturb feature, encouraging the tracker to learn robust tracking representations in a more complex feature space. Thus, this novel contextual association mechanism enables our self-supervised model to learn high-quality tracking representations from unlabeled videos, while being applied exclusively during training to preserve efficient inference. Extensive experiments demonstrate the superiority of our method.
- Abstract(参考訳): ラベルのないビデオから堅牢な文脈知識を学ぶことは、自己教師付きトラッキングを進める上で不可欠である。
しかし、従来の自己教師付きトラッカーには効果的なコンテキストモデリングが欠けており、非セマンティッククエリに基づく既存のコンテキストアソシエーション手法では、ラベル付けされていないトラッキングシナリオに適応することが困難であり、信頼性の高いコンテキストキューの学習が困難である。
本研究では,より詳細なセマンティックプロンプトとコンテキストノイズを併用して,ロバストなトラッキング表現の学習に向けてモデルを駆動するデュアルモーダルなコンテキストアソシエーション機構を提案する。
難易度学習の原則に従えば、文脈関連機構は2つの段階に基づいて機能する。
早期トレーニングでは、追跡知識の取得を容易にするために、前方と後方の両方にインスタンスパッチトークン(prompt)が割り当てられる。
トレーニングが進むにつれて、コンテキストノイズが徐々にモデルに注入され、より複雑な特徴空間でロバストな追跡表現を学習するようにトラッカーに促される。
このように、この新たなコンテキストアソシエーション機構により、トレーニング中にのみ適用され、効率的な推論を保ちながら、ラベルのないビデオから高品質な追跡表現を学習することができる。
大規模な実験により,本手法の優位性を実証した。
関連論文リスト
- Interactive Tracking: A Human-in-the-Loop Paradigm with Memory-Augmented Adaptation [60.96010213186819]
自然言語コマンドを使用していつでもトラッカーをガイドできる新しいパラダイムであるInteractive Trackingを導入する。
対話型トラッキングのための最初の大規模ベンチマークであるInteractTrackについて紹介する。
第3に,ユーザからのフィードバックから学習し,トラッキング動作を更新するために動的メモリ機構を利用する新しいベースラインであるInteractive Memory-Augmented Tracking (IMAT)を導入する。
論文 参考訳(メタデータ) (2026-04-02T12:33:27Z) - Less is More: Token Context-aware Learning for Object Tracking [20.222950380244377]
LMTrackはトークンコンテキスト対応トラッキングパイプラインである。
効率的な視覚追跡のために、高品質な参照トークンを自動的に学習する。
GOT-10K、TrackingNet、LaSOTなどのトラッキングベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2025-01-01T07:05:31Z) - SynCL: A Synergistic Training Strategy with Instance-Aware Contrastive Learning for End-to-End Multi-Camera 3D Tracking [34.90147791481045]
SynCLは、検出と追跡のためのマルチタスク学習を共用するために設計された、新しいプラグアンドプレイのシナジスティックトレーニング戦略である。
重み付きクロスアテンションに基づくデコーダのためのタスク固有ハイブリッドマッチングモジュールを提案する。
また、追跡クエリに対する自己中心的な注意の障壁を突破するために、インスタンス対応のContrastive Learningを導入します。
論文 参考訳(メタデータ) (2024-11-11T08:18:49Z) - Visual Self-paced Iterative Learning for Unsupervised Temporal Action Localization [50.48350210022611]
本稿では,クラスタリングとローカライズトレーニングを同時に行うための,自己ペースの反復学習モデルを提案する。
我々は,2つの段階的なインスタンス学習戦略を設計し,ビデオ擬似ラベルの信頼性を確保する。
論文 参考訳(メタデータ) (2023-12-12T16:00:55Z) - Towards Sequence-Level Training for Visual Tracking [60.95799261482857]
本研究は、強化学習に基づく視覚追跡のためのシーケンスレベルのトレーニング戦略を導入する。
4つの代表的な追跡モデル、SiamRPN++、SiamAttn、TransT、TrDiMPは、提案手法をトレーニングに取り入れることで一貫して改善されている。
論文 参考訳(メタデータ) (2022-08-11T13:15:36Z) - Learning Actor-centered Representations for Action Localization in
Streaming Videos using Predictive Learning [18.757368441841123]
ストリーミングビデオのアクションの認識やローカライズなどのイベント認識タスクは、視覚的な理解タスクに取り組む上で不可欠です。
我々は,連続的階層的予測学習という概念を通じて,テクスタクタ中心の表現を学習する問題に取り組む。
イベント知覚の認知理論に触発され、新しい自己監督型フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-29T06:06:58Z) - Learning to Track Instances without Video Annotations [85.9865889886669]
本稿では,ラベル付き画像データセットとラベルなしビデオシーケンスのみを用いたインスタンス追跡ネットワークを学習する,新しい半教師付きフレームワークを提案する。
画像のみを訓練しても,学習した特徴表現は出現の変動にロバストであることが判明した。
さらに、このモジュールを単一ステージのインスタンスセグメンテーションとポーズ推定フレームワークに統合します。
論文 参考訳(メタデータ) (2021-04-01T06:47:41Z) - Unsupervised Deep Representation Learning for Real-Time Tracking [137.69689503237893]
視覚追跡のための教師なし学習手法を提案する。
教師なし学習の動機は、ロバストなトラッカーが双方向トラッキングに有効であるべきだということです。
我々は,シームズ相関フィルタネットワーク上にフレームワークを構築し,教師なし学習を容易にするために,多フレーム検証方式とコスト感受性損失を提案する。
論文 参考訳(メタデータ) (2020-07-22T08:23:12Z) - Self-supervised Video Object Segmentation [76.83567326586162]
本研究の目的は、半教師付きビデオオブジェクトセグメンテーション(高密度トラッキング)の解決を目的とした自己教師付き表現学習である。
i) 従来の自己教師型アプローチを改善すること、(ii) オンライン適応モジュールによる自己教師型アプローチの強化により、空間的時間的不連続性によるトラッカーのドリフトを緩和すること、(iv) DAVIS-2017とYouTubeの自己教師型アプローチで最先端の結果を示すこと、などが提案されている。
論文 参考訳(メタデータ) (2020-06-22T17:55:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。