論文の概要: Efficient Motion Prompt Learning for Robust Visual Tracking
- arxiv url: http://arxiv.org/abs/2505.16321v1
- Date: Thu, 22 May 2025 07:22:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.116122
- Title: Efficient Motion Prompt Learning for Robust Visual Tracking
- Title(参考訳): ロバストな視覚追跡のための効率的なモーションプロンプト学習
- Authors: Jie Zhao, Xin Chen, Yongsheng Yuan, Michael Felsberg, Dong Wang, Huchuan Lu,
- Abstract要約: 本稿では,軽量かつプラグアンドプレイなモーションプロンプトトラッキング手法を提案する。
既存の視覚ベースのトラッカーと簡単に統合して、共同トラッキングフレームワークを構築することができる。
7つのトラッキングベンチマークの実験により、提案したモーションモジュールは、視覚ベースのトラッカーのロバスト性を大幅に改善することが示された。
- 参考スコア(独自算出の注目度): 58.59714916705317
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the challenges of processing temporal information, most trackers depend solely on visual discriminability and overlook the unique temporal coherence of video data. In this paper, we propose a lightweight and plug-and-play motion prompt tracking method. It can be easily integrated into existing vision-based trackers to build a joint tracking framework leveraging both motion and vision cues, thereby achieving robust tracking through efficient prompt learning. A motion encoder with three different positional encodings is proposed to encode the long-term motion trajectory into the visual embedding space, while a fusion decoder and an adaptive weight mechanism are designed to dynamically fuse visual and motion features. We integrate our motion module into three different trackers with five models in total. Experiments on seven challenging tracking benchmarks demonstrate that the proposed motion module significantly improves the robustness of vision-based trackers, with minimal training costs and negligible speed sacrifice. Code is available at https://github.com/zj5559/Motion-Prompt-Tracking.
- Abstract(参考訳): 時間的情報処理の課題のため、ほとんどのトラッカーは視覚的識別性にのみ依存し、ビデオデータのユニークな時間的コヒーレンスを見落としている。
本稿では,軽量かつプラグアンドプレイなモーションプロンプトトラッキング手法を提案する。
既存の視覚ベースのトラッカーと簡単に統合して、動きと視力の両方を活用する共同追跡フレームワークを構築することで、効率的なプロンプト学習によるロバストなトラッキングを実現することができる。
3つの異なる位置エンコーディングを持つモーションエンコーダを提案し, 長期動作軌跡を視覚埋め込み空間に符号化し, 融合デコーダと適応重み機構を動的に融合させるように設計された。
モーションモジュールを5つのモデルを持つ3つの異なるトラッカーに統合する。
7つの挑戦的なトラッキングベンチマークの実験では、提案されたモーションモジュールは、最小のトレーニングコストと無視可能なスピード犠牲で、視覚ベースのトラッカーの堅牢性を大幅に向上することを示した。
コードはhttps://github.com/zj5559/Motion-Prompt-Tracking.comで公開されている。
関連論文リスト
- TrackNetV4: Enhancing Fast Sports Object Tracking with Motion Attention Maps [6.548400020461624]
本研究では,高次視覚特徴と学習可能な運動注意マップを融合させることにより,トラックネットファミリーの強化を実現する。
提案手法は,移動プロンプト層によって変調されたフレーム差分マップを利用して,時間とともに重要な動き領域をハイライトする。
我々は、既存のTrackNet上に構築された軽量のプラグイン・アンド・プレイソリューションをTrackNetV4と呼びます。
論文 参考訳(メタデータ) (2024-09-22T17:58:09Z) - Motion-Guided Dual-Camera Tracker for Endoscope Tracking and Motion Analysis in a Mechanical Gastric Simulator [5.073179848641095]
運動誘導型デュアルカメラ・ビジョン・トラッカーは内視鏡先端の3次元位置の頑健かつ正確な追跡を実現するために提案される。
提案したトラッカーは、最先端のビジョントラッカーに対して優れた性能を示し、平均誤差と最大誤差において、第2ベット法に対して42%と72%の改善を達成している。
論文 参考訳(メタデータ) (2024-03-08T08:31:46Z) - Delving into Motion-Aware Matching for Monocular 3D Object Tracking [81.68608983602581]
異なる時間軸に沿った物体の運動キューが3次元多物体追跡において重要であることが判明した。
3つの動き認識コンポーネントからなるフレームワークであるMoMA-M3Tを提案する。
我々はnuScenesとKITTIデータセットに関する広範な実験を行い、MoMA-M3Tが最先端の手法と競合する性能を発揮することを実証した。
論文 参考訳(メタデータ) (2023-08-22T17:53:58Z) - MotionTrack: Learning Motion Predictor for Multiple Object Tracking [68.68339102749358]
本研究では,学習可能なモーション予測器を中心に,新しいモーショントラッカーであるMotionTrackを紹介する。
実験結果から、MotionTrackはDancetrackやSportsMOTといったデータセット上での最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-06-05T04:24:11Z) - An Effective Motion-Centric Paradigm for 3D Single Object Tracking in
Point Clouds [50.19288542498838]
LiDARポイントクラウド(LiDAR SOT)における3Dシングルオブジェクトトラッキングは、自動運転において重要な役割を果たす。
現在のアプローチはすべて、外観マッチングに基づくシームズパラダイムに従っている。
我々は新たな視点からLiDAR SOTを扱うための動き中心のパラダイムを導入する。
論文 参考訳(メタデータ) (2023-03-21T17:28:44Z) - MotionTrack: Learning Robust Short-term and Long-term Motions for
Multi-Object Tracking [56.92165669843006]
本研究では,短時間から長期間の軌跡を関連づける統合フレームワークで,堅牢な短期・長期動作を学習するMotionTrackを提案する。
密集した群集に対して,各ターゲットの複雑な動きを推定できる,短時間の軌跡から相互作用認識動作を学習するための新しい対話モジュールを設計する。
極端なオクルージョンのために、ターゲットの履歴軌跡から信頼できる長期動作を学習するための新しいRefind Moduleを構築し、中断された軌跡とそれに対応する検出とを関連付けることができる。
論文 参考訳(メタデータ) (2023-03-18T12:38:33Z) - ChallenCap: Monocular 3D Capture of Challenging Human Performances using
Multi-Modal References [18.327101908143113]
今回提案するChallenCapは、単一のRGBカメラで難しい3D人間の動きをキャプチャするテンプレートベースのアプローチです。
我々は,マルチモーダル参照を用いた新しい学習・最適化フレームワークを採用する。
我々の新しい挑戦運動データセットの実験は、挑戦する人間の動きを捉えるアプローチの有効性と堅牢性を示している。
論文 参考訳(メタデータ) (2021-03-11T15:49:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。