論文の概要: Less is More: Token Context-aware Learning for Object Tracking
- arxiv url: http://arxiv.org/abs/2501.00758v1
- Date: Wed, 01 Jan 2025 07:05:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:14:28.332517
- Title: Less is More: Token Context-aware Learning for Object Tracking
- Title(参考訳): 詳細:Token Context-Aware Learning for Object Tracking
- Authors: Chenlong Xu, Bineng Zhong, Qihua Liang, Yaozong Zheng, Guorong Li, Shuxiang Song,
- Abstract要約: LMTrackはトークンコンテキスト対応トラッキングパイプラインである。
効率的な視覚追跡のために、高品質な参照トークンを自動的に学習する。
GOT-10K、TrackingNet、LaSOTなどのトラッキングベンチマークで最先端の結果を得る。
- 参考スコア(独自算出の注目度): 20.222950380244377
- License:
- Abstract: Recently, several studies have shown that utilizing contextual information to perceive target states is crucial for object tracking. They typically capture context by incorporating multiple video frames. However, these naive frame-context methods fail to consider the importance of each patch within a reference frame, making them susceptible to noise and redundant tokens, which deteriorates tracking performance. To address this challenge, we propose a new token context-aware tracking pipeline named LMTrack, designed to automatically learn high-quality reference tokens for efficient visual tracking. Embracing the principle of Less is More, the core idea of LMTrack is to analyze the importance distribution of all reference tokens, where important tokens are collected, continually attended to, and updated. Specifically, a novel Token Context Memory module is designed to dynamically collect high-quality spatio-temporal information of a target in an autoregressive manner, eliminating redundant background tokens from the reference frames. Furthermore, an effective Unidirectional Token Attention mechanism is designed to establish dependencies between reference tokens and search frame, enabling robust cross-frame association and target localization. Extensive experiments demonstrate the superiority of our tracker, achieving state-of-the-art results on tracking benchmarks such as GOT-10K, TrackingNet, and LaSOT.
- Abstract(参考訳): 近年,対象状態を認識するための文脈情報の利用が,物体追跡に不可欠であることが研究で示されている。
通常は複数のビデオフレームを組み込むことでコンテキストをキャプチャする。
しかし、これらの単純なフレームコンテキスト法は、参照フレーム内の各パッチの重要性を考慮せず、ノイズや冗長トークンの影響を受けやすく、トラッキング性能が低下する。
この課題に対処するため、我々はLMTrackという新しいトークンコンテキスト対応トラッキングパイプラインを提案し、高品質な参照トークンを自動的に学習し、効率的な視覚的トラッキングを実現する。
Less is Moreの原則を受け入れること LMTrackの中核となる考え方は、重要なトークンが収集され、継続的に参加され、更新されるすべての参照トークンの重要分散を分析することである。
具体的には、新しいToken Context Memoryモジュールは、参照フレームから冗長な背景トークンを排除し、ターゲットの高品質な時空間情報を自動回帰的に動的に収集するように設計されている。
さらに,参照トークンと検索フレーム間の依存関係を確立するための効果的な一方向トークン注意機構を設計し,ロバストなクロスフレームアソシエーションとターゲットローカライゼーションを実現する。
GOT-10K, TrackingNet, LaSOTなどの追跡ベンチマークにおいて, トラッカーの優位性を実証し, 最先端の結果を得た。
関連論文リスト
- RTracker: Recoverable Tracking via PN Tree Structured Memory [71.05904715104411]
本稿では,木構造メモリを用いてトラッカーと検出器を動的に関連付け,自己回復を可能にするRTrackerを提案する。
具体的には,正負と負のターゲットサンプルを時系列に保存し,維持する正負のツリー構造メモリを提案する。
我々の中核となる考え方は、正と負の目標カテゴリーの支持サンプルを用いて、目標損失の信頼性評価のための相対的距離に基づく基準を確立することである。
論文 参考訳(メタデータ) (2024-03-28T08:54:40Z) - Optimized Information Flow for Transformer Tracking [0.7199733380797579]
ワンストリームトランスフォーマートラッカーは、挑戦的なベンチマークデータセットで優れたパフォーマンスを示している。
トラッカーの識別能力を高めるための新しいOIFTrackフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-13T03:39:15Z) - Tracking with Human-Intent Reasoning [64.69229729784008]
この作業では、新しいトラッキングタスクであるインストラクショントラッキングを提案している。
ビデオフレーム内で自動的にトラッキングを実行するようにトラッカーに要求する暗黙の追跡命令を提供する。
TrackGPTは複雑な推論ベースの追跡を行うことができる。
論文 参考訳(メタデータ) (2023-12-29T03:22:18Z) - iKUN: Speak to Trackers without Retraining [21.555469501789577]
市販トラッカーとの通信を実現するため,iKUNと呼ばれる挿入可能な知識統一ネットワークを提案する。
局所化精度を向上させるために,プロセスノイズを動的に調整するKalman filter (NKF) のニューラルバージョンを提案する。
また、パブリックなDanceTrackデータセットをモーションとドレッシング記述で拡張することで、より困難なデータセットであるRefer-Danceにもコントリビュートしています。
論文 参考訳(メタデータ) (2023-12-25T11:48:55Z) - Single-Shot and Multi-Shot Feature Learning for Multi-Object Tracking [55.13878429987136]
そこで本研究では,異なる目標に対して,単発と複数発の特徴を共同で学習するための,シンプルで効果的な2段階特徴学習パラダイムを提案する。
提案手法は,DanceTrackデータセットの最先端性能を達成しつつ,MOT17およびMOT20データセットの大幅な改善を実現している。
論文 参考訳(メタデータ) (2023-11-17T08:17:49Z) - Towards Unified Token Learning for Vision-Language Tracking [65.96561538356315]
本稿では,VL追跡をトークン生成タスクとして用いた「textbfMMTrack」という,視覚言語(VL)追跡パイプラインを提案する。
提案フレームワークは,言語記述と境界ボックスを離散トークン列にシリアライズする。
この新しい設計パラダイムでは、全てのトークンクエリが望ましいターゲットを認識し、ターゲットの空間座標を直接予測するために必要となる。
論文 参考訳(メタデータ) (2023-08-27T13:17:34Z) - Context-aware Visual Tracking with Joint Meta-updating [11.226947525556813]
本稿では,シーケンス全体に沿った情報を活用することで,両ブランチを共同でメタ更新する,表現空間上のトラッカーを最適化するコンテキスト認識追跡モデルを提案する。
提案手法は,VOT2018におけるEAOスコアの0.514を40FPSの速度で達成し,基礎となるトラッカーの精度とロバスト性を向上できることを示す。
論文 参考訳(メタデータ) (2022-04-04T14:16:00Z) - Learning Dynamic Compact Memory Embedding for Deformable Visual Object
Tracking [82.34356879078955]
本稿では,セグメント化に基づく変形可能な視覚追跡手法の識別を強化するために,コンパクトなメモリ埋め込みを提案する。
DAVIS 2017ベンチマークでは,D3SやSiamMaskなどのセグメンテーションベースのトラッカーよりも優れている。
論文 参考訳(メタデータ) (2021-11-23T03:07:12Z) - Tracking by Joint Local and Global Search: A Target-aware Attention
based Approach [63.50045332644818]
本研究では、ロバストな追跡のための局所的・グローバルな共同探索を行うための新たな目標認識型アテンション機構(TANet)を提案する。
具体的には、ターゲットオブジェクトパッチと連続ビデオフレームの特徴を抽出し、それらをデコーダネットワークに追従して、ターゲットを意識したグローバルアテンションマップを生成する。
追跡手順において、ロバストな追跡のための候補探索領域を探索することにより、ターゲット認識の注意を複数のトラッカーと統合する。
論文 参考訳(メタデータ) (2021-06-09T06:54:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。