論文の概要: Improving Siamese Based Trackers with Light or No Training through Multiple Templates and Temporal Network
- arxiv url: http://arxiv.org/abs/2211.13812v2
- Date: Tue, 15 Oct 2024 07:42:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 13:58:19.185100
- Title: Improving Siamese Based Trackers with Light or No Training through Multiple Templates and Temporal Network
- Title(参考訳): 複数テンプレートとテンポラルネットワークによる光・非トレーニングによるシームズベースのトラッカーの改善
- Authors: Ali Sekhavati, Won-Sook Lee,
- Abstract要約: 我々は,シームズをベースとしたトラッカーに2つのアイデアを持つフレームワークを提案する。
i) ネットワークの再トレーニングの必要性を取り除く方法で、テンプレートの数を拡張すること。
(II) 地域情報とグローバル情報の両方に焦点をあてた新しいアーキテクチャを持つ軽量時間ネットワーク。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: High computational power and significant time are usually needed to train a deep learning based tracker on large datasets. Depending on many factors, training might not always be an option. In this paper, we propose a framework with two ideas on Siamese-based trackers. (i) Extending number of templates in a way that removes the need to retrain the network and (ii) a lightweight temporal network with a novel architecture focusing on both local and global information that can be used independently from trackers. Most Siamese-based trackers only rely on the first frame as the ground truth for objects and struggle when the target's appearance changes significantly in subsequent frames in presence of similar distractors. Some trackers use multiple templates which mostly rely on constant thresholds to update, or they replace those templates that have low similarity scores only with more similar ones. Unlike previous works, we use adaptive thresholds that update the bag with similar templates as well as those templates which are slightly diverse. Adaptive thresholds also cause an overall improvement over constant ones. In addition, mixing feature maps obtained by each template in the last stage of networks removes the need to retrain trackers. Our proposed lightweight temporal network, CombiNet, learns the path history of different objects using only object coordinates and predicts target's potential location in the next frame. It is tracker independent and applying it on new trackers does not need further training. By implementing these ideas, trackers' performance improved on all datasets tested on, including LaSOT, LaSOT extension, TrackingNet, OTB100, OTB50, UAV123 and UAV20L. Experiments indicate the proposed framework works well with both convolutional and transformer-based trackers. The official python code for this paper will be publicly available upon publication.
- Abstract(参考訳): 大規模データセット上でのディープラーニングベースのトラッカーのトレーニングには,高計算能力と大幅な時間が必要である。
多くの要因によっては、トレーニングが必ずしも選択肢であるとは限らない。
本稿では,シームズをベースとしたトラッカーに2つのアイデアを取り入れたフレームワークを提案する。
(i)ネットワークを再トレーニングする必要をなくし、テンプレートの数を拡張すること。
(II) トラッカーから独立して使用できるローカル情報とグローバル情報の両方に着目した,新しいアーキテクチャを持つ軽量時間ネットワーク。
シームズをベースとしたほとんどのトラッカーは第1フレームのみをオブジェクトの真理と闘いの基礎として頼りにしている。
一部のトラッカーは、更新のしきい値に大きく依存する複数のテンプレートを使用するか、類似度が低いテンプレートを、より類似したテンプレートに置き換える。
以前の作業とは異なり、我々は適応しきい値を使用して、バッグを似たようなテンプレートで更新します。
適応しきい値はまた、一定値よりも全体的な改善をもたらす。
さらに、各テンプレートが取得した特徴マップをネットワークの最後の段階で混合することで、トラッカーを再トレーニングする必要がなくなる。
提案する軽量時間ネットワークCombiNetは,オブジェクト座標のみを用いて異なるオブジェクトの経路履歴を学習し,次のフレームにおけるターゲットの潜在的な位置を予測する。
トラッカーは独立しており、新たなトラッカーに適用しても追加のトレーニングは不要である。
これらのアイデアを実装することで、LaSOT、LaSOT拡張、TrackingNet、TB100、TB50、UAV123、UAV20Lなど、テスト対象の全データセットのパフォーマンスが改善された。
実験により、提案フレームワークは畳み込みとトランスフォーマーベースのトラッカーの両方でうまく動作することが示された。
本論文の公式パイソンコードは,公開時に公開される予定である。
関連論文リスト
- Motion-to-Matching: A Mixed Paradigm for 3D Single Object Tracking [27.805298263103495]
本稿では,モーションモデリングと特徴マッチングを組み合わせたMTM-Trackerを提案する。
第1段階では、連続した履歴ボックスを先行動作として利用し、ターゲットの粗い位置を特定するエンコーダ・デコーダ構造を提案する。
第2段階では、連続する点雲から動きを認識する特徴を抽出し、それらをマッチングして目標運動を洗練させる特徴相互作用モジュールを導入する。
論文 参考訳(メタデータ) (2023-08-23T02:40:51Z) - MBPTrack: Improving 3D Point Cloud Tracking with Memory Networks and Box
Priors [59.55870742072618]
3Dオブジェクトトラッキングは、自律運転など多くのアプリケーションにおいて、何十年にもわたって重要な問題となっている。
本稿では,過去の情報を活用するメモリ機構を採用したMBPTrackを提案する。
論文 参考訳(メタデータ) (2023-03-09T07:07:39Z) - Target-Aware Tracking with Long-term Context Attention [8.20858704675519]
長期的コンテキストアテンション(LCA)モジュールは、長期的フレームからターゲットとそのコンテキストについて広範な情報融合を行うことができる。
LCAは、類似したオブジェクトや複雑な背景の干渉を排除するために、以前のフレームからターゲット状態を使用する。
トラッカーは, 71.1%のAUC, 89.3%のNP, 73.0%のAOをLaSOT, TrackingNet, GOT-10kで実現した。
論文 参考訳(メタデータ) (2023-02-27T14:40:58Z) - Single Object Tracking through a Fast and Effective Single-Multiple
Model Convolutional Neural Network [0.0]
最近の最先端の(SOTA)アプローチは、エリア内の他のオブジェクトとターゲットを区別するために重い構造を持つマッチングネットワークを取ることに基づいて提案されています。
本稿では,これまでのアプローチとは対照的に,一つのショットで物体の位置を識別できる特殊なアーキテクチャを提案する。
提示されたトラッカーは、1080tiで最大120 fps$の超高速で、挑戦的な状況でsomaと比較してパフォーマンスする。
論文 参考訳(メタデータ) (2021-03-28T11:02:14Z) - Multiple Convolutional Features in Siamese Networks for Object Tracking [13.850110645060116]
Multiple Features-Siamese Tracker (MFST) は、ロバストな追跡のために複数の階層的な特徴マップを利用する新しい追跡アルゴリズムである。
MFSTは、オブジェクト追跡ベンチマークにおいて標準のサイメムトラッカーよりも高いトラッキング精度を達成する。
論文 参考訳(メタデータ) (2021-03-01T08:02:27Z) - MFST: Multi-Features Siamese Tracker [13.850110645060116]
Multi-Features Siamese Tracker (MFST) は、複数の階層的特徴マップを利用して、頑健な類似性追跡を行う新しい追跡アルゴリズムである。
MFSTは、標準的なシームズトラッカーを含む最先端のトラッカーよりも高いトラッキング精度を実現している。
論文 参考訳(メタデータ) (2021-03-01T07:18:32Z) - Graph Attention Tracking [76.19829750144564]
汎用オブジェクト追跡のための簡易な目標認識型シームズグラフアテンションネットワークを提案する。
GOT-10k、UAV123、TB-100、LaSOTといった挑戦的なベンチマークの実験は、提案されたSiamGATが最先端のトラッカーよりも優れていることを示した。
論文 参考訳(メタデータ) (2020-11-23T04:26:45Z) - Learning Spatio-Appearance Memory Network for High-Performance Visual
Tracking [79.80401607146987]
既存のオブジェクトトラッキングは通常、フレーム間の視覚的ターゲットにマッチするバウンディングボックスベースのテンプレートを学習する。
本稿では,局所時間メモリネットワークを備え,正確な時空間対応を学習するセグメンテーションに基づくトラッキングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-09-21T08:12:02Z) - Efficient Adversarial Attacks for Visual Object Tracking [73.43180372379594]
本稿では,新たなドリフト損失と組込み機能損失を併用して,シームズネットワークベースのトラッカーを攻撃するエンド・ツー・エンド・エンド・ネットワークFANを提案する。
単一のGPUの下では、FANはトレーニング速度が効率的で、強力な攻撃性能を持つ。
論文 参考訳(メタデータ) (2020-08-01T08:47:58Z) - Ocean: Object-aware Anchor-free Tracking [75.29960101993379]
アンカーベース手法の回帰ネットワークは、正のアンカーボックスでのみ訓練される。
本稿では,この問題に対処する新しいオブジェクト認識型アンカーフリーネットワークを提案する。
我々のアンカーフリートラッカーは5つのベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-06-18T17:51:39Z) - TAO: A Large-Scale Benchmark for Tracking Any Object [95.87310116010185]
オブジェクトのデータセットの追跡は2,907本の高解像度ビデオで構成され、平均で30分の長さの多様な環境でキャプチャされる。
ビデオの任意の時点で移動するオブジェクトにアノテータにラベルを付け、ファクトラムの後に名前を付けるように求めます。
我々の語彙は、既存の追跡データセットと著しく大きく、質的に異なる。
論文 参考訳(メタデータ) (2020-05-20T21:07:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。