論文の概要: PVT++: A Simple End-to-End Latency-Aware Visual Tracking Framework
- arxiv url: http://arxiv.org/abs/2211.11629v1
- Date: Mon, 21 Nov 2022 16:43:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 21:26:57.137355
- Title: PVT++: A Simple End-to-End Latency-Aware Visual Tracking Framework
- Title(参考訳): PVT++: シンプルなエンドツーエンドのレイテンシ対応ビジュアルトラッキングフレームワーク
- Authors: Bowen Li, Ziyuan Huang, Junjie Ye, Yiming Li, Sebastian Scherer, Hang
Zhao, Changhong Fu
- Abstract要約: 我々は、エンドツーエンドの遅延認識トラッキング、すなわち、エンドツーエンドの予測ビジュアルトラッキング(PVT++)のためのフレームワークを提案する。
PVT++は、ほとんどの最先端トラッカーをオンライン予測器を追加して予測トラッカーに変換することができる。
PVT++は、さまざまなトラッカーで最大60%のパフォーマンス向上を実現でき、以前のモデルベースソリューションよりも堅牢性が高い。
- 参考スコア(独自算出の注目度): 33.7932898514321
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual object tracking is an essential capability of intelligent robots. Most
existing approaches have ignored the online latency that can cause severe
performance degradation during real-world processing. Especially for unmanned
aerial vehicle, where robust tracking is more challenging and onboard
computation is limited, latency issue could be fatal. In this work, we present
a simple framework for end-to-end latency-aware tracking, i.e., end-to-end
predictive visual tracking (PVT++). PVT++ is capable of turning most
leading-edge trackers into predictive trackers by appending an online
predictor. Unlike existing solutions that use model-based approaches, our
framework is learnable, such that it can take not only motion information as
input but it can also take advantage of visual cues or a combination of both.
Moreover, since PVT++ is end-to-end optimizable, it can further boost the
latency-aware tracking performance by joint training. Additionally, this work
presents an extended latency-aware evaluation benchmark for assessing an
any-speed tracker in the online setting. Empirical results on robotic platform
from aerial perspective show that PVT++ can achieve up to 60% performance gain
on various trackers and exhibit better robustness than prior model-based
solution, largely mitigating the degradation brought by latency. Code and
models will be made public.
- Abstract(参考訳): 視覚物体追跡は知的ロボットにとって必須の機能である。
既存のほとんどのアプローチは、実際の処理中に重大なパフォーマンス劣化を引き起こすオンラインレイテンシを無視している。
特に、ロバストな追跡が難しく、計算が限られている無人航空機では、レイテンシーの問題が致命的な可能性がある。
本研究では、エンドツーエンドの遅延認識トラッキング(PVT++)のためのシンプルなフレームワークを提案する。
PVT++は、ほとんどの最先端トラッカーをオンライン予測器を追加して予測トラッカーに変換することができる。
モデルベースのアプローチを使用する既存のソリューションとは異なり、我々のフレームワークは学習可能であり、運動情報を入力として捉えるだけでなく、視覚的手がかりや組み合わせを活用できる。
さらに、PVT++はエンドツーエンドの最適化が可能であるため、共同トレーニングによる遅延認識トラッキングパフォーマンスをさらに向上させることができる。
さらに、オンライン環境での任意の速度トラッカーを評価するための遅延認識評価ベンチマークも拡張されている。
空から見たロボットプラットフォームにおける実証的な結果から、PVT++は様々なトラッカーで最大60%のパフォーマンス向上を実現でき、従来のモデルベースソリューションよりも堅牢性が高く、主に遅延による劣化を軽減できることが示された。
コードとモデルは公開されます。
関連論文リスト
- Learning Motion Blur Robust Vision Transformers with Dynamic Early Exit for Real-Time UAV Tracking [14.382072224997074]
トレーニング済みのViTバックボーンを使用したシングルストリームアーキテクチャでは、パフォーマンス、効率、堅牢性が改善されている。
リアルタイムなUAV追跡のためにTransformerブロックを動的に終了する適応型フレームワークにすることで、このフレームワークの効率を向上する。
また, 動きのぼかし処理におけるViTsの有効性も改善した。これは, UAV, 追跡対象の速さ, あるいはその両方によって生じるUAVトラッキングの共通問題である。
論文 参考訳(メタデータ) (2024-07-07T14:10:04Z) - Exploring Dynamic Transformer for Efficient Object Tracking [58.120191254379854]
効率的なトラッキングのための動的トランスフォーマーフレームワークであるDyTrackを提案する。
DyTrackは、様々な入力に対して適切な推論ルートを設定することを学習し、利用可能な計算予算をより活用する。
複数のベンチマークの実験では、DyTrackは単一のモデルで有望な速度精度のトレードオフを実現している。
論文 参考訳(メタデータ) (2024-03-26T12:31:58Z) - PNAS-MOT: Multi-Modal Object Tracking with Pareto Neural Architecture Search [64.28335667655129]
複数の物体追跡は、自律運転において重要な課題である。
トラッキングの精度が向上するにつれて、ニューラルネットワークはますます複雑になり、レイテンシが高いため、実際の運転シナリオにおける実践的な応用に課題が生じる。
本稿では,ニューラル・アーキテクチャ・サーチ(NAS)手法を用いて追跡のための効率的なアーキテクチャを探索し,比較的高い精度を維持しつつ,低リアルタイム遅延を実現することを目的とした。
論文 参考訳(メタデータ) (2024-03-23T04:18:49Z) - Real-time Object Detection for Streaming Perception [84.2559631820007]
ストリーミング知覚は,ビデオオンライン知覚の1つの指標として,レイテンシと精度を共同評価するために提案される。
ストリーミング知覚のためのシンプルで効果的なフレームワークを構築します。
提案手法はArgoverse-HDデータセット上での競合性能を実現し,強力なベースラインに比べてAPを4.9%向上させる。
論文 参考訳(メタデータ) (2022-03-23T11:33:27Z) - Predictive Visual Tracking: A New Benchmark and Baseline Approach [27.87099869398515]
実世界のシナリオでは、画像ストリームのオンボード処理時間が必然的に追跡結果と実世界の状態との間に不一致をもたらす。
既存のビジュアルトラッキングベンチマークは、一般的にトラッカーをオフラインで実行し、評価においてそのような遅延を無視する。
本研究は,より現実的な遅延認識トラッキング問題に対処することを目的としている。
論文 参考訳(メタデータ) (2021-03-08T01:50:05Z) - PnPNet: End-to-End Perception and Prediction with Tracking in the Loop [82.97006521937101]
我々は、自動運転車の文脈において、共同認識と運動予測の問題に取り組む。
我々は,入力センサデータとしてエンド・ツー・エンドのモデルであるNetを提案し,各ステップのオブジェクト追跡とその将来レベルを出力する。
論文 参考訳(メタデータ) (2020-05-29T17:57:25Z) - Robust Visual Object Tracking with Two-Stream Residual Convolutional
Networks [62.836429958476735]
視覚追跡のための2ストリーム残差畳み込みネットワーク(TS-RCN)を提案する。
私たちのTS-RCNは、既存のディープラーニングベースのビジュアルトラッカーと統合することができます。
トラッキング性能をさらに向上するため、我々はResNeXtを特徴抽出バックボーンとして採用する。
論文 参考訳(メタデータ) (2020-05-13T19:05:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。