論文の概要: PVT++: A Simple End-to-End Latency-Aware Visual Tracking Framework
- arxiv url: http://arxiv.org/abs/2211.11629v3
- Date: Mon, 17 Jul 2023 03:33:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 23:59:15.405684
- Title: PVT++: A Simple End-to-End Latency-Aware Visual Tracking Framework
- Title(参考訳): PVT++: シンプルなエンドツーエンドのレイテンシ対応ビジュアルトラッキングフレームワーク
- Authors: Bowen Li, Ziyuan Huang, Junjie Ye, Yiming Li, Sebastian Scherer, Hang
Zhao, Changhong Fu
- Abstract要約: 我々は、エンドツーエンドの遅延認識トラッキング、すなわち、エンドツーエンドの予測ビジュアルトラッキング(PVT++)のためのフレームワークを提案する。
Kalman Filtersをトラッカーに付加する既存のソリューションとは異なり、PVT++は共同で最適化できる。
PVT++は、様々なトラッカーで大幅な性能向上を実現し、以前のソリューションよりも高い精度を示す。
- 参考スコア(独自算出の注目度): 33.7932898514321
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual object tracking is essential to intelligent robots. Most existing
approaches have ignored the online latency that can cause severe performance
degradation during real-world processing. Especially for unmanned aerial
vehicles (UAVs), where robust tracking is more challenging and onboard
computation is limited, the latency issue can be fatal. In this work, we
present a simple framework for end-to-end latency-aware tracking, i.e.,
end-to-end predictive visual tracking (PVT++). Unlike existing solutions that
naively append Kalman Filters after trackers, PVT++ can be jointly optimized,
so that it takes not only motion information but can also leverage the rich
visual knowledge in most pre-trained tracker models for robust prediction.
Besides, to bridge the training-evaluation domain gap, we propose a relative
motion factor, empowering PVT++ to generalize to the challenging and complex
UAV tracking scenes. These careful designs have made the small-capacity
lightweight PVT++ a widely effective solution. Additionally, this work presents
an extended latency-aware evaluation benchmark for assessing an any-speed
tracker in the online setting. Empirical results on a robotic platform from the
aerial perspective show that PVT++ can achieve significant performance gain on
various trackers and exhibit higher accuracy than prior solutions, largely
mitigating the degradation brought by latency.
- Abstract(参考訳): 知的ロボットには視覚物体追跡が不可欠である。
既存のほとんどのアプローチは、実際の処理中に重大なパフォーマンス劣化を引き起こすオンラインレイテンシを無視している。
特に、ロバストな追跡が難しく、オンボード計算が制限されている無人航空機(uavs)では、レイテンシの問題が致命的になる可能性がある。
本研究では、エンドツーエンドの遅延認識トラッキング(PVT++)のためのシンプルなフレームワークを提案する。
Kalman Filtersをトラッカーに付加する既存のソリューションとは異なり、PVT++はモーション情報だけでなく、トレーニング済みのほとんどのトラッカーモデルで豊富な視覚的知識を有効活用して堅牢な予測を行うことができる。
さらに,トレーニング・評価領域のギャップを埋めるために,PVT++が難易度が高く複雑なUAV追跡シーンに一般化できるようにするための相対的な動き係数を提案する。
これらの注意深い設計は、小容量軽量PVT++を広く有効なソリューションにした。
さらに、オンライン環境での任意の速度トラッカーを評価するための遅延認識評価ベンチマークも拡張されている。
航空の観点からのロボットプラットフォームでの実証結果から、pvt++は様々なトラッカーで大幅なパフォーマンス向上を達成でき、以前のソリューションよりも高い精度を示し、レイテンシによる劣化を軽減できることがわかった。
関連論文リスト
- Learning Motion Blur Robust Vision Transformers with Dynamic Early Exit for Real-Time UAV Tracking [14.382072224997074]
トレーニング済みのViTバックボーンを使用したシングルストリームアーキテクチャでは、パフォーマンス、効率、堅牢性が改善されている。
リアルタイムなUAV追跡のためにTransformerブロックを動的に終了する適応型フレームワークにすることで、このフレームワークの効率を向上する。
また, 動きのぼかし処理におけるViTsの有効性も改善した。これは, UAV, 追跡対象の速さ, あるいはその両方によって生じるUAVトラッキングの共通問題である。
論文 参考訳(メタデータ) (2024-07-07T14:10:04Z) - Exploring Dynamic Transformer for Efficient Object Tracking [58.120191254379854]
効率的なトラッキングのための動的トランスフォーマーフレームワークであるDyTrackを提案する。
DyTrackは、様々な入力に対して適切な推論ルートを設定することを学習し、利用可能な計算予算をより活用する。
複数のベンチマークの実験では、DyTrackは単一のモデルで有望な速度精度のトレードオフを実現している。
論文 参考訳(メタデータ) (2024-03-26T12:31:58Z) - PNAS-MOT: Multi-Modal Object Tracking with Pareto Neural Architecture Search [64.28335667655129]
複数の物体追跡は、自律運転において重要な課題である。
トラッキングの精度が向上するにつれて、ニューラルネットワークはますます複雑になり、レイテンシが高いため、実際の運転シナリオにおける実践的な応用に課題が生じる。
本稿では,ニューラル・アーキテクチャ・サーチ(NAS)手法を用いて追跡のための効率的なアーキテクチャを探索し,比較的高い精度を維持しつつ,低リアルタイム遅延を実現することを目的とした。
論文 参考訳(メタデータ) (2024-03-23T04:18:49Z) - Real-time Object Detection for Streaming Perception [84.2559631820007]
ストリーミング知覚は,ビデオオンライン知覚の1つの指標として,レイテンシと精度を共同評価するために提案される。
ストリーミング知覚のためのシンプルで効果的なフレームワークを構築します。
提案手法はArgoverse-HDデータセット上での競合性能を実現し,強力なベースラインに比べてAPを4.9%向上させる。
論文 参考訳(メタデータ) (2022-03-23T11:33:27Z) - Predictive Visual Tracking: A New Benchmark and Baseline Approach [27.87099869398515]
実世界のシナリオでは、画像ストリームのオンボード処理時間が必然的に追跡結果と実世界の状態との間に不一致をもたらす。
既存のビジュアルトラッキングベンチマークは、一般的にトラッカーをオフラインで実行し、評価においてそのような遅延を無視する。
本研究は,より現実的な遅延認識トラッキング問題に対処することを目的としている。
論文 参考訳(メタデータ) (2021-03-08T01:50:05Z) - PnPNet: End-to-End Perception and Prediction with Tracking in the Loop [82.97006521937101]
我々は、自動運転車の文脈において、共同認識と運動予測の問題に取り組む。
我々は,入力センサデータとしてエンド・ツー・エンドのモデルであるNetを提案し,各ステップのオブジェクト追跡とその将来レベルを出力する。
論文 参考訳(メタデータ) (2020-05-29T17:57:25Z) - Robust Visual Object Tracking with Two-Stream Residual Convolutional
Networks [62.836429958476735]
視覚追跡のための2ストリーム残差畳み込みネットワーク(TS-RCN)を提案する。
私たちのTS-RCNは、既存のディープラーニングベースのビジュアルトラッカーと統合することができます。
トラッキング性能をさらに向上するため、我々はResNeXtを特徴抽出バックボーンとして採用する。
論文 参考訳(メタデータ) (2020-05-13T19:05:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。