論文の概要: PVT++: A Simple End-to-End Latency-Aware Visual Tracking Framework
- arxiv url: http://arxiv.org/abs/2211.11629v1
- Date: Mon, 21 Nov 2022 16:43:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 21:26:57.137355
- Title: PVT++: A Simple End-to-End Latency-Aware Visual Tracking Framework
- Title(参考訳): PVT++: シンプルなエンドツーエンドのレイテンシ対応ビジュアルトラッキングフレームワーク
- Authors: Bowen Li, Ziyuan Huang, Junjie Ye, Yiming Li, Sebastian Scherer, Hang
Zhao, Changhong Fu
- Abstract要約: 我々は、エンドツーエンドの遅延認識トラッキング、すなわち、エンドツーエンドの予測ビジュアルトラッキング(PVT++)のためのフレームワークを提案する。
PVT++は、ほとんどの最先端トラッカーをオンライン予測器を追加して予測トラッカーに変換することができる。
PVT++は、さまざまなトラッカーで最大60%のパフォーマンス向上を実現でき、以前のモデルベースソリューションよりも堅牢性が高い。
- 参考スコア(独自算出の注目度): 33.7932898514321
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual object tracking is an essential capability of intelligent robots. Most
existing approaches have ignored the online latency that can cause severe
performance degradation during real-world processing. Especially for unmanned
aerial vehicle, where robust tracking is more challenging and onboard
computation is limited, latency issue could be fatal. In this work, we present
a simple framework for end-to-end latency-aware tracking, i.e., end-to-end
predictive visual tracking (PVT++). PVT++ is capable of turning most
leading-edge trackers into predictive trackers by appending an online
predictor. Unlike existing solutions that use model-based approaches, our
framework is learnable, such that it can take not only motion information as
input but it can also take advantage of visual cues or a combination of both.
Moreover, since PVT++ is end-to-end optimizable, it can further boost the
latency-aware tracking performance by joint training. Additionally, this work
presents an extended latency-aware evaluation benchmark for assessing an
any-speed tracker in the online setting. Empirical results on robotic platform
from aerial perspective show that PVT++ can achieve up to 60% performance gain
on various trackers and exhibit better robustness than prior model-based
solution, largely mitigating the degradation brought by latency. Code and
models will be made public.
- Abstract(参考訳): 視覚物体追跡は知的ロボットにとって必須の機能である。
既存のほとんどのアプローチは、実際の処理中に重大なパフォーマンス劣化を引き起こすオンラインレイテンシを無視している。
特に、ロバストな追跡が難しく、計算が限られている無人航空機では、レイテンシーの問題が致命的な可能性がある。
本研究では、エンドツーエンドの遅延認識トラッキング(PVT++)のためのシンプルなフレームワークを提案する。
PVT++は、ほとんどの最先端トラッカーをオンライン予測器を追加して予測トラッカーに変換することができる。
モデルベースのアプローチを使用する既存のソリューションとは異なり、我々のフレームワークは学習可能であり、運動情報を入力として捉えるだけでなく、視覚的手がかりや組み合わせを活用できる。
さらに、PVT++はエンドツーエンドの最適化が可能であるため、共同トレーニングによる遅延認識トラッキングパフォーマンスをさらに向上させることができる。
さらに、オンライン環境での任意の速度トラッカーを評価するための遅延認識評価ベンチマークも拡張されている。
空から見たロボットプラットフォームにおける実証的な結果から、PVT++は様々なトラッカーで最大60%のパフォーマンス向上を実現でき、従来のモデルベースソリューションよりも堅牢性が高く、主に遅延による劣化を軽減できることが示された。
コードとモデルは公開されます。
関連論文リスト
- Dense Optical Tracking: Connecting the Dots [82.79642869586587]
DOTは、ビデオにおけるポイントトラッキングの問題を解決するための、新しくてシンプルで効率的な方法である。
OmniMotionのような高度な"ユニバーサルトラッカー"を上回り、CoTrackerのような最良のポイントトラッキングアルゴリズムと同等か、あるいはそれ以上の精度で、DOTが現在の光フロー技術よりもはるかに正確であることを示す。
論文 参考訳(メタデータ) (2023-12-01T18:59:59Z) - A Flexible-Frame-Rate Vision-Aided Inertial Object Tracking System for
Mobile Devices [3.4836209951879957]
本稿では,モバイルデバイス用フレキシブルフレームレートオブジェクトポーズ推定とトラッキングシステムを提案する。
高速トラッキングのためにクライアント側で慣性計測ユニット(IMU)ポーズ伝搬を行い、サーバ側でRGB画像ベースの3Dポーズ推定を行う。
我々のシステムは120FPSまでのフレキシブルフレームレートをサポートし、ローエンドデバイス上での高精度かつリアルタイムなトラッキングを保証する。
論文 参考訳(メタデータ) (2022-10-22T15:26:50Z) - StreamYOLO: Real-time Object Detection for Streaming Perception [84.2559631820007]
将来を予測する能力を備えたモデルを提供し、ストリーミング知覚の結果を大幅に改善する。
本稿では,複数の速度を駆動するシーンについて考察し,VasAP(Velocity-Awared streaming AP)を提案する。
本手法は,Argoverse-HDデータセットの最先端性能を実現し,SAPとVsAPをそれぞれ4.7%,VsAPを8.2%改善する。
論文 参考訳(メタデータ) (2022-07-21T12:03:02Z) - Real-time Object Detection for Streaming Perception [84.2559631820007]
ストリーミング知覚は,ビデオオンライン知覚の1つの指標として,レイテンシと精度を共同評価するために提案される。
ストリーミング知覚のためのシンプルで効果的なフレームワークを構築します。
提案手法はArgoverse-HDデータセット上での競合性能を実現し,強力なベースラインに比べてAPを4.9%向上させる。
論文 参考訳(メタデータ) (2022-03-23T11:33:27Z) - VariabilityTrack:Multi-Object Tracking with Variable Speed Object
Movement [1.6385815610837167]
マルチオブジェクトトラッキング(MOT)は、ビデオ内のオブジェクトのバウンディングボックスとIDを推定することを目的としている。
環境フィードバックに基づく可変速度カルマンフィルタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-12T12:39:41Z) - Predictive Visual Tracking: A New Benchmark and Baseline Approach [27.87099869398515]
実世界のシナリオでは、画像ストリームのオンボード処理時間が必然的に追跡結果と実世界の状態との間に不一致をもたらす。
既存のビジュアルトラッキングベンチマークは、一般的にトラッカーをオフラインで実行し、評価においてそのような遅延を無視する。
本研究は,より現実的な遅延認識トラッキング問題に対処することを目的としている。
論文 参考訳(メタデータ) (2021-03-08T01:50:05Z) - PnPNet: End-to-End Perception and Prediction with Tracking in the Loop [82.97006521937101]
我々は、自動運転車の文脈において、共同認識と運動予測の問題に取り組む。
我々は,入力センサデータとしてエンド・ツー・エンドのモデルであるNetを提案し,各ステップのオブジェクト追跡とその将来レベルを出力する。
論文 参考訳(メタデータ) (2020-05-29T17:57:25Z) - Robust Visual Object Tracking with Two-Stream Residual Convolutional
Networks [62.836429958476735]
視覚追跡のための2ストリーム残差畳み込みネットワーク(TS-RCN)を提案する。
私たちのTS-RCNは、既存のディープラーニングベースのビジュアルトラッカーと統合することができます。
トラッキング性能をさらに向上するため、我々はResNeXtを特徴抽出バックボーンとして採用する。
論文 参考訳(メタデータ) (2020-05-13T19:05:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。