Fugu-MT 論文翻訳(概要): PVT++: A Simple End-to-End Latency-Aware Visual Tracking Framework

論文の概要: PVT++: A Simple End-to-End Latency-Aware Visual Tracking Framework

arxiv url: http://arxiv.org/abs/2211.11629v2
Date: Wed, 22 Mar 2023 03:28:46 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-24 01:47:18.712713
Title: PVT++: A Simple End-to-End Latency-Aware Visual Tracking Framework
Title（参考訳）: PVT++: シンプルなエンドツーエンドのレイテンシ対応ビジュアルトラッキングフレームワーク
Authors: Bowen Li, Ziyuan Huang, Junjie Ye, Yiming Li, Sebastian Scherer, Hang Zhao, Changhong Fu
Abstract要約: 我々は、エンドツーエンドの遅延認識トラッキング、すなわち、エンドツーエンドの予測ビジュアルトラッキング(PVT++)のためのフレームワークを提案する。 Kalman Filtersをトラッカーに付加する既存のソリューションとは異なり、PVT++は共同で最適化できる。 PVT++は、様々なトラッカーで大幅な性能向上を実現し、以前のソリューションよりも高い精度を示す。
参考スコア（独自算出の注目度）: 33.7932898514321
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Visual object tracking is essential to intelligent robots. Most existing approaches have ignored the online latency that can cause severe performance degradation during real-world processing. Especially for unmanned aerial vehicles (UAVs), where robust tracking is more challenging and onboard computation is limited, the latency issue can be fatal. In this work, we present a simple framework for end-to-end latency-aware tracking, i.e., end-to-end predictive visual tracking (PVT++). Unlike existing solutions that naively append Kalman Filters after trackers, PVT++ can be jointly optimized, so that it takes not only motion information but can also leverage the rich visual knowledge in most pre-trained tracker models for robust prediction. Besides, to bridge the training-evaluation domain gap, we propose a relative motion factor, empowering PVT++ to generalize to the challenging and complex UAV tracking scenes. These careful designs have made the small-capacity lightweight PVT++ a widely effective solution. Additionally, this work presents an extended latency-aware evaluation benchmark for assessing an any-speed tracker in the online setting. Empirical results on a robotic platform from the aerial perspective show that PVT++ can achieve significant performance gain on various trackers and exhibit higher accuracy than prior solutions, largely mitigating the degradation brought by latency. Our code will be made public.
Abstract（参考訳）: 知的ロボットには視覚物体追跡が不可欠である。既存のほとんどのアプローチは、実際の処理中に重大なパフォーマンス劣化を引き起こすオンラインレイテンシを無視している。特に、ロバストな追跡が難しく、オンボード計算が制限されている無人航空機(uavs)では、レイテンシの問題が致命的になる可能性がある。本研究では、エンドツーエンドの遅延認識トラッキング(PVT++)のためのシンプルなフレームワークを提案する。 Kalman Filtersをトラッカーに付加する既存のソリューションとは異なり、PVT++はモーション情報だけでなく、トレーニング済みのほとんどのトラッカーモデルで豊富な視覚的知識を有効活用して堅牢な予測を行うことができる。さらに,トレーニング・評価領域のギャップを埋めるために,PVT++が難易度が高く複雑なUAV追跡シーンに一般化できるようにするための相対的な動き係数を提案する。これらの注意深い設計は、小容量軽量PVT++を広く有効なソリューションにした。さらに、オンライン環境での任意の速度トラッカーを評価するための遅延認識評価ベンチマークも拡張されている。航空の観点からのロボットプラットフォームでの実証結果から、pvt++は様々なトラッカーで大幅なパフォーマンス向上を達成でき、以前のソリューションよりも高い精度を示し、レイテンシによる劣化を軽減できることがわかった。私たちのコードは公開されます。

関連論文リスト

Towards Low-Latency Event Stream-based Visual Object Tracking: A Slow-Fast Approach [32.91982063297922]
我々は,SFTrackと呼ばれる,異なる運用要件に柔軟に対応する新しいスローファストトラッキングパラダイムを提案する。提案するフレームワークは2つの補完モード,すなわち,十分な計算資源を持つシナリオを対象とした高精度なスロートラッカと,レイテンシを意識したリソース制約のある環境に適した効率的な高速トラッカをサポートする。このフレームワークは,まず高時間分解能イベントストリームからグラフベースの表現学習を行い,学習したグラフ構造化情報を2つのFlashAttentionベースのビジョンバックボーンに統合する。
論文参考訳（メタデータ） (2025-05-19T09:37:23Z)
Learning Motion Blur Robust Vision Transformers with Dynamic Early Exit for Real-Time UAV Tracking [14.382072224997074]
トレーニング済みのViTバックボーンを使用したシングルストリームアーキテクチャでは、パフォーマンス、効率、堅牢性が改善されている。リアルタイムなUAV追跡のためにTransformerブロックを動的に終了する適応型フレームワークにすることで、このフレームワークの効率を向上する。また, 動きのぼかし処理におけるViTsの有効性も改善した。これは, UAV, 追跡対象の速さ, あるいはその両方によって生じるUAVトラッキングの共通問題である。
論文参考訳（メタデータ） (2024-07-07T14:10:04Z)
Exploring Dynamic Transformer for Efficient Object Tracking [58.120191254379854]
効率的なトラッキングのための動的トランスフォーマーフレームワークであるDyTrackを提案する。 DyTrackは、様々な入力に対して適切な推論ルートを設定することを学習し、利用可能な計算予算をより活用する。複数のベンチマークの実験では、DyTrackは単一のモデルで有望な速度精度のトレードオフを実現している。
論文参考訳（メタデータ） (2024-03-26T12:31:58Z)
PNAS-MOT: Multi-Modal Object Tracking with Pareto Neural Architecture Search [64.28335667655129]
複数の物体追跡は、自律運転において重要な課題である。トラッキングの精度が向上するにつれて、ニューラルネットワークはますます複雑になり、レイテンシが高いため、実際の運転シナリオにおける実践的な応用に課題が生じる。本稿では,ニューラル・アーキテクチャ・サーチ(NAS)手法を用いて追跡のための効率的なアーキテクチャを探索し,比較的高い精度を維持しつつ,低リアルタイム遅延を実現することを目的とした。
論文参考訳（メタデータ） (2024-03-23T04:18:49Z)
Real-time Object Detection for Streaming Perception [84.2559631820007]
ストリーミング知覚は,ビデオオンライン知覚の1つの指標として,レイテンシと精度を共同評価するために提案される。ストリーミング知覚のためのシンプルで効果的なフレームワークを構築します。提案手法はArgoverse-HDデータセット上での競合性能を実現し,強力なベースラインに比べてAPを4.9%向上させる。
論文参考訳（メタデータ） (2022-03-23T11:33:27Z)
Predictive Visual Tracking: A New Benchmark and Baseline Approach [27.87099869398515]
実世界のシナリオでは、画像ストリームのオンボード処理時間が必然的に追跡結果と実世界の状態との間に不一致をもたらす。既存のビジュアルトラッキングベンチマークは、一般的にトラッカーをオフラインで実行し、評価においてそのような遅延を無視する。本研究は,より現実的な遅延認識トラッキング問題に対処することを目的としている。
論文参考訳（メタデータ） (2021-03-08T01:50:05Z)
PnPNet: End-to-End Perception and Prediction with Tracking in the Loop [82.97006521937101]
我々は、自動運転車の文脈において、共同認識と運動予測の問題に取り組む。我々は,入力センサデータとしてエンド・ツー・エンドのモデルであるNetを提案し,各ステップのオブジェクト追跡とその将来レベルを出力する。
論文参考訳（メタデータ） (2020-05-29T17:57:25Z)
Robust Visual Object Tracking with Two-Stream Residual Convolutional Networks [62.836429958476735]
視覚追跡のための2ストリーム残差畳み込みネットワーク(TS-RCN)を提案する。私たちのTS-RCNは、既存のディープラーニングベースのビジュアルトラッカーと統合することができます。トラッキング性能をさらに向上するため、我々はResNeXtを特徴抽出バックボーンとして採用する。
論文参考訳（メタデータ） (2020-05-13T19:05:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。