論文の概要: BEVTrack: A Simple and Strong Baseline for 3D Single Object Tracking in
Bird's-Eye View
- arxiv url: http://arxiv.org/abs/2309.02185v4
- Date: Wed, 22 Nov 2023 13:56:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 18:25:45.501549
- Title: BEVTrack: A Simple and Strong Baseline for 3D Single Object Tracking in
Bird's-Eye View
- Title(参考訳): BEVTrack:鳥から見た3Dオブジェクト追跡のためのシンプルで強力なベースライン
- Authors: Yuxiang Yang, Yingqi Deng, Jing Zhang, Jiahao Nie, Zheng-Jun Zha
- Abstract要約: 3Dシングルオブジェクトトラッキング(SOT)はコンピュータビジョンの基本課題であり、自律運転のようなアプリケーションに不可欠なことを証明している。
我々は,Bird's-Eye View(BEV)におけるトラッキングを行う,シンプルだが効果的なベースラインであるBEVTrackを提案する。
3つの大規模データセットで最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 59.283604507093116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D Single Object Tracking (SOT) is a fundamental task of computer vision,
proving essential for applications like autonomous driving. It remains
challenging to localize the target from surroundings due to appearance
variations, distractors, and the high sparsity of point clouds. The spatial
information indicating objects' spatial adjacency across consecutive frames is
crucial for effective object tracking. However, existing trackers typically
employ point-wise representation with irregular formats, leading to
insufficient use of this important spatial knowledge. As a result, these
trackers usually require elaborate designs and solving multiple subtasks. In
this paper, we propose BEVTrack, a simple yet effective baseline that performs
tracking in Bird's-Eye View (BEV). This representation greatly retains spatial
information owing to its ordered structure and inherently encodes the implicit
motion relations of the target as well as distractors. To achieve accurate
regression for targets with diverse attributes (\textit{e.g.}, sizes and motion
patterns), BEVTrack constructs the likelihood function with the learned
underlying distributions adapted to different targets, rather than making a
fixed Laplace or Gaussian assumption as in previous works. This provides
valuable priors for tracking and thus further boosts performance. While only
using a single regression loss with a plain convolutional architecture,
BEVTrack achieves state-of-the-art performance on three large-scale datasets,
KITTI, NuScenes, and Waymo Open Dataset while maintaining a high inference
speed of about 200 FPS. The code will be released at
https://github.com/xmm-prio/BEVTrack.
- Abstract(参考訳): 3Dシングルオブジェクトトラッキング(SOT)はコンピュータビジョンの基本課題であり、自律運転のようなアプリケーションに不可欠なことを証明している。
外観の変化、散逸、点雲の広さにより、ターゲットを周囲から特定することは依然として困難である。
連続するフレーム間の空間的隣接を示す空間情報は、効果的な物体追跡に不可欠である。
しかし、既存のトラッカーは、通常不規則なフォーマットでポイントワイズ表現を用いるため、この重要な空間知識を十分に活用できない。
結果として、これらのトラッカーは通常、精巧な設計と複数のサブタスクの解決を必要とする。
本稿では,バードアイビュー(Bird's-Eye View, BEV)におけるトラッキングを行うシンプルなベースラインであるBEVTrackを提案する。
この表現は、その順序づけられた構造から空間情報を大いに保持し、本質的にターゲットの暗黙の運動関係と気晴らしを符号化する。
多様な属性を持つ対象に対する正確な回帰(例えば、サイズと動きパターン)を達成するため、BEVTrackは、以前の研究のように固定されたラプラスやガウス的な仮定ではなく、学習した基礎分布を異なる目標に適合させる可能性関数を構築する。
これにより、トラッキングの貴重な優先事項が提供され、パフォーマンスがさらに向上する。
単純な畳み込みアーキテクチャで単一の回帰損失のみを使用する一方で、BEVTrackは3つの大規模データセット(KITTI、NuScenes、Waymo Open Dataset)で最先端のパフォーマンスを実現し、推論速度は約200FPSを維持している。
コードはhttps://github.com/xmm-prio/bevtrackでリリースされる。
関連論文リスト
- Learning Motion Blur Robust Vision Transformers with Dynamic Early Exit for Real-Time UAV Tracking [14.382072224997074]
トレーニング済みのViTバックボーンを使用したシングルストリームアーキテクチャでは、パフォーマンス、効率、堅牢性が改善されている。
リアルタイムなUAV追跡のためにTransformerブロックを動的に終了する適応型フレームワークにすることで、このフレームワークの効率を向上する。
また, 動きのぼかし処理におけるViTsの有効性も改善した。これは, UAV, 追跡対象の速さ, あるいはその両方によって生じるUAVトラッキングの共通問題である。
論文 参考訳(メタデータ) (2024-07-07T14:10:04Z) - PillarTrack: Redesigning Pillar-based Transformer Network for Single Object Tracking on Point Clouds [5.524413892353708]
LiDARベースの3Dオブジェクトトラッキング(3D SOT)は、ロボット工学と自動運転において重要な問題である。
柱型3Dオブジェクト追跡フレームワークであるPillarTrackを提案する。
PillarTrackは、KITTIとnuScenesデータセットで最先端のパフォーマンスを実現し、リアルタイムトラッキング速度を実現する。
論文 参考訳(メタデータ) (2024-04-11T06:06:56Z) - Exploring Dynamic Transformer for Efficient Object Tracking [58.120191254379854]
効率的なトラッキングのための動的トランスフォーマーフレームワークであるDyTrackを提案する。
DyTrackは、様々な入力に対して適切な推論ルートを設定することを学習し、利用可能な計算予算をより活用する。
複数のベンチマークの実験では、DyTrackは単一のモデルで有望な速度精度のトレードオフを実現している。
論文 参考訳(メタデータ) (2024-03-26T12:31:58Z) - SeqTrack3D: Exploring Sequence Information for Robust 3D Point Cloud
Tracking [26.405519771454102]
本稿では,SeqTrack3DというトラッカーとSequence-to-Sequenceトラッキングパラダイムを導入し,連続フレーム間の目標運動をキャプチャする。
本手法は, 重要点の少ないシーンにおいても, 歴史的ボックスからの位置情報を有効活用することにより, ロバストなトラッキングを実現する。
大規模なデータセットで実施された実験は、SeqTrack3Dが新しい最先端のパフォーマンスを実現することを示している。
論文 参考訳(メタデータ) (2024-02-26T02:14:54Z) - ByteTrackV2: 2D and 3D Multi-Object Tracking by Associating Every
Detection Box [81.45219802386444]
マルチオブジェクトトラッキング(MOT)は、ビデオフレーム間のオブジェクトのバウンディングボックスとIDを推定することを目的としている。
低スコア検出ボックス内の真のオブジェクトをマイニングするための階層型データアソシエーション戦略を提案する。
3次元のシナリオでは、トラッカーが世界座標の物体速度を予測するのがずっと簡単である。
論文 参考訳(メタデータ) (2023-03-27T15:35:21Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z) - Monocular Quasi-Dense 3D Object Tracking [99.51683944057191]
周囲の物体の将来の位置を予測し、自律運転などの多くのアプリケーションで観測者の行動を計画するためには、信頼性と正確な3D追跡フレームワークが不可欠である。
移動プラットフォーム上で撮影された2次元画像のシーケンスから,移動物体を時間とともに効果的に関連付け,その全3次元バウンディングボックス情報を推定するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-12T15:30:02Z) - Factor Graph based 3D Multi-Object Tracking in Point Clouds [8.411514688735183]
明示的および固定的な代入に依存しない新しい最適化に基づくアプローチを提案する。
我々は、実世界のKITTI追跡データセットの性能を実証し、多くの最先端アルゴリズムよりも優れた結果を得る。
論文 参考訳(メタデータ) (2020-08-12T13:34:46Z) - Robust Visual Object Tracking with Two-Stream Residual Convolutional
Networks [62.836429958476735]
視覚追跡のための2ストリーム残差畳み込みネットワーク(TS-RCN)を提案する。
私たちのTS-RCNは、既存のディープラーニングベースのビジュアルトラッカーと統合することができます。
トラッキング性能をさらに向上するため、我々はResNeXtを特徴抽出バックボーンとして採用する。
論文 参考訳(メタデータ) (2020-05-13T19:05:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。