論文の概要: BEVTrack: A Simple Baseline for 3D Single Object Tracking in Bird's-Eye
View
- arxiv url: http://arxiv.org/abs/2309.02185v3
- Date: Tue, 12 Sep 2023 09:38:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-13 16:19:08.592498
- Title: BEVTrack: A Simple Baseline for 3D Single Object Tracking in Bird's-Eye
View
- Title(参考訳): BEVTrack:鳥の視点で3Dオブジェクトを追跡できるシンプルなベースライン
- Authors: Yuxiang Yang, Yingqi Deng, Jiahao Nie, Jing Zhang
- Abstract要約: 点雲における3Dシングルオブジェクトトラッキング(SOT)は、外見のばらつき、イントラクタ、点雲の分散度が高いため、依然として難しい問題である。
本稿では,3次元SOTのためのシンプルながら強力なベースラインフレームワークであるBEVTrackを紹介する。
BEVTrackは、122FPSの高速な推論速度を維持しながら、KITTIとNuScenesデータセットの最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 15.605632186378125
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D single object tracking (SOT) in point clouds is still a challenging
problem due to appearance variation, distractors, and high sparsity of point
clouds. Notably, in autonomous driving scenarios, the target object typically
maintains spatial adjacency across consecutive frames, predominantly moving
horizontally. This spatial continuity offers valuable prior knowledge for
target localization. However, existing trackers, which often employ point-wise
representations, struggle to efficiently utilize this knowledge owing to the
irregular format of such representations. Consequently, they require elaborate
designs and solving multiple subtasks to establish spatial correspondence. In
this paper, we introduce BEVTrack, a simple yet strong baseline framework for
3D SOT. After converting consecutive point clouds into the common Bird's-Eye
View representation, BEVTrack inherently encodes spatial proximity and adeptly
captures motion cues for tracking via a simple element-wise operation and
convolutional layers. Additionally, to better deal with objects having diverse
sizes and moving patterns, BEVTrack directly learns the underlying motion
distribution rather than making a fixed Laplacian or Gaussian assumption as in
previous works. Without bells and whistles, BEVTrack achieves state-of-the-art
performance on KITTI and NuScenes datasets while maintaining a high inference
speed of 122 FPS. The code will be released at
https://github.com/xmm-prio/BEVTrack.
- Abstract(参考訳): 点雲における3Dシングルオブジェクトトラッキング(SOT)は、外見のばらつき、イントラクタ、点雲の分散度が高いため、依然として難しい問題である。
特に自律走行のシナリオでは、ターゲットオブジェクトは通常、連続するフレーム間で空間的隣接性を維持し、主に水平方向に移動する。
この空間連続性は、ターゲットの局在に対する貴重な事前知識を提供する。
しかし、しばしばポイントワイズ表現を用いる既存のトラッカーは、そのような表現の不規則な形式のため、この知識を効率的に活用するのに苦労している。
そのため、空間対応を確立するために、精巧な設計と複数のサブタスクを解く必要がある。
本稿では,3次元SOTのためのシンプルながら強力なベースラインフレームワークであるBEVTrackを紹介する。
連続する点雲を共通のBird's-Eye View表現に変換した後、BEVTrackは本質的に空間的近接を符号化し、単純な要素ワイド操作と畳み込み層によるトラッキングのためのモーションキューを受信する。
さらに、多様なサイズと移動パターンを持つオブジェクトをよりうまく扱うために、bevtrackは、以前の作品のように固定ラプラシアンやガウス的仮定をするのではなく、基盤となる動き分布を直接学習する。
ベルとホイッスルなしで、BEVTrackは122FPSの高速な推論速度を維持しながら、KITTIとNuScenesデータセットの最先端のパフォーマンスを達成する。
コードはhttps://github.com/xmm-prio/bevtrackでリリースされる。
関連論文リスト
- Learning Motion Blur Robust Vision Transformers with Dynamic Early Exit for Real-Time UAV Tracking [14.382072224997074]
トレーニング済みのViTバックボーンを使用したシングルストリームアーキテクチャでは、パフォーマンス、効率、堅牢性が改善されている。
リアルタイムなUAV追跡のためにTransformerブロックを動的に終了する適応型フレームワークにすることで、このフレームワークの効率を向上する。
また, 動きのぼかし処理におけるViTsの有効性も改善した。これは, UAV, 追跡対象の速さ, あるいはその両方によって生じるUAVトラッキングの共通問題である。
論文 参考訳(メタデータ) (2024-07-07T14:10:04Z) - PillarTrack: Redesigning Pillar-based Transformer Network for Single Object Tracking on Point Clouds [5.524413892353708]
LiDARベースの3Dオブジェクトトラッキング(3D SOT)は、ロボット工学と自動運転において重要な問題である。
柱型3Dオブジェクト追跡フレームワークであるPillarTrackを提案する。
PillarTrackは、KITTIとnuScenesデータセットで最先端のパフォーマンスを実現し、リアルタイムトラッキング速度を実現する。
論文 参考訳(メタデータ) (2024-04-11T06:06:56Z) - Exploring Dynamic Transformer for Efficient Object Tracking [58.120191254379854]
効率的なトラッキングのための動的トランスフォーマーフレームワークであるDyTrackを提案する。
DyTrackは、様々な入力に対して適切な推論ルートを設定することを学習し、利用可能な計算予算をより活用する。
複数のベンチマークの実験では、DyTrackは単一のモデルで有望な速度精度のトレードオフを実現している。
論文 参考訳(メタデータ) (2024-03-26T12:31:58Z) - SeqTrack3D: Exploring Sequence Information for Robust 3D Point Cloud
Tracking [26.405519771454102]
本稿では,SeqTrack3DというトラッカーとSequence-to-Sequenceトラッキングパラダイムを導入し,連続フレーム間の目標運動をキャプチャする。
本手法は, 重要点の少ないシーンにおいても, 歴史的ボックスからの位置情報を有効活用することにより, ロバストなトラッキングを実現する。
大規模なデータセットで実施された実験は、SeqTrack3Dが新しい最先端のパフォーマンスを実現することを示している。
論文 参考訳(メタデータ) (2024-02-26T02:14:54Z) - ByteTrackV2: 2D and 3D Multi-Object Tracking by Associating Every
Detection Box [81.45219802386444]
マルチオブジェクトトラッキング(MOT)は、ビデオフレーム間のオブジェクトのバウンディングボックスとIDを推定することを目的としている。
低スコア検出ボックス内の真のオブジェクトをマイニングするための階層型データアソシエーション戦略を提案する。
3次元のシナリオでは、トラッカーが世界座標の物体速度を予測するのがずっと簡単である。
論文 参考訳(メタデータ) (2023-03-27T15:35:21Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z) - Monocular Quasi-Dense 3D Object Tracking [99.51683944057191]
周囲の物体の将来の位置を予測し、自律運転などの多くのアプリケーションで観測者の行動を計画するためには、信頼性と正確な3D追跡フレームワークが不可欠である。
移動プラットフォーム上で撮影された2次元画像のシーケンスから,移動物体を時間とともに効果的に関連付け,その全3次元バウンディングボックス情報を推定するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-12T15:30:02Z) - Factor Graph based 3D Multi-Object Tracking in Point Clouds [8.411514688735183]
明示的および固定的な代入に依存しない新しい最適化に基づくアプローチを提案する。
我々は、実世界のKITTI追跡データセットの性能を実証し、多くの最先端アルゴリズムよりも優れた結果を得る。
論文 参考訳(メタデータ) (2020-08-12T13:34:46Z) - Robust Visual Object Tracking with Two-Stream Residual Convolutional
Networks [62.836429958476735]
視覚追跡のための2ストリーム残差畳み込みネットワーク(TS-RCN)を提案する。
私たちのTS-RCNは、既存のディープラーニングベースのビジュアルトラッカーと統合することができます。
トラッキング性能をさらに向上するため、我々はResNeXtを特徴抽出バックボーンとして採用する。
論文 参考訳(メタデータ) (2020-05-13T19:05:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。