Fugu-MT 論文翻訳(概要): BEVTrack: A Simple and Strong Baseline for 3D Single Object Tracking in Bird's-Eye View

論文の概要: BEVTrack: A Simple and Strong Baseline for 3D Single Object Tracking in Bird's-Eye View

arxiv url: http://arxiv.org/abs/2309.02185v4
Date: Wed, 22 Nov 2023 13:56:48 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-23 18:25:45.501549
Title: BEVTrack: A Simple and Strong Baseline for 3D Single Object Tracking in Bird's-Eye View
Title（参考訳）: BEVTrack:鳥から見た3Dオブジェクト追跡のためのシンプルで強力なベースライン
Authors: Yuxiang Yang, Yingqi Deng, Jing Zhang, Jiahao Nie, Zheng-Jun Zha
Abstract要約: 3Dシングルオブジェクトトラッキング(SOT)はコンピュータビジョンの基本課題であり、自律運転のようなアプリケーションに不可欠なことを証明している。我々は,Bird's-Eye View(BEV)におけるトラッキングを行う,シンプルだが効果的なベースラインであるBEVTrackを提案する。 3つの大規模データセットで最先端のパフォーマンスを実現する。
参考スコア（独自算出の注目度）: 59.283604507093116
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: 3D Single Object Tracking (SOT) is a fundamental task of computer vision, proving essential for applications like autonomous driving. It remains challenging to localize the target from surroundings due to appearance variations, distractors, and the high sparsity of point clouds. The spatial information indicating objects' spatial adjacency across consecutive frames is crucial for effective object tracking. However, existing trackers typically employ point-wise representation with irregular formats, leading to insufficient use of this important spatial knowledge. As a result, these trackers usually require elaborate designs and solving multiple subtasks. In this paper, we propose BEVTrack, a simple yet effective baseline that performs tracking in Bird's-Eye View (BEV). This representation greatly retains spatial information owing to its ordered structure and inherently encodes the implicit motion relations of the target as well as distractors. To achieve accurate regression for targets with diverse attributes (\textit{e.g.}, sizes and motion patterns), BEVTrack constructs the likelihood function with the learned underlying distributions adapted to different targets, rather than making a fixed Laplace or Gaussian assumption as in previous works. This provides valuable priors for tracking and thus further boosts performance. While only using a single regression loss with a plain convolutional architecture, BEVTrack achieves state-of-the-art performance on three large-scale datasets, KITTI, NuScenes, and Waymo Open Dataset while maintaining a high inference speed of about 200 FPS. The code will be released at https://github.com/xmm-prio/BEVTrack.
Abstract（参考訳）: 3Dシングルオブジェクトトラッキング(SOT)はコンピュータビジョンの基本課題であり、自律運転のようなアプリケーションに不可欠なことを証明している。外観の変化、散逸、点雲の広さにより、ターゲットを周囲から特定することは依然として困難である。連続するフレーム間の空間的隣接を示す空間情報は、効果的な物体追跡に不可欠である。しかし、既存のトラッカーは、通常不規則なフォーマットでポイントワイズ表現を用いるため、この重要な空間知識を十分に活用できない。結果として、これらのトラッカーは通常、精巧な設計と複数のサブタスクの解決を必要とする。本稿では,バードアイビュー(Bird's-Eye View, BEV)におけるトラッキングを行うシンプルなベースラインであるBEVTrackを提案する。この表現は、その順序づけられた構造から空間情報を大いに保持し、本質的にターゲットの暗黙の運動関係と気晴らしを符号化する。多様な属性を持つ対象に対する正確な回帰(例えば、サイズと動きパターン)を達成するため、BEVTrackは、以前の研究のように固定されたラプラスやガウス的な仮定ではなく、学習した基礎分布を異なる目標に適合させる可能性関数を構築する。これにより、トラッキングの貴重な優先事項が提供され、パフォーマンスがさらに向上する。単純な畳み込みアーキテクチャで単一の回帰損失のみを使用する一方で、BEVTrackは3つの大規模データセット(KITTI、NuScenes、Waymo Open Dataset)で最先端のパフォーマンスを実現し、推論速度は約200FPSを維持している。コードはhttps://github.com/xmm-prio/bevtrackでリリースされる。

関連論文リスト

Learning Occlusion-Robust Vision Transformers for Real-Time UAV Tracking [11.146155422858824]
Vision Transformer (ViT) バックボーンを用いたシングルストリームアーキテクチャは、リアルタイムUAVトラッキングに大きな可能性を示している。 UAV追跡のためのViTに基づいて,Occlusion-Robust Representation (ORR) の学習を提案する。また,よりコンパクトなトラッカーを作成するために,適応的特徴量に基づく知識蒸留法(AFKD)を提案する。
論文参考訳（メタデータ） (2025-04-12T14:06:50Z)
Learning Motion Blur Robust Vision Transformers with Dynamic Early Exit for Real-Time UAV Tracking [14.382072224997074]
トレーニング済みのViTバックボーンを使用したシングルストリームアーキテクチャでは、パフォーマンス、効率、堅牢性が改善されている。リアルタイムなUAV追跡のためにTransformerブロックを動的に終了する適応型フレームワークにすることで、このフレームワークの効率を向上する。また, 動きのぼかし処理におけるViTsの有効性も改善した。これは, UAV, 追跡対象の速さ, あるいはその両方によって生じるUAVトラッキングの共通問題である。
論文参考訳（メタデータ） (2024-07-07T14:10:04Z)
PillarTrack: Redesigning Pillar-based Transformer Network for Single Object Tracking on Point Clouds [5.524413892353708]
LiDARベースの3Dオブジェクトトラッキング(3D SOT)は、ロボット工学と自動運転において重要な問題である。柱型3Dオブジェクト追跡フレームワークであるPillarTrackを提案する。 PillarTrackは、KITTIとnuScenesデータセットで最先端のパフォーマンスを実現し、リアルタイムトラッキング速度を実現する。
論文参考訳（メタデータ） (2024-04-11T06:06:56Z)
EasyTrack: Efficient and Compact One-stream 3D Point Clouds Tracker [35.74677036815288]
そこで本稿では,TextbfEasyTrackと呼ばれる,簡潔でコンパクトな1ストリームトランスフォーマ3D SOTパラダイムを提案する。 3Dポイントクラウド追跡機能付き事前学習モジュールを開発し、3Dポイントクラウド追跡表現の学習にマスク付きオートエンコーディングを利用する。密集した鳥眼ビュー(BEV)特徴空間における目標位置ネットワークを構築し、目標分類と回帰を行う。
論文参考訳（メタデータ） (2024-04-09T02:47:52Z)
Exploring Dynamic Transformer for Efficient Object Tracking [58.120191254379854]
効率的なトラッキングのための動的トランスフォーマーフレームワークであるDyTrackを提案する。 DyTrackは、様々な入力に対して適切な推論ルートを設定することを学習し、利用可能な計算予算をより活用する。複数のベンチマークの実験では、DyTrackは単一のモデルで有望な速度精度のトレードオフを実現している。
論文参考訳（メタデータ） (2024-03-26T12:31:58Z)
SeqTrack3D: Exploring Sequence Information for Robust 3D Point Cloud Tracking [26.405519771454102]
本稿では,SeqTrack3DというトラッカーとSequence-to-Sequenceトラッキングパラダイムを導入し,連続フレーム間の目標運動をキャプチャする。本手法は, 重要点の少ないシーンにおいても, 歴史的ボックスからの位置情報を有効活用することにより, ロバストなトラッキングを実現する。大規模なデータセットで実施された実験は、SeqTrack3Dが新しい最先端のパフォーマンスを実現することを示している。
論文参考訳（メタデータ） (2024-02-26T02:14:54Z)
ByteTrackV2: 2D and 3D Multi-Object Tracking by Associating Every Detection Box [81.45219802386444]
マルチオブジェクトトラッキング(MOT)は、ビデオフレーム間のオブジェクトのバウンディングボックスとIDを推定することを目的としている。低スコア検出ボックス内の真のオブジェクトをマイニングするための階層型データアソシエーション戦略を提案する。 3次元のシナリオでは、トラッカーが世界座標の物体速度を予測するのがずっと簡単である。
論文参考訳（メタデータ） (2023-03-27T15:35:21Z)
Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。 AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文参考訳（メタデータ） (2021-04-23T17:59:28Z)
Monocular Quasi-Dense 3D Object Tracking [99.51683944057191]
周囲の物体の将来の位置を予測し、自律運転などの多くのアプリケーションで観測者の行動を計画するためには、信頼性と正確な3D追跡フレームワークが不可欠である。移動プラットフォーム上で撮影された2次元画像のシーケンスから,移動物体を時間とともに効果的に関連付け,その全3次元バウンディングボックス情報を推定するフレームワークを提案する。
論文参考訳（メタデータ） (2021-03-12T15:30:02Z)
Factor Graph based 3D Multi-Object Tracking in Point Clouds [8.411514688735183]
明示的および固定的な代入に依存しない新しい最適化に基づくアプローチを提案する。我々は、実世界のKITTI追跡データセットの性能を実証し、多くの最先端アルゴリズムよりも優れた結果を得る。
論文参考訳（メタデータ） (2020-08-12T13:34:46Z)
Robust Visual Object Tracking with Two-Stream Residual Convolutional Networks [62.836429958476735]
視覚追跡のための2ストリーム残差畳み込みネットワーク(TS-RCN)を提案する。私たちのTS-RCNは、既存のディープラーニングベースのビジュアルトラッカーと統合することができます。トラッキング性能をさらに向上するため、我々はResNeXtを特徴抽出バックボーンとして採用する。
論文参考訳（メタデータ） (2020-05-13T19:05:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。