論文の概要: 3DMOTFormer: Graph Transformer for Online 3D Multi-Object Tracking
- arxiv url: http://arxiv.org/abs/2308.06635v1
- Date: Sat, 12 Aug 2023 19:19:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-15 16:14:16.167181
- Title: 3DMOTFormer: Graph Transformer for Online 3D Multi-Object Tracking
- Title(参考訳): 3DMOTFormer:オンライン3Dマルチオブジェクト追跡のためのグラフトランス
- Authors: Shuxiao Ding, Eike Rehder, Lukas Schneider, Marius Cordts and Juergen
Gall
- Abstract要約: 最先端の3Dマルチオブジェクト追跡(MOT)アプローチは通常、Kalman Filterのような非学習モデルベースのアルゴリズムに依存している。
本稿では3DMOTFormerを提案する。この3D MOTフレームワークはトランスフォーマーアーキテクチャをベースに構築されている。
提案手法は, nuScenesバリデーションとテストスプリットでそれぞれ71.2%, AMOTA68.2%を達成している。
- 参考スコア(独自算出の注目度): 15.330384668966806
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Tracking 3D objects accurately and consistently is crucial for autonomous
vehicles, enabling more reliable downstream tasks such as trajectory prediction
and motion planning. Based on the substantial progress in object detection in
recent years, the tracking-by-detection paradigm has become a popular choice
due to its simplicity and efficiency. State-of-the-art 3D multi-object tracking
(MOT) approaches typically rely on non-learned model-based algorithms such as
Kalman Filter but require many manually tuned parameters. On the other hand,
learning-based approaches face the problem of adapting the training to the
online setting, leading to inevitable distribution mismatch between training
and inference as well as suboptimal performance. In this work, we propose
3DMOTFormer, a learned geometry-based 3D MOT framework building upon the
transformer architecture. We use an Edge-Augmented Graph Transformer to reason
on the track-detection bipartite graph frame-by-frame and conduct data
association via edge classification. To reduce the distribution mismatch
between training and inference, we propose a novel online training strategy
with an autoregressive and recurrent forward pass as well as sequential batch
optimization. Using CenterPoint detections, our approach achieves 71.2% and
68.2% AMOTA on the nuScenes validation and test split, respectively. In
addition, a trained 3DMOTFormer model generalizes well across different object
detectors. Code is available at: https://github.com/dsx0511/3DMOTFormer.
- Abstract(参考訳): 3Dオブジェクトを正確にかつ一貫して追跡することは、自動運転車にとって極めて重要である。
近年のオブジェクト検出の大幅な進歩に基づき、そのシンプルさと効率性から、トラッキング・バイ・検出のパラダイムが一般的な選択肢となっている。
最先端の3Dマルチオブジェクト追跡(MOT)アプローチは通常、Kalman Filterのような非学習モデルベースのアルゴリズムに依存するが、多くの手動パラメータを必要とする。
一方、学習に基づくアプローチは、トレーニングをオンライン環境に適応させるという問題に直面しており、トレーニングと推論の間に必然的な分布ミスマッチが生じると同時に、最適性能が低下する。
本稿では3DMOTFormerを提案する。この3D MOTフレームワークはトランスフォーマアーキテクチャをベースに構築されている。
エッジ拡張グラフ変換器を用いて、トラック検出二部グラフフレームをフレーム単位で推論し、エッジ分類によるデータアソシエーションを行う。
トレーニングと推論の分散ミスマッチを低減するために,自己回帰的かつ再帰的なフォワードパスと逐次バッチ最適化を備えた,新しいオンライントレーニング戦略を提案する。
提案手法では, nuScenes検証とテスト分割で71.2%, 68.2%のAMOTAが得られた。
さらに、訓練された3dmotformerモデルは、異なるオブジェクト検出器をまたいでよく一般化する。
コードは、https://github.com/dsx0511/3DMOTFormerで入手できる。
関連論文リスト
- You Only Need Two Detectors to Achieve Multi-Modal 3D Multi-Object Tracking [9.20064374262956]
提案手法は,2次元検出器と3次元検出器のみを用いて,ロバストなトラッキングを実現する。
多くの最先端のTBDベースのマルチモーダルトラッキング手法よりも正確であることが証明されている。
論文 参考訳(メタデータ) (2023-04-18T02:45:18Z) - GOOD: General Optimization-based Fusion for 3D Object Detection via
LiDAR-Camera Object Candidates [10.534984939225014]
3次元物体検出は、自律運転における知覚タスクの中核となる基礎となる。
Goodは汎用的な最適化ベースの融合フレームワークで、追加のモデルをトレーニングすることなく、満足度の高い検出を実現できる。
nuScenesとKITTIデータセットの両方の実験を行い、その結果、GOODはPointPillarsと比較してmAPスコアで9.1%上回っていることが示された。
論文 参考訳(メタデータ) (2023-03-17T07:05:04Z) - Weakly Supervised Monocular 3D Object Detection using Multi-View
Projection and Direction Consistency [78.76508318592552]
モノクロ3Dオブジェクト検出は、その容易なアプリケーションのための自動駆動において、主流のアプローチとなっている。
現在のほとんどの方法は、トレーニングフェーズで使用される真実をラベル付けするために、まだ3Dポイントのクラウドデータに依存しています。
画像にマークされた2次元ラベルだけでモデルを訓練できる,弱教師付きモノクル3次元オブジェクト検出法を提案する。
論文 参考訳(メタデータ) (2023-03-15T15:14:00Z) - 3D Multi-Object Tracking Using Graph Neural Networks with Cross-Edge
Modality Attention [9.150245363036165]
Batch3DMOTは、現実のシーンを、方向付き、非循環型、カテゴリー非結合な追跡グラフとして表現する。
モーダル間断続性を緩和するクロスエッジアテンション機構を用いたマルチモーダルグラフニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2022-03-21T12:44:17Z) - LocATe: End-to-end Localization of Actions in 3D with Transformers [91.28982770522329]
LocATeは、3Dシーケンスでアクションを共同でローカライズし認識するエンドツーエンドのアプローチである。
画像やパッチの特徴を入力として考えるトランスフォーマーベースのオブジェクト検出や分類モデルとは異なり、LocATeのトランスフォーマーモデルはシーケンス内のアクション間の長期的な相関をキャプチャすることができる。
BABEL-TAL-20 (BT20) という新しい,挑戦的で,より現実的なベンチマークデータセットを導入する。
論文 参考訳(メタデータ) (2022-03-21T03:35:32Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z) - Monocular Quasi-Dense 3D Object Tracking [99.51683944057191]
周囲の物体の将来の位置を予測し、自律運転などの多くのアプリケーションで観測者の行動を計画するためには、信頼性と正確な3D追跡フレームワークが不可欠である。
移動プラットフォーム上で撮影された2次元画像のシーケンスから,移動物体を時間とともに効果的に関連付け,その全3次元バウンディングボックス情報を推定するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-12T15:30:02Z) - ST3D: Self-training for Unsupervised Domain Adaptation on 3D
ObjectDetection [78.71826145162092]
点雲からの3次元物体検出における教師なし領域適応のための新しい領域適応型自己学習パイプラインST3Dを提案する。
当社のST3Dは、評価されたすべてのデータセットで最先端のパフォーマンスを達成し、KITTI 3Dオブジェクト検出ベンチマークで完全に監視された結果を超えます。
論文 参考訳(メタデータ) (2021-03-09T10:51:24Z) - A two-stage data association approach for 3D Multi-object Tracking [0.0]
画像に基づくトラッキングを3D環境に適応させる2段階データアソシエーション手法を開発した。
提案手法は,NuScenes 検証セットにおいて0.587 AMOTA を達成し,データアソシエーションのための一段二部マッチングを用いてベースラインより優れる。
論文 参考訳(メタデータ) (2021-01-21T15:50:17Z) - PerMO: Perceiving More at Once from a Single Image for Autonomous
Driving [76.35684439949094]
単一画像から完全テクスチャ化された車両の3次元モデルを検出し,セグメント化し,再構成する新しい手法を提案する。
私たちのアプローチは、ディープラーニングの強みと従来のテクニックの優雅さを組み合わせています。
我々はこれらのアルゴリズムを自律運転システムに統合した。
論文 参考訳(メタデータ) (2020-07-16T05:02:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。