論文の概要: XVTP3D: Cross-view Trajectory Prediction Using Shared 3D Queries for
Autonomous Driving
- arxiv url: http://arxiv.org/abs/2308.08764v1
- Date: Thu, 17 Aug 2023 03:35:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 18:05:40.322364
- Title: XVTP3D: Cross-view Trajectory Prediction Using Shared 3D Queries for
Autonomous Driving
- Title(参考訳): XVTP3D:共有3Dクェリを用いたクロスビュー軌道予測
- Authors: Zijian Song, Huikun Bi, Ruisi Zhang, Tianlu Mao, Zhaoqi Wang
- Abstract要約: 不確実性を伴う軌道予測は、自動運転にとって重要かつ困難な課題である。
共有3Dクエリ(XVTP3D)を用いたクロスビュー軌道予測手法を提案する。
2つの公開データセットに対する実験の結果、XVTP3Dは、一貫したクロスビュー予測で最先端のパフォーマンスを達成した。
- 参考スコア(独自算出の注目度): 7.616422495497465
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Trajectory prediction with uncertainty is a critical and challenging task for
autonomous driving. Nowadays, we can easily access sensor data represented in
multiple views. However, cross-view consistency has not been evaluated by the
existing models, which might lead to divergences between the multimodal
predictions from different views. It is not practical and effective when the
network does not comprehend the 3D scene, which could cause the downstream
module in a dilemma. Instead, we predicts multimodal trajectories while
maintaining cross-view consistency. We presented a cross-view trajectory
prediction method using shared 3D Queries (XVTP3D). We employ a set of 3D
queries shared across views to generate multi-goals that are cross-view
consistent. We also proposed a random mask method and coarse-to-fine
cross-attention to capture robust cross-view features. As far as we know, this
is the first work that introduces the outstanding top-down paradigm in BEV
detection field to a trajectory prediction problem. The results of experiments
on two publicly available datasets show that XVTP3D achieved state-of-the-art
performance with consistent cross-view predictions.
- Abstract(参考訳): 不確実性を伴う軌道予測は、自動運転にとって重要かつ困難な課題である。
今日では、複数のビューで表現されたセンサデータに簡単にアクセスできます。
しかし,既存モデルでは相互視の整合性は評価されていないため,異なる視点からのマルチモーダル予測の相違が生じる可能性がある。
ネットワークが3Dシーンを理解していない場合、ジレンマの下流モジュールを引き起こす可能性がある場合、実用的かつ効果的ではない。
代わりに、ビュー間の一貫性を維持しながらマルチモーダル軌道を予測する。
共有3Dクエリー(XVTP3D)を用いたクロスビュー軌道予測手法を提案する。
ビュー間で共有される一連の3dクエリを使用して、クロスビュー一貫性のあるマルチゴールを生成します。
また,ロバストなクロスビュー特徴を捉えるために,ランダムマスク法と粗いクロスアテンションを提案する。
私たちが知る限り、これはBEV検出分野における卓越したトップダウンパラダイムを軌道予測問題に導入する最初の研究である。
2つの公開データセットに対する実験の結果、XVTP3Dは、一貫したクロスビュー予測で最先端のパフォーマンスを達成した。
関連論文リスト
- PCF-Lift: Panoptic Lifting by Probabilistic Contrastive Fusion [80.79938369319152]
我々は,PCF(Probabilis-tic Contrastive Fusion)に基づくPCF-Liftという新しいパイプラインを設計する。
私たちのPCFリフトは、ScanNetデータセットやMessy Roomデータセット(シーンレベルのPQが4.4%改善)など、広く使用されているベンチマークにおいて、最先端の手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-10-14T16:06:59Z) - Conformal Trajectory Prediction with Multi-View Data Integration in Cooperative Driving [4.628774934971078]
軌道予測に関する現在の研究は、主にエゴ車両の搭載センサーによって収集されたデータに依存している。
V2INetは、既存の単一ビューモデルを拡張することで、マルチビューデータをモデル化するための新しい軌道予測フレームワークである。
以上の結果から,FDE(Final Displacement Error)とMR(Miss Rate)において,単一GPUを用いた優れた性能を示した。
論文 参考訳(メタデータ) (2024-08-01T08:32:03Z) - StreamMOTP: Streaming and Unified Framework for Joint 3D Multi-Object Tracking and Trajectory Prediction [22.29257945966914]
我々は3次元多目的追跡・軌道予測(StreamMOTP)のためのストリーミング統合フレームワークを提案する。
ストリーミング方式でモデルを構築し、メモリバンクを利用して、追跡対象の長期潜伏機能をより効果的に保存し、活用する。
また,予測トラジェクタの品質と一貫性を2ストリーム予測器で改善する。
論文 参考訳(メタデータ) (2024-06-28T11:35:35Z) - Cohere3D: Exploiting Temporal Coherence for Unsupervised Representation
Learning of Vision-based Autonomous Driving [73.3702076688159]
本稿では,コヒーレントなインスタンス表現を長期入力シーケンスで学習するための,新しいコントラスト学習アルゴリズムであるCohere3Dを提案する。
我々は,様々な下流認識,予測,計画タスクにおいて,事前学習したモデルを微調整することにより,アルゴリズムを評価する。
論文 参考訳(メタデータ) (2024-02-23T19:43:01Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - Snipper: A Spatiotemporal Transformer for Simultaneous Multi-Person 3D
Pose Estimation Tracking and Forecasting on a Video Snippet [24.852728097115744]
RGBからの多人数ポーズ理解には、ポーズ推定、トラッキング、動き予測という3つの複雑なタスクが含まれる。
既存の作業の多くは、ひとつのタスクに集中するか、複数のタスクを別々に解決するためのマルチステージアプローチを採用するかのどちらかです。
Snipperは、複数の人物によるポーズ推定、追跡、動き予測を同時に行うための統合されたフレームワークである。
論文 参考訳(メタデータ) (2022-07-09T18:42:14Z) - BEVerse: Unified Perception and Prediction in Birds-Eye-View for
Vision-Centric Autonomous Driving [92.05963633802979]
マルチカメラシステムに基づく3次元認識と予測のための統合フレームワークであるBEVerseを提案する。
マルチタスクBEVerseは3次元オブジェクト検出,セマンティックマップ構築,動き予測において単一タスク法より優れていることを示す。
論文 参考訳(メタデータ) (2022-05-19T17:55:35Z) - X-view: Non-egocentric Multi-View 3D Object Detector [40.25127812839952]
本稿では,マルチビュー方式の欠点を克服するために,X-viewという新しいマルチビュー3D検出手法を提案する。
x-ビューは、元の点が3次元デカルト座標と一致しなければならない遠近観に関する従来の制限を突破する。
KITTIおよびNuScenesデータセットの実験を行い、提案されたX-viewの堅牢性と有効性を実証します。
論文 参考訳(メタデータ) (2021-03-24T06:13:35Z) - Monocular Quasi-Dense 3D Object Tracking [99.51683944057191]
周囲の物体の将来の位置を予測し、自律運転などの多くのアプリケーションで観測者の行動を計画するためには、信頼性と正確な3D追跡フレームワークが不可欠である。
移動プラットフォーム上で撮影された2次元画像のシーケンスから,移動物体を時間とともに効果的に関連付け,その全3次元バウンディングボックス情報を推定するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-12T15:30:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。