論文の概要: TBP-Former: Learning Temporal Bird's-Eye-View Pyramid for Joint
Perception and Prediction in Vision-Centric Autonomous Driving
- arxiv url: http://arxiv.org/abs/2303.09998v2
- Date: Wed, 22 Mar 2023 13:58:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-23 22:14:16.864584
- Title: TBP-Former: Learning Temporal Bird's-Eye-View Pyramid for Joint
Perception and Prediction in Vision-Centric Autonomous Driving
- Title(参考訳): TBP-Former:視覚中心自律運転における同時知覚と予測のための時間鳥の視点ピラミッド学習
- Authors: Shaoheng Fang, Zi Wang, Yiqi Zhong, Junhao Ge, Siheng Chen, Yanfeng
Wang
- Abstract要約: 視覚中心の関節知覚と予測は、自律運転研究の新たなトレンドとなっている。
生のRGB画像から周囲環境における参加者の今後の状況を予測する。
複数のカメラビューとタイムスタンプで得られた機能を同期させることは、依然として重要な課題である。
- 参考スコア(独自算出の注目度): 45.785865869298576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-centric joint perception and prediction (PnP) has become an emerging
trend in autonomous driving research. It predicts the future states of the
traffic participants in the surrounding environment from raw RGB images.
However, it is still a critical challenge to synchronize features obtained at
multiple camera views and timestamps due to inevitable geometric distortions
and further exploit those spatial-temporal features. To address this issue, we
propose a temporal bird's-eye-view pyramid transformer (TBP-Former) for
vision-centric PnP, which includes two novel designs. First, a
pose-synchronized BEV encoder is proposed to map raw image inputs with any
camera pose at any time to a shared and synchronized BEV space for better
spatial-temporal synchronization. Second, a spatial-temporal pyramid
transformer is introduced to comprehensively extract multi-scale BEV features
and predict future BEV states with the support of spatial-temporal priors.
Extensive experiments on nuScenes dataset show that our proposed framework
overall outperforms all state-of-the-art vision-based prediction methods.
- Abstract(参考訳): 視覚中心の関節知覚と予測(PnP)は自律運転研究の新たなトレンドとなっている。
生のRGB画像から周辺環境における交通参加者の今後の状況を予測する。
しかしながら、不可避な幾何学的歪みにより、複数のカメラビューとタイムスタンプで得られた特徴を同期させることは依然として重要な課題であり、これらの空間的-時間的特徴をさらに活用する。
この問題に対処するために,2つの新しいデザインを含む視覚中心型PnPのための時間鳥眼視ピラミッドトランス (TBP-Former) を提案する。
まず、ポーズ同期型BEVエンコーダを提案し、任意のカメラポーズで生画像入力を任意のタイミングで共有同期型BEV空間にマッピングし、時空間同期性を向上する。
第二に、空間的時間的ピラミッド変換器を導入して、マルチスケールのBEV特徴を包括的に抽出し、空間的時間的事前支援により将来のBEV状態を予測する。
nuscenesデータセットに関する広範囲な実験により,提案するフレームワーク全体が,最先端のビジョンに基づく予測手法よりも優れていることが示された。
関連論文リスト
- Where Am I and What Will I See: An Auto-Regressive Model for Spatial Localization and View Prediction [60.964512894143475]
本稿では,空間的局所化とビュー予測を共同で扱う新しい自動回帰フレームワークである生成空間変換器(GST)を提案する。
本モデルでは,カメラのポーズを1つの画像から同時に推定し,新しいカメラのポーズから視点を予測し,空間認識と視覚予測のギャップを効果的に埋める。
論文 参考訳(メタデータ) (2024-10-24T17:58:05Z) - TempBEV: Improving Learned BEV Encoders with Combined Image and BEV Space Temporal Aggregation [9.723276622743473]
我々は,両潜伏空間から収集した時間情報を統合した新しい時間的BEVエンコーダであるTempBEVを開発した。
NuScenesデータセットの実験的評価は、3Dオブジェクト検出とBEVセグメンテーションのベースラインに対するTempBEVによる大幅な改善を示している。
論文 参考訳(メタデータ) (2024-04-17T23:49:00Z) - Street-View Image Generation from a Bird's-Eye View Layout [95.36869800896335]
近年,Bird's-Eye View (BEV) の知覚が注目されている。
自動運転のためのデータ駆動シミュレーションは、最近の研究の焦点となっている。
本稿では,現実的かつ空間的に一貫した周辺画像を合成する条件生成モデルであるBEVGenを提案する。
論文 参考訳(メタデータ) (2023-01-11T18:39:34Z) - ST-P3: End-to-end Vision-based Autonomous Driving via Spatial-Temporal
Feature Learning [132.20119288212376]
本稿では,認識,予測,計画タスクを同時に行うための,より代表的な特徴の集合に対する時空間的特徴学習手法を提案する。
私たちの知識を最大限に活用するために、私たちは、解釈可能なエンドツーエンドの自動運転システムの各部分を体系的に調査した最初の人です。
論文 参考訳(メタデータ) (2022-07-15T16:57:43Z) - BEVerse: Unified Perception and Prediction in Birds-Eye-View for
Vision-Centric Autonomous Driving [92.05963633802979]
マルチカメラシステムに基づく3次元認識と予測のための統合フレームワークであるBEVerseを提案する。
マルチタスクBEVerseは3次元オブジェクト検出,セマンティックマップ構築,動き予測において単一タスク法より優れていることを示す。
論文 参考訳(メタデータ) (2022-05-19T17:55:35Z) - GitNet: Geometric Prior-based Transformation for Birds-Eye-View
Segmentation [105.19949897812494]
Birds-eye-view (BEV) セマンティックセマンティックセグメンテーションは自動運転に不可欠である。
本稿では,GitNetという新しい2段階のGeometry Preside-based Transformationフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-16T06:46:45Z) - BEVFormer: Learning Bird's-Eye-View Representation from Multi-Camera
Images via Spatiotemporal Transformers [39.253627257740085]
マルチカメラ画像に基づく3次元検出やマップセグメンテーションを含む3次元視覚認識タスクは、自律運転システムに不可欠である。
本稿では,複数の自律運転認識タスクをサポートするために,変圧器を用いた統合BEV表現を学習するBEVFormerという新しいフレームワークを提案する。
BEVFormerは低視認性条件下での物体の速度推定とリコールの精度を著しく向上することを示す。
論文 参考訳(メタデータ) (2022-03-31T17:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。