論文の概要: ST-P3: End-to-end Vision-based Autonomous Driving via Spatial-Temporal
Feature Learning
- arxiv url: http://arxiv.org/abs/2207.07601v2
- Date: Mon, 18 Jul 2022 02:36:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-19 10:53:24.149454
- Title: ST-P3: End-to-end Vision-based Autonomous Driving via Spatial-Temporal
Feature Learning
- Title(参考訳): ST-P3:空間時間特徴学習によるエンドツーエンドビジョンに基づく自律運転
- Authors: Shengchao Hu and Li Chen and Penghao Wu and Hongyang Li and Junchi Yan
and Dacheng Tao
- Abstract要約: 本稿では,認識,予測,計画タスクを同時に行うための,より代表的な特徴の集合に対する時空間的特徴学習手法を提案する。
私たちの知識を最大限に活用するために、私たちは、解釈可能なエンドツーエンドの自動運転システムの各部分を体系的に調査した最初の人です。
- 参考スコア(独自算出の注目度): 132.20119288212376
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Many existing autonomous driving paradigms involve a multi-stage discrete
pipeline of tasks. To better predict the control signals and enhance user
safety, an end-to-end approach that benefits from joint spatial-temporal
feature learning is desirable. While there are some pioneering works on
LiDAR-based input or implicit design, in this paper we formulate the problem in
an interpretable vision-based setting. In particular, we propose a
spatial-temporal feature learning scheme towards a set of more representative
features for perception, prediction and planning tasks simultaneously, which is
called ST-P3. Specifically, an egocentric-aligned accumulation technique is
proposed to preserve geometry information in 3D space before the bird's eye
view transformation for perception; a dual pathway modeling is devised to take
past motion variations into account for future prediction; a temporal-based
refinement unit is introduced to compensate for recognizing vision-based
elements for planning. To the best of our knowledge, we are the first to
systematically investigate each part of an interpretable end-to-end
vision-based autonomous driving system. We benchmark our approach against
previous state-of-the-arts on both open-loop nuScenes dataset as well as
closed-loop CARLA simulation. The results show the effectiveness of our method.
Source code, model and protocol details are made publicly available at
https://github.com/OpenPerceptionX/ST-P3.
- Abstract(参考訳): 既存の自動運転パラダイムの多くは、タスクの多段階離散パイプラインを含む。
制御信号をよりよく予測し、ユーザ安全性を高めるために、共同空間時空間特徴学習の恩恵を受けるエンドツーエンドアプローチが望ましい。
本稿では,LiDARに基づく入力や暗黙的な設計に関する先駆的な研究があるが,その問題を解釈可能な視覚的設定で定式化する。
特に,ST-P3と呼ばれる,知覚,予測,計画タスクを同時に行うための,より代表的な特徴の集合に対する時空間的特徴学習手法を提案する。
具体的には、鳥の視線変化を知覚するための3次元空間における幾何学情報を保存するために、エゴセントリック・アライメント・アライメント手法を提案し、将来の予測のために過去の動きの変動を考慮に入れた二重経路モデリングを考案した。
我々の知る限りでは、私たちはまず、解釈可能なエンドツーエンドの自動運転システムの各部分を体系的に調査する。
オープンループ nuScenes データセットとクローズループ CARLA シミュレーションを用いて,従来の最先端技術に対するアプローチをベンチマークした。
その結果,本手法の有効性が示された。
ソースコード、モデル、プロトコルの詳細はhttps://github.com/openperceptionx/st-p3で公開されている。
関連論文リスト
- VisionPAD: A Vision-Centric Pre-training Paradigm for Autonomous Driving [44.91443640710085]
VisionPADは、自律運転におけるビジョン中心のアルゴリズムのための、新しい自己教師付き事前訓練パラダイムである。
画像のみを監督として多視点表現を再構築する。
これにより、3Dオブジェクトの検出、占有率予測、マップセグメンテーションのパフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2024-11-22T03:59:41Z) - AdaOcc: Adaptive Forward View Transformation and Flow Modeling for 3D Occupancy and Flow Prediction [56.72301849123049]
CVPR 2024 における nuScenes Open-Occ データセットチャレンジにおいて,視覚中心の3次元活動とフロー予測トラックのソリューションを提案する。
我々の革新的なアプローチは、適応的なフォワード・ビュー・トランスフォーメーションとフロー・モデリングを取り入れることで、3次元の占有率とフロー予測を向上させる2段階のフレームワークである。
提案手法は回帰と分類を組み合わせることで,様々な場面におけるスケールの変動に対処し,予測フローを利用して将来のフレームに現行のボクセル特徴をワープする。
論文 参考訳(メタデータ) (2024-07-01T16:32:15Z) - Unified Spatio-Temporal Tri-Perspective View Representation for 3D Semantic Occupancy Prediction [6.527178779672975]
本研究では,時間的コヒーレントな3次元セマンティック占有予測のためのアーキテクチャ2TPVFormerを提案する。
我々は、新しい時間的相互視ハイブリッドアテンション機構を用いて、時間的手がかりを組み込むことにより、事前のプロセスを豊かにする。
実験により,3次元セマンティック・アクシデンシーにおける平均節間差は4.1%改善した。
論文 参考訳(メタデータ) (2024-01-24T20:06:59Z) - Visual Point Cloud Forecasting enables Scalable Autonomous Driving [28.376086570498952]
視覚的自律運転アプリケーションは、セマンティクス、三次元幾何学、時間情報を同時に含む機能を必要とする。
我々は、下流のビジュアルエンコーダを事前訓練するための一般的なモデルViDARを提案する。
実験の結果、例えば3D検出における3.1%のNDS、モーション予測における10%のエラー削減、計画における衝突率15%の削減といった下流タスクが顕著に向上した。
論文 参考訳(メタデータ) (2023-12-29T15:44:13Z) - OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments [77.0399450848749]
本稿では,OccNeRF法を用いて,3次元監視なしで占有ネットワークを訓練する手法を提案する。
我々は、再構成された占有領域をパラメータ化し、サンプリング戦略を再編成し、カメラの無限知覚範囲に合わせる。
意味的占有予測のために,事前学習した開語彙2Dセグメンテーションモデルの出力をフィルタリングし,プロンプトを洗練するためのいくつかの戦略を設計する。
論文 参考訳(メタデータ) (2023-12-14T18:58:52Z) - SPOT: Scalable 3D Pre-training via Occupancy Prediction for Learning Transferable 3D Representations [76.45009891152178]
トレーニング-ファインタニングアプローチは、さまざまな下流データセットとタスクをまたいだトレーニング済みのバックボーンを微調整することで、ラベル付けの負担を軽減することができる。
本稿では, 一般表現学習が, 占領予測のタスクを通じて達成できることを, 初めて示す。
本研究は,LiDAR 点の理解を促進するとともに,LiDAR の事前訓練における今後の進歩の道を開くことを目的とする。
論文 参考訳(メタデータ) (2023-09-19T11:13:01Z) - BEVerse: Unified Perception and Prediction in Birds-Eye-View for
Vision-Centric Autonomous Driving [92.05963633802979]
マルチカメラシステムに基づく3次元認識と予測のための統合フレームワークであるBEVerseを提案する。
マルチタスクBEVerseは3次元オブジェクト検出,セマンティックマップ構築,動き予測において単一タスク法より優れていることを示す。
論文 参考訳(メタデータ) (2022-05-19T17:55:35Z) - A Spatio-Temporal Multilayer Perceptron for Gesture Recognition [70.34489104710366]
自律走行車におけるジェスチャー認識のための多層状態重み付きパーセプトロンを提案する。
提案手法の有望な性能を示すため,TCGおよびDrive&Actデータセットの評価を行った。
私たちは、そのリアルタイム能力と安定した実行を示すために、モデルを自動運転車にデプロイします。
論文 参考訳(メタデータ) (2022-04-25T08:42:47Z) - PillarGrid: Deep Learning-based Cooperative Perception for 3D Object
Detection from Onboard-Roadside LiDAR [15.195933965761645]
我々は,複数の3次元LiDARからの情報を融合した新しい協調認識手法であるtextitPillarGridを提案する。
PillarGrid は,1) 点雲の協調前処理,2) 軸方向のボキセル化と特徴抽出,3) 複数のセンサからの特徴のグリッド方向の深層融合,4) 畳み込みニューラルネットワーク(CNN) に基づく3Dオブジェクト検出である。
広汎な実験により、PillarGridはSOTA単一LiDARに基づく3Dオブジェクト検出法よりも精度と範囲を大きなマージンで上回ることがわかった。
論文 参考訳(メタデータ) (2022-03-12T02:28:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。