論文の概要: Visual Point Cloud Forecasting enables Scalable Autonomous Driving
- arxiv url: http://arxiv.org/abs/2312.17655v1
- Date: Fri, 29 Dec 2023 15:44:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-02 09:19:30.887226
- Title: Visual Point Cloud Forecasting enables Scalable Autonomous Driving
- Title(参考訳): スケーラブルな自動運転を実現するvisual point cloud forecasting
- Authors: Zetong Yang, Li Chen, Yanan Sun, Hongyang Li
- Abstract要約: 視覚的自律運転アプリケーションは、セマンティクス、三次元幾何学、時間情報を同時に含む機能を必要とする。
我々は、下流のビジュアルエンコーダを事前訓練するための一般的なモデルViDARを提案する。
実験の結果、例えば3D検出における3.1%のNDS、モーション予測における10%のエラー削減、計画における衝突率15%の削減といった下流タスクが顕著に向上した。
- 参考スコア(独自算出の注目度): 28.376086570498952
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In contrast to extensive studies on general vision, pre-training for scalable
visual autonomous driving remains seldom explored. Visual autonomous driving
applications require features encompassing semantics, 3D geometry, and temporal
information simultaneously for joint perception, prediction, and planning,
posing dramatic challenges for pre-training. To resolve this, we bring up a new
pre-training task termed as visual point cloud forecasting - predicting future
point clouds from historical visual input. The key merit of this task captures
the synergic learning of semantics, 3D structures, and temporal dynamics. Hence
it shows superiority in various downstream tasks. To cope with this new
problem, we present ViDAR, a general model to pre-train downstream visual
encoders. It first extracts historical embeddings by the encoder. These
representations are then transformed to 3D geometric space via a novel Latent
Rendering operator for future point cloud prediction. Experiments show
significant gain in downstream tasks, e.g., 3.1% NDS on 3D detection, ~10%
error reduction on motion forecasting, and ~15% less collision rate on
planning.
- Abstract(参考訳): 一般ビジョンに関する広範な研究とは対照的に、スケーラブルな視覚自律運転のための事前トレーニングは、ほとんど検討されていない。
視覚自律運転アプリケーションは、共同認識、予測、計画のためのセマンティクス、3次元幾何学、時間情報を同時に含む機能を必要とする。
これを解決するために、視覚点雲予測と呼ばれる新しい事前学習タスクを導入し、過去の視覚入力から将来の点雲を予測する。
このタスクの重要な利点は、意味学、3D構造、時間力学のシナジー学習を捉えることである。
したがって、様々な下流タスクにおいて優位性を示す。
この問題に対処するために、下流のビジュアルエンコーダを事前学習するための一般的なモデルViDARを提案する。
最初にエンコーダによる歴史的埋め込みを抽出する。
これらの表現は、将来のポイントクラウド予測のために、新しい潜在レンダリング演算子を介して3次元幾何学空間に変換される。
実験では、例えば3D検出における3.1%のNDS、モーション予測における10%の誤差削減、計画における衝突率の15%の削減といった下流タスクが顕著に向上した。
関連論文リスト
- Vision-based 3D occupancy prediction in autonomous driving: a review and outlook [19.939380586314673]
本稿では,視覚に基づく3次元占有予測の背景を紹介し,その課題について論じる。
我々は3つの側面から視覚に基づく3D占有率予測の進捗状況を総合的に調査する。
代表的な研究動向を概説し,今後の展望を提案する。
論文 参考訳(メタデータ) (2024-05-04T07:39:25Z) - Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - Unified Spatio-Temporal Tri-Perspective View Representation for 3D Semantic Occupancy Prediction [6.527178779672975]
本研究では,時間的コヒーレントな3次元セマンティック占有予測のためのアーキテクチャ2TPVFormerを提案する。
我々は、新しい時間的相互視ハイブリッドアテンション機構を用いて、時間的手がかりを組み込むことにより、事前のプロセスを豊かにする。
実験により,3次元セマンティック・アクシデンシーにおける平均節間差は4.1%改善した。
論文 参考訳(メタデータ) (2024-01-24T20:06:59Z) - SPOT: Scalable 3D Pre-training via Occupancy Prediction for Learning Transferable 3D Representations [76.45009891152178]
トレーニング-ファインタニングアプローチは、さまざまな下流データセットとタスクをまたいだトレーニング済みのバックボーンを微調整することで、ラベル付けの負担を軽減することができる。
本稿では, 一般表現学習が, 占領予測のタスクを通じて達成できることを, 初めて示す。
本研究は,LiDAR 点の理解を促進するとともに,LiDAR の事前訓練における今後の進歩の道を開くことを目的とする。
論文 参考訳(メタデータ) (2023-09-19T11:13:01Z) - 3D-IntPhys: Towards More Generalized 3D-grounded Visual Intuitive
Physics under Challenging Scenes [68.66237114509264]
複雑なシーンと流体の映像から3次元的な視覚的直感的な物理モデルを学習できるフレームワークを提案する。
本モデルでは,生画像から学習し,明示的な3次元表現空間を用いないモデルよりもはるかに優れた将来予測が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-22T19:28:49Z) - ST-P3: End-to-end Vision-based Autonomous Driving via Spatial-Temporal
Feature Learning [132.20119288212376]
本稿では,認識,予測,計画タスクを同時に行うための,より代表的な特徴の集合に対する時空間的特徴学習手法を提案する。
私たちの知識を最大限に活用するために、私たちは、解釈可能なエンドツーエンドの自動運転システムの各部分を体系的に調査した最初の人です。
論文 参考訳(メタデータ) (2022-07-15T16:57:43Z) - Self-supervised Point Cloud Prediction Using 3D Spatio-temporal
Convolutional Networks [27.49539859498477]
未来の点雲を予測するために、過去の3D LiDARスキャンをエクスプロイトすることは、自律的なモバイルシステムにとって有望な方法である。
本稿では,各3次元LiDARスキャンの2次元範囲画像表現を利用したエンドツーエンドアプローチを提案する。
我々は3次元畳み込みを用いたエンコーダデコーダアーキテクチャを開発し、シーンの空間情報と時間情報を共同で集約する。
論文 参考訳(メタデータ) (2021-09-28T19:58:13Z) - Spatio-temporal Self-Supervised Representation Learning for 3D Point
Clouds [96.9027094562957]
ラベルのないタスクから学習できる時間的表現学習フレームワークを導入する。
幼児が野生の視覚的データからどのように学ぶかに触発され、3Dデータから派生した豊かな手がかりを探索する。
STRLは3Dポイントクラウドシーケンスから2つの時間的関連フレームを入力として、空間データ拡張で変換し、不変表現を自己指導的に学習する。
論文 参考訳(メタデータ) (2021-09-01T04:17:11Z) - Scalable Scene Flow from Point Clouds in the Real World [30.437100097997245]
オープンデータセットに基づくシーンフローの大規模ベンチマークを新たに導入します。
実際のLiDARデータの量に基づいて、これまでの作業がバウンドされているかを示す。
フルポイントクラウド上でリアルタイム推論を提供するモデルアーキテクチャFastFlow3Dを紹介します。
論文 参考訳(メタデータ) (2021-03-01T20:56:05Z) - PointContrast: Unsupervised Pre-training for 3D Point Cloud
Understanding [107.02479689909164]
本研究では,3次元表現学習の研究を支援することを目的とする。
教師なし事前学習が3Dシーンの大規模なソースセットに与える影響を計測する。
論文 参考訳(メタデータ) (2020-07-21T17:59:22Z) - 3DMotion-Net: Learning Continuous Flow Function for 3D Motion Prediction [12.323767993152968]
本研究では,従来の2つの連続したフレームから3次元物体の3次元運動を予測する問題に対処する。
本稿では,ディープニューラルネットワークのパワーを活用して3次元点雲の連続流れ関数を学習する自己教師型アプローチを提案する。
D-FAUST,SCAPE,TOSCAベンチマークデータセットについて広範な実験を行い,本手法が時間的に一貫性のない入力を処理可能であることを示す。
論文 参考訳(メタデータ) (2020-06-24T17:39:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。