論文の概要: TREND: Unsupervised 3D Representation Learning via Temporal Forecasting for LiDAR Perception
- arxiv url: http://arxiv.org/abs/2412.03054v1
- Date: Wed, 04 Dec 2024 06:17:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 15:08:19.988481
- Title: TREND: Unsupervised 3D Representation Learning via Temporal Forecasting for LiDAR Perception
- Title(参考訳): TREND:LiDAR知覚のための時間予測による教師なし3次元表現学習
- Authors: Runjian Chen, Hyoungseob Park, Bo Zhang, Wenqi Shao, Ping Luo, Alex Wong,
- Abstract要約: TRENDは、教師なし3次元表現学習のための時間予測に関する最初の研究である。
我々は、NuScenes, Once, NuScenesを含む一般的なデータセット上で、下流3Dオブジェクト検出タスク上でTRENDを評価する。
実験の結果, TRENDは従来のSOTA教師なし3D事前学習法と比較して90%向上した。
- 参考スコア(独自算出の注目度): 39.3873954435857
- License:
- Abstract: Labeling LiDAR point clouds is notoriously time-and-energy-consuming, which spurs recent unsupervised 3D representation learning methods to alleviate the labeling burden in LiDAR perception via pretrained weights. Almost all existing work focus on a single frame of LiDAR point cloud and neglect the temporal LiDAR sequence, which naturally accounts for object motion (and their semantics). Instead, we propose TREND, namely Temporal REndering with Neural fielD, to learn 3D representation via forecasting the future observation in an unsupervised manner. Unlike existing work that follows conventional contrastive learning or masked auto encoding paradigms, TREND integrates forecasting for 3D pre-training through a Recurrent Embedding scheme to generate 3D embedding across time and a Temporal Neural Field to represent the 3D scene, through which we compute the loss using differentiable rendering. To our best knowledge, TREND is the first work on temporal forecasting for unsupervised 3D representation learning. We evaluate TREND on downstream 3D object detection tasks on popular datasets, including NuScenes, Once and Waymo. Experiment results show that TREND brings up to 90% more improvement as compared to previous SOTA unsupervised 3D pre-training methods and generally improve different downstream models across datasets, demonstrating that indeed temporal forecasting brings improvement for LiDAR perception. Codes and models will be released.
- Abstract(参考訳): LiDAR点雲のラベル付けは時間とエネルギーのかかることで知られており、最近の教師なしの3D表現学習手法を刺激して、事前訓練された重みを通してLiDAR知覚のラベル付け負担を軽減する。
現存するほとんどの作業は、LiDARポイントクラウドの1フレームに集中し、オブジェクトの動き(およびそれらの意味論)を自然に考慮する時間的LiDARシーケンスを無視している。
代わりに、TREND(Temporal Rendering with Neural fielD)を提案し、教師なしの方法で将来の観測を予測して3D表現を学習する。
従来のコントラスト学習やマスク付きオートエンコーディングのパラダイムに従う既存の作業とは異なり、TRENDは3Dプリトレーニングの予測を、Recurrent Embeddingスキームを通じて統合し、時間にわたって3D埋め込みを生成し、テンポラルニューラルネットワークによって3Dシーンを表現し、異なるレンダリングを用いて損失を計算する。
我々の知る限り、TRENDは教師なし3次元表現学習のための時間的予測に関する最初の研究である。
我々は,NuScenes, Once, Waymoなどの一般的なデータセット上で,下流3Dオブジェクト検出タスク上でTRENDを評価する。
実験の結果、TRENDは以前のSOTAの教師なし3D事前学習手法と比較して最大90%改善し、データセット間で異なる下流モデルを改善することが示され、実際に時間的予測がLiDAR知覚に改善をもたらすことが示されている。
コードとモデルがリリースされる。
関連論文リスト
- Shelf-Supervised Cross-Modal Pre-Training for 3D Object Detection [52.66283064389691]
最先端の3Dオブジェクト検出器は、しばしば大量のラベル付きデータセットで訓練される。
近年の研究では、ラベル付きデータによる自己教師付き事前学習が、ラベル付きラベルによる検出精度を向上させることが示されている。
組合わせRGBとLiDARデータからゼロショット3Dバウンディングボックスを生成するためのシェルフ制御手法を提案する。
論文 参考訳(メタデータ) (2024-06-14T15:21:57Z) - OccFlowNet: Towards Self-supervised Occupancy Estimation via
Differentiable Rendering and Occupancy Flow [0.6577148087211809]
本稿では,2次元ラベルのみを用いたニューラルレイディアンス場(NeRF)による占有率推定手法を提案する。
深度とセマンティックマップの予測や,2次元監視のみに基づく3次元ネットワークのトレーニングには,可変ボリュームレンダリングを用いる。
論文 参考訳(メタデータ) (2024-02-20T08:04:12Z) - OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments [77.0399450848749]
本稿では,OccNeRF法を用いて,3次元監視なしで占有ネットワークを訓練する手法を提案する。
我々は、再構成された占有領域をパラメータ化し、サンプリング戦略を再編成し、カメラの無限知覚範囲に合わせる。
意味的占有予測のために,事前学習した開語彙2Dセグメンテーションモデルの出力をフィルタリングし,プロンプトを洗練するためのいくつかの戦略を設計する。
論文 参考訳(メタデータ) (2023-12-14T18:58:52Z) - SPOT: Scalable 3D Pre-training via Occupancy Prediction for Learning Transferable 3D Representations [76.45009891152178]
トレーニング-ファインタニングアプローチは、さまざまな下流データセットとタスクをまたいだトレーニング済みのバックボーンを微調整することで、ラベル付けの負担を軽減することができる。
本稿では, 一般表現学習が, 占領予測のタスクを通じて達成できることを, 初めて示す。
本研究は,LiDAR 点の理解を促進するとともに,LiDAR の事前訓練における今後の進歩の道を開くことを目的とする。
論文 参考訳(メタデータ) (2023-09-19T11:13:01Z) - 3D Object Detection with a Self-supervised Lidar Scene Flow Backbone [10.341296683155973]
本稿では,下流3次元視覚タスクのための汎用クラウドバックボーンモデルを学習するために,自己指導型トレーニング戦略を提案する。
我々の主な貢献は、学習の流れと動きの表現を活用し、自己教師付きバックボーンと3D検出ヘッドを組み合わせることである。
KITTIとnuScenesベンチマークの実験により、提案した自己教師付き事前学習は3次元検出性能を著しく向上させることが示された。
論文 参考訳(メタデータ) (2022-05-02T07:53:29Z) - Self-supervised Point Cloud Prediction Using 3D Spatio-temporal
Convolutional Networks [27.49539859498477]
未来の点雲を予測するために、過去の3D LiDARスキャンをエクスプロイトすることは、自律的なモバイルシステムにとって有望な方法である。
本稿では,各3次元LiDARスキャンの2次元範囲画像表現を利用したエンドツーエンドアプローチを提案する。
我々は3次元畳み込みを用いたエンコーダデコーダアーキテクチャを開発し、シーンの空間情報と時間情報を共同で集約する。
論文 参考訳(メタデータ) (2021-09-28T19:58:13Z) - Lifting 2D Object Locations to 3D by Discounting LiDAR Outliers across
Objects and Views [70.1586005070678]
本稿では,2次元マスクオブジェクトの予測と生のLiDAR点雲を自動的に3次元境界ボックスに変換するシステムを提案する。
これらの手法は, より複雑なパイプラインや3Dモデル, 付加的な人為的な事前情報ソースを使用するにもかかわらず, 従来よりもはるかに優れていた。
論文 参考訳(メタデータ) (2021-09-16T13:01:13Z) - Spatio-temporal Self-Supervised Representation Learning for 3D Point
Clouds [96.9027094562957]
ラベルのないタスクから学習できる時間的表現学習フレームワークを導入する。
幼児が野生の視覚的データからどのように学ぶかに触発され、3Dデータから派生した豊かな手がかりを探索する。
STRLは3Dポイントクラウドシーケンスから2つの時間的関連フレームを入力として、空間データ拡張で変換し、不変表現を自己指導的に学習する。
論文 参考訳(メタデータ) (2021-09-01T04:17:11Z) - 3DMotion-Net: Learning Continuous Flow Function for 3D Motion Prediction [12.323767993152968]
本研究では,従来の2つの連続したフレームから3次元物体の3次元運動を予測する問題に対処する。
本稿では,ディープニューラルネットワークのパワーを活用して3次元点雲の連続流れ関数を学習する自己教師型アプローチを提案する。
D-FAUST,SCAPE,TOSCAベンチマークデータセットについて広範な実験を行い,本手法が時間的に一貫性のない入力を処理可能であることを示す。
論文 参考訳(メタデータ) (2020-06-24T17:39:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。