論文の概要: OPUS: Occupancy Prediction Using a Sparse Set
- arxiv url: http://arxiv.org/abs/2409.09350v2
- Date: Thu, 31 Oct 2024 01:39:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 20:57:42.380037
- Title: OPUS: Occupancy Prediction Using a Sparse Set
- Title(参考訳): OPUS:スパースセットを用いた作業予測
- Authors: Jiabao Wang, Zhaojiang Liu, Qiang Meng, Liujiang Yan, Ke Wang, Jie Yang, Wei Liu, Qibin Hou, Ming-Ming Cheng,
- Abstract要約: 学習可能なクエリの集合を用いて、占有された場所とクラスを同時に予測するフレームワークを提案する。
OPUSには、モデルパフォーマンスを高めるための非自明な戦略が組み込まれている。
最も軽量なモデルではOcc3D-nuScenesデータセットの2倍 FPS に優れたRayIoUが得られる一方、最も重いモデルは6.1 RayIoUを上回ります。
- 参考スコア(独自算出の注目度): 64.60854562502523
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Occupancy prediction, aiming at predicting the occupancy status within voxelized 3D environment, is quickly gaining momentum within the autonomous driving community. Mainstream occupancy prediction works first discretize the 3D environment into voxels, then perform classification on such dense grids. However, inspection on sample data reveals that the vast majority of voxels is unoccupied. Performing classification on these empty voxels demands suboptimal computation resource allocation, and reducing such empty voxels necessitates complex algorithm designs. To this end, we present a novel perspective on the occupancy prediction task: formulating it as a streamlined set prediction paradigm without the need for explicit space modeling or complex sparsification procedures. Our proposed framework, called OPUS, utilizes a transformer encoder-decoder architecture to simultaneously predict occupied locations and classes using a set of learnable queries. Firstly, we employ the Chamfer distance loss to scale the set-to-set comparison problem to unprecedented magnitudes, making training such model end-to-end a reality. Subsequently, semantic classes are adaptively assigned using nearest neighbor search based on the learned locations. In addition, OPUS incorporates a suite of non-trivial strategies to enhance model performance, including coarse-to-fine learning, consistent point sampling, and adaptive re-weighting, etc. Finally, compared with current state-of-the-art methods, our lightest model achieves superior RayIoU on the Occ3D-nuScenes dataset at near 2x FPS, while our heaviest model surpasses previous best results by 6.1 RayIoU.
- Abstract(参考訳): ボクセル化3D環境における占有状況の予測を目的とした職業予測は,自動運転コミュニティ内で急速に勢いを増している。
メインストリーム占有予測は、まず3次元環境をボクセルに識別し、次にそのような高密度グリッドの分類を行う。
しかし、サンプルデータの検査により、ほとんどのボクセルが占有されていないことが明らかとなった。
これらの空のボクセルの分類を行うには、最適化された計算資源の割り当てが必要であり、そのような空のボクセルを減らすことは複雑なアルゴリズム設計を必要とする。
そこで本稿では,空間モデルや複雑なスペーシフィケーション手順を必要とせず,合理化された集合予測パラダイムとして定式化するという,占有率予測タスクの新たな視点を示す。
提案するフレームワークはOPUSと呼ばれ,トランスフォーマー・エンコーダ・デコーダアーキテクチャを用いて,学習可能なクエリセットを用いて,占有位置とクラスを同時に予測する。
第一に、設定から設定までの比較問題を前例のない大きさに拡大するために、チャンファー距離損失を用いて、そのようなモデルのエンド・ツー・エンドを現実にしている。
その後、学習した位置に基づいて近接探索を用いて、セマンティッククラスを適応的に割り当てる。
さらにOPUSは、粗大な学習、一貫した点サンプリング、適応的な再重み付けなど、モデルパフォーマンスを向上させるための非自明な戦略のスイートを組み込んでいる。
最後に、現在の最先端手法と比較して、我々の最も軽量なモデルはOcc3D-nuScenesデータセットの2倍 FPS で優れたRayIoUを達成し、最も重いモデルは6.1 RayIoU を上回ります。
関連論文リスト
- ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。
本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。
私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - OccLoff: Learning Optimized Feature Fusion for 3D Occupancy Prediction [5.285847977231642]
3Dセマンティック占有予測は、自動運転の安全性を確保するために不可欠である。
既存のフュージョンベースの占有法では、画像の特徴に対して2次元から3次元のビュー変換を行うのが一般的である。
OccLoffは3次元占有予測のためにFeature Fusionを最適化するフレームワークである。
論文 参考訳(メタデータ) (2024-11-06T06:34:27Z) - AdaOcc: Adaptive Forward View Transformation and Flow Modeling for 3D Occupancy and Flow Prediction [56.72301849123049]
CVPR 2024 における nuScenes Open-Occ データセットチャレンジにおいて,視覚中心の3次元活動とフロー予測トラックのソリューションを提案する。
我々の革新的なアプローチは、適応的なフォワード・ビュー・トランスフォーメーションとフロー・モデリングを取り入れることで、3次元の占有率とフロー予測を向上させる2段階のフレームワークである。
提案手法は回帰と分類を組み合わせることで,様々な場面におけるスケールの変動に対処し,予測フローを利用して将来のフレームに現行のボクセル特徴をワープする。
論文 参考訳(メタデータ) (2024-07-01T16:32:15Z) - Pre-training on Synthetic Driving Data for Trajectory Prediction [61.520225216107306]
軌道予測におけるデータ不足の問題を緩和するパイプラインレベルのソリューションを提案する。
我々は、駆動データを生成するためにHDマップ拡張とトラジェクトリ合成を採用し、それらを事前学習することで表現を学習する。
我々は、データ拡張と事前学習戦略の有効性を実証するための広範な実験を行う。
論文 参考訳(メタデータ) (2023-09-18T19:49:22Z) - ICET Online Accuracy Characterization for Geometry-Based Laser Scan
Matching [0.0]
Iterative Closest Ellipsoidal Transform (ICET)は、新しい3D LIDARスキャンマッチングアルゴリズムである。
ICETは、常にサブセンチメートルの精度でスキャンマッチングを行うことを示す。
このレベルの精度は、アルゴリズムが完全に解釈可能であるという事実と相まって、安全クリティカルな輸送用途に適している。
論文 参考訳(メタデータ) (2023-06-14T18:21:45Z) - Emulating Spatio-Temporal Realizations of Three-Dimensional Isotropic
Turbulence via Deep Sequence Learning Models [24.025975236316842]
最先端のディープラーニング技術を用いて3次元乱流をモデル化するために,データ駆動方式を用いる。
モデルの精度は、統計および物理に基づくメトリクスを用いて評価される。
論文 参考訳(メタデータ) (2021-12-07T03:33:39Z) - SLPC: a VRNN-based approach for stochastic lidar prediction and
completion in autonomous driving [63.87272273293804]
VRNN(Variiational Recurrent Neural Networks)と呼ばれる生成モデルに基づく新しいLiDAR予測フレームワークを提案する。
提案手法は,フレーム内の奥行きマップを空間的に塗り替えることで,スパースデータを扱う際の従来のビデオ予測フレームワークの限界に対処できる。
VRNNのスパースバージョンとラベルを必要としない効果的な自己監督型トレーニング方法を紹介します。
論文 参考訳(メタデータ) (2021-02-19T11:56:44Z) - Deep Shells: Unsupervised Shape Correspondence with Optimal Transport [52.646396621449]
本稿では,3次元形状対応のための教師なし学習手法を提案する。
提案手法は,複数のデータセット上での最先端技術よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-10-28T22:24:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。