論文の概要: OccProphet: Pushing Efficiency Frontier of Camera-Only 4D Occupancy Forecasting with Observer-Forecaster-Refiner Framework
- arxiv url: http://arxiv.org/abs/2502.15180v1
- Date: Fri, 21 Feb 2025 03:21:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 19:42:00.283409
- Title: OccProphet: Pushing Efficiency Frontier of Camera-Only 4D Occupancy Forecasting with Observer-Forecaster-Refiner Framework
- Title(参考訳): OccProphet:Observer-Forecaster-Refiner フレームワークによるカメラオンリー4D作業予測の効率化
- Authors: Junliang Chen, Huaiyuan Xu, Yi Wang, Lap-Pui Chau,
- Abstract要約: そこで本稿では,計算要求をはるかに小さくして占有率予測を効率的に学習する新しいフレームワークOccProphetを提案する。
OccProphetは、Observer、Forecaster、Refinerの3つの軽量コンポーネントで構成されている。
計算コストの58%$sim$78%を2.6$times$ speedupで削減する。
- 参考スコア(独自算出の注目度): 22.313380621399517
- License:
- Abstract: Predicting variations in complex traffic environments is crucial for the safety of autonomous driving. Recent advancements in occupancy forecasting have enabled forecasting future 3D occupied status in driving environments by observing historical 2D images. However, high computational demands make occupancy forecasting less efficient during training and inference stages, hindering its feasibility for deployment on edge agents. In this paper, we propose a novel framework, i.e., OccProphet, to efficiently and effectively learn occupancy forecasting with significantly lower computational requirements while improving forecasting accuracy. OccProphet comprises three lightweight components: Observer, Forecaster, and Refiner. The Observer extracts spatio-temporal features from 3D multi-frame voxels using the proposed Efficient 4D Aggregation with Tripling-Attention Fusion, while the Forecaster and Refiner conditionally predict and refine future occupancy inferences. Experimental results on nuScenes, Lyft-Level5, and nuScenes-Occupancy datasets demonstrate that OccProphet is both training- and inference-friendly. OccProphet reduces 58\%$\sim$78\% of the computational cost with a 2.6$\times$ speedup compared with the state-of-the-art Cam4DOcc. Moreover, it achieves 4\%$\sim$18\% relatively higher forecasting accuracy. Code and models are publicly available at https://github.com/JLChen-C/OccProphet.
- Abstract(参考訳): 複雑な交通環境の変動を予測することは、自動運転の安全性に不可欠である。
近年の占領予測の進歩により、歴史的2D画像の観察により、運転環境における将来の3D占有状況の予測が可能となった。
しかし、高い計算要求により、訓練や推論の段階での占有率予測の効率が低下し、エッジエージェントへの展開が困難になる。
本稿では,OccProphetという新しいフレームワークを提案し,予測精度を向上しつつ,計算要求を著しく低くした占有率予測を効率よく,効果的に学習する。
OccProphetは、Observer、Forecaster、Refinerの3つの軽量コンポーネントで構成されている。
オブザーバは、トリプリング・アテンション・フュージョンを用いた効率的な4Dアグリゲーションを用いて、3次元多フレームボクセルから時空間的特徴を抽出し、フォアキャスターとRefinerは、将来の占有推定を条件付きで予測し、洗練する。
nuScenes、Lyft-Level5、nuScenes-Occupancyデータセットの実験結果は、OccProphetがトレーニングと推論の両方に適していることを示している。
OccProphetは、最先端のCam4DOccと比較して、計算コストの58\%$\sim$78\%を2.6$\times$スピードアップで削減する。
さらに、予測精度が比較的高い4\%$\sim$18\%を達成する。
コードとモデルはhttps://github.com/JLChen-C/OccProphet.comで公開されている。
関連論文リスト
- MetaOcc: Surround-View 4D Radar and Camera Fusion Framework for 3D Occupancy Prediction with Dual Training Strategies [10.662778683303726]
本稿では,新しいマルチモーダル占有予測フレームワークであるMetaOccを提案する。
我々はまず,スパースレーダ点からの有効3次元特徴抽出のための高さ自己注意モジュールを設計する。
最後に,擬似ラベル生成のためのオープンセットセグメンタと幾何学的制約を利用した半教師付きトレーニング手法を開発した。
論文 参考訳(メタデータ) (2025-01-26T03:51:56Z) - TEOcc: Radar-camera Multi-modal Occupancy Prediction via Temporal Enhancement [5.860326420490923]
本稿では,TEOccと呼ばれるマルチモーダル時間拡張占有予測ネットワークを提案する。
本手法は3次元物体検出における時間情報の利用の成功に着想を得たものである。
実験の結果、TEOccはnuScenesベンチマークで最先端の占有率予測を達成している。
論文 参考訳(メタデータ) (2024-10-15T03:20:48Z) - CVT-Occ: Cost Volume Temporal Fusion for 3D Occupancy Prediction [41.72152108099274]
視覚に基づく3次元占有予測は、深度推定における単眼視の固有の限界によって著しく困難である。
本稿では,3次元占有予測の精度を向上させるために,時間とともにボクセルの幾何学的対応を通して時間的融合を導入する。
論文 参考訳(メタデータ) (2024-09-20T11:52:47Z) - OPUS: Occupancy Prediction Using a Sparse Set [64.60854562502523]
学習可能なクエリの集合を用いて、占有された場所とクラスを同時に予測するフレームワークを提案する。
OPUSには、モデルパフォーマンスを高めるための非自明な戦略が組み込まれている。
最も軽量なモデルではOcc3D-nuScenesデータセットの2倍 FPS に優れたRayIoUが得られる一方、最も重いモデルは6.1 RayIoUを上回ります。
論文 参考訳(メタデータ) (2024-09-14T07:44:22Z) - OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments [77.0399450848749]
本稿では,OccNeRF法を用いて,3次元監視なしで占有ネットワークを訓練する手法を提案する。
我々は、再構成された占有領域をパラメータ化し、サンプリング戦略を再編成し、カメラの無限知覚範囲に合わせる。
意味的占有予測のために,事前学習した開語彙2Dセグメンテーションモデルの出力をフィルタリングし,プロンプトを洗練するためのいくつかの戦略を設計する。
論文 参考訳(メタデータ) (2023-12-14T18:58:52Z) - Cam4DOcc: Benchmark for Camera-Only 4D Occupancy Forecasting in
Autonomous Driving Applications [21.346206141059156]
Cam4DOccは、カメラのみの4D占有率予測のための新しいベンチマークで、近い将来、周囲の変化を評価する。
私たちは、nuScenes、nuScenes-Occupancy、Lyft-Level5など、複数の公開データセットに基づいて、ベンチマークを構築しています。
このベンチマークを総合的な比較による将来の研究のために確立するために、様々なカメラベースの認識と予測の実装から4つのベースラインタイプを導入する。
論文 参考訳(メタデータ) (2023-11-29T14:25:46Z) - Implicit Occupancy Flow Fields for Perception and Prediction in
Self-Driving [68.95178518732965]
自動運転車(SDV)は、周囲を認識でき、他の交通参加者の将来の行動を予測できなければならない。
既存の作業は、検出されたオブジェクトの軌跡が続くオブジェクト検出を実行するか、シーン全体の密度の高い占有とフローグリッドを予測するかのいずれかである。
これは、認識と将来の予測に対する統一されたアプローチを動機付け、単一のニューラルネットワークで時間とともに占有とフローを暗黙的に表現します。
論文 参考訳(メタデータ) (2023-08-02T23:39:24Z) - Deep Learning for Day Forecasts from Sparse Observations [60.041805328514876]
深層ニューラルネットワークは、気象条件をモデル化するための代替パラダイムを提供する。
MetNet-3は、密度とスパースの両方のデータセンサーから学習し、降水、風、温度、露点を最大24時間前に予測する。
MetNet-3は、それぞれ時間分解能と空間分解能が高く、最大2分と1km、運用遅延は低い。
論文 参考訳(メタデータ) (2023-06-06T07:07:54Z) - Pedestrian 3D Bounding Box Prediction [83.7135926821794]
我々は、自動運転車の複雑な動きの詳細をモデル化せずに、人間の合理的な推定値である3Dバウンディングボックスに焦点を当てる。
本稿では, 歩行者の3次元境界ボックス予測のための, 単純かつ効果的なモデルを提案する。
この方法は、繰り返しニューラルネットワークに基づくエンコーダ・デコーダアーキテクチャに従う。
論文 参考訳(メタデータ) (2022-06-28T17:59:45Z) - Towards physically consistent data-driven weather forecasting:
Integrating data assimilation with equivariance-preserving deep spatial
transformers [2.7998963147546148]
一般的なデータ駆動天気予報モデルと統合する3つのコンポーネントを提案する。
これらのコンポーネントは,1) 等価性を維持するためにU-NETの潜伏空間に付加された深部空間トランスフォーマー,2) ノイズ観測を取り込み,次の予測に対する初期条件を改善するデータ同化アルゴリズム,3) 複数段階のアルゴリズムにより,短時間で予測の精度が向上する。
論文 参考訳(メタデータ) (2021-03-16T23:15:00Z) - SLPC: a VRNN-based approach for stochastic lidar prediction and
completion in autonomous driving [63.87272273293804]
VRNN(Variiational Recurrent Neural Networks)と呼ばれる生成モデルに基づく新しいLiDAR予測フレームワークを提案する。
提案手法は,フレーム内の奥行きマップを空間的に塗り替えることで,スパースデータを扱う際の従来のビデオ予測フレームワークの限界に対処できる。
VRNNのスパースバージョンとラベルを必要としない効果的な自己監督型トレーニング方法を紹介します。
論文 参考訳(メタデータ) (2021-02-19T11:56:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。