論文の概要: CVT-Occ: Cost Volume Temporal Fusion for 3D Occupancy Prediction
- arxiv url: http://arxiv.org/abs/2409.13430v2
- Date: Wed, 25 Sep 2024 07:34:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 07:17:49.029016
- Title: CVT-Occ: Cost Volume Temporal Fusion for 3D Occupancy Prediction
- Title(参考訳): CVT-Occ:3次元作業予測のためのコストボリューム時間核融合
- Authors: Zhangchen Ye, Tao Jiang, Chenfeng Xu, Yiming Li, Hang Zhao,
- Abstract要約: 視覚に基づく3次元占有予測は、深度推定における単眼視の固有の限界によって著しく困難である。
本稿では,3次元占有予測の精度を向上させるために,時間とともにボクセルの幾何学的対応を通して時間的融合を導入する。
- 参考スコア(独自算出の注目度): 41.72152108099274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-based 3D occupancy prediction is significantly challenged by the inherent limitations of monocular vision in depth estimation. This paper introduces CVT-Occ, a novel approach that leverages temporal fusion through the geometric correspondence of voxels over time to improve the accuracy of 3D occupancy predictions. By sampling points along the line of sight of each voxel and integrating the features of these points from historical frames, we construct a cost volume feature map that refines current volume features for improved prediction outcomes. Our method takes advantage of parallax cues from historical observations and employs a data-driven approach to learn the cost volume. We validate the effectiveness of CVT-Occ through rigorous experiments on the Occ3D-Waymo dataset, where it outperforms state-of-the-art methods in 3D occupancy prediction with minimal additional computational cost. The code is released at \url{https://github.com/Tsinghua-MARS-Lab/CVT-Occ}.
- Abstract(参考訳): 視覚に基づく3次元占有予測は、深度推定における単眼視の固有の限界によって著しく困難である。
本稿では,時間とともにボクセルの幾何学的対応を通して時間的融合を活用して3次元占有予測の精度を向上させるCVT-Occを提案する。
各ボクセルの視線に沿って点をサンプリングし、これらの点の特徴を歴史的フレームから統合することにより、予測結果を改善するために現在の体積特性を洗練するコストボリューム特徴写像を構築する。
本手法は,歴史的観測からパララックスの手がかりを生かし,データ駆動方式を用いてコストを学習する。
Occ3D-Waymoデータセットの厳密な実験によりCVT-Occの有効性を検証する。
コードは \url{https://github.com/Tsinghua-MARS-Lab/CVT-Occ} で公開されている。
関連論文リスト
- Spatiotemporal Decoupling for Efficient Vision-Based Occupancy Forecasting [18.933451243989452]
既存の3次元占有予測手法は、可動物体の空間的詳細性を予測するのに苦労する。
本稿では,このバイアスに明示的に対処し,効果的な3次元OCFを実現するための新しいビジョンベースパラダイムを提案する。
我々は,時間的に疎結合な表現で3次元OCFを実現するために,効率的なマルチヘッドネットワークネットワークであるEfficientOCFを開発した。
論文 参考訳(メタデータ) (2024-11-21T14:27:15Z) - ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。
本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。
私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - OccLoff: Learning Optimized Feature Fusion for 3D Occupancy Prediction [5.285847977231642]
3Dセマンティック占有予測は、自動運転の安全性を確保するために不可欠である。
既存のフュージョンベースの占有法では、画像の特徴に対して2次元から3次元のビュー変換を行うのが一般的である。
OccLoffは3次元占有予測のためにFeature Fusionを最適化するフレームワークである。
論文 参考訳(メタデータ) (2024-11-06T06:34:27Z) - OPUS: Occupancy Prediction Using a Sparse Set [64.60854562502523]
学習可能なクエリの集合を用いて、占有された場所とクラスを同時に予測するフレームワークを提案する。
OPUSには、モデルパフォーマンスを高めるための非自明な戦略が組み込まれている。
最も軽量なモデルではOcc3D-nuScenesデータセットの2倍 FPS に優れたRayIoUが得られる一方、最も重いモデルは6.1 RayIoUを上回ります。
論文 参考訳(メタデータ) (2024-09-14T07:44:22Z) - OccFusion: Depth Estimation Free Multi-sensor Fusion for 3D Occupancy Prediction [5.285847977231642]
マルチセンサ融合に基づく自律走行システムの3次元占有予測
従来の核融合による3次元占有予測は2次元画像特徴の深度推定に頼っていた。
深度推定自由マルチモーダル融合フレームワークOccFusionを提案する。
論文 参考訳(メタデータ) (2024-03-08T14:07:37Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments [77.0399450848749]
本稿では,OccNeRF法を用いて,3次元監視なしで占有ネットワークを訓練する手法を提案する。
我々は、再構成された占有領域をパラメータ化し、サンプリング戦略を再編成し、カメラの無限知覚範囲に合わせる。
意味的占有予測のために,事前学習した開語彙2Dセグメンテーションモデルの出力をフィルタリングし,プロンプトを洗練するためのいくつかの戦略を設計する。
論文 参考訳(メタデータ) (2023-12-14T18:58:52Z) - 3D Harmonic Loss: Towards Task-consistent and Time-friendly 3D Object
Detection on Edge for Intelligent Transportation System [28.55894241049706]
本稿では,ポイントクラウドに基づく不整合予測を緩和する3次元高調波損失関数を提案する。
提案手法はベンチマークモデルよりも性能が大幅に向上する。
私たちのコードはオープンソースで公開されています。
論文 参考訳(メタデータ) (2022-11-07T10:11:48Z) - SLPC: a VRNN-based approach for stochastic lidar prediction and
completion in autonomous driving [63.87272273293804]
VRNN(Variiational Recurrent Neural Networks)と呼ばれる生成モデルに基づく新しいLiDAR予測フレームワークを提案する。
提案手法は,フレーム内の奥行きマップを空間的に塗り替えることで,スパースデータを扱う際の従来のビデオ予測フレームワークの限界に対処できる。
VRNNのスパースバージョンとラベルを必要としない効果的な自己監督型トレーニング方法を紹介します。
論文 参考訳(メタデータ) (2021-02-19T11:56:44Z) - RV-FuseNet: Range View Based Fusion of Time-Series LiDAR Data for Joint
3D Object Detection and Motion Forecasting [13.544498422625448]
本稿では,共同検出と軌道推定のための新しいエンドツーエンドアプローチであるRV-FuseNetを提案する。
広範に使用されている鳥眼ビュー(BEV)表現の代わりに,LiDARデータのネイティブレンジビュー(RV)表現を利用する。
提案手法は,既存の最先端技術よりも動作予測性能を著しく向上することを示す。
論文 参考訳(メタデータ) (2020-05-21T19:22:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。