論文の概要: DA-Occ: Efficient 3D Voxel Occupancy Prediction via Directional 2D for Geometric Structure Preservation
- arxiv url: http://arxiv.org/abs/2507.23599v1
- Date: Thu, 31 Jul 2025 14:39:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:09.924832
- Title: DA-Occ: Efficient 3D Voxel Occupancy Prediction via Directional 2D for Geometric Structure Preservation
- Title(参考訳): DA-Occ: 幾何学的構造保存のための方向2Dによる効率的な3次元ボクセル占有予測
- Authors: Yuchen Zhou, Yan Luo, Xiangang Wang, Xingjian Gu, Mingzhou Lu,
- Abstract要約: 自律運転システムの性能を確保するためには,効率よく高精度な3D占有予測が不可欠である。
本手法では,3次元ボクセルの特徴をスライスして完全な垂直幾何情報を保存する。
この戦略は,Bird's-Eye View表現における高さキューの喪失を補償し,立体幾何学構造の整合性を維持する。
- 参考スコア(独自算出の注目度): 13.792614780020061
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Efficient and high-accuracy 3D occupancy prediction is crucial for ensuring the performance of autonomous driving (AD) systems. However, many current methods focus on high accuracy at the expense of real-time processing needs. To address this challenge of balancing accuracy and inference speed, we propose a directional pure 2D approach. Our method involves slicing 3D voxel features to preserve complete vertical geometric information. This strategy compensates for the loss of height cues in Bird's-Eye View (BEV) representations, thereby maintaining the integrity of the 3D geometric structure. By employing a directional attention mechanism, we efficiently extract geometric features from different orientations, striking a balance between accuracy and computational efficiency. Experimental results highlight the significant advantages of our approach for autonomous driving. On the Occ3D-nuScenes, the proposed method achieves an mIoU of 39.3% and an inference speed of 27.7 FPS, effectively balancing accuracy and efficiency. In simulations on edge devices, the inference speed reaches 14.8 FPS, further demonstrating the method's applicability for real-time deployment in resource-constrained environments.
- Abstract(参考訳): 自律運転(AD)システムの性能を確保するためには,効率的な高精度な3D占有予測が不可欠である。
しかし、現在の多くの手法は、リアルタイム処理を犠牲にして高い精度に重点を置いている。
精度と推論速度のバランスをとるこの課題に対処するため、指向性純粋2次元アプローチを提案する。
本手法では,3次元ボクセルの特徴をスライスして完全な垂直幾何情報を保存する。
この戦略は、Bird's-Eye View (BEV) 表現における高さキューの損失を補償し、3次元幾何学構造の整合性を維持する。
指向性アテンション機構を用いることで、異なる方向から幾何学的特徴を効率的に抽出し、精度と計算効率のバランスを崩す。
実験結果から,自律運転におけるアプローチの意義が明らかとなった。
Occ3D-nuScenesでは,mIoU39.3%,推論速度27.7FPSを実現し,精度と効率を効果的にバランスさせる。
エッジデバイス上でのシミュレーションでは、推論速度は14.8 FPSに達し、リソース制約のある環境でのリアルタイムなデプロイメントに適用可能であることを示す。
関連論文リスト
- ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。
本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。
私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - OccLoff: Learning Optimized Feature Fusion for 3D Occupancy Prediction [5.285847977231642]
3Dセマンティック占有予測は、自動運転の安全性を確保するために不可欠である。
既存のフュージョンベースの占有法では、画像の特徴に対して2次元から3次元のビュー変換を行うのが一般的である。
OccLoffは3次元占有予測のためにFeature Fusionを最適化するフレームワークである。
論文 参考訳(メタデータ) (2024-11-06T06:34:27Z) - On Deep Learning for Geometric and Semantic Scene Understanding Using On-Vehicle 3D LiDAR [4.606106768645647]
3D LiDARポイントクラウドデータは、コンピュータビジョン、ロボティクス、自動運転におけるシーン認識に不可欠である。
我々は,パノラマ環境(近赤外)と反射率像を特徴とする,最初の高忠実度18チャネル3次元LiDARデータセットであるDurLARを提案する。
セグメンテーションの精度を向上させるために、Range-Aware Pointwise Distance Distribution (RAPiD) 機能と関連するRAPiD-Segアーキテクチャを導入する。
論文 参考訳(メタデータ) (2024-11-01T14:01:54Z) - DELTA: Dense Efficient Long-range 3D Tracking for any video [82.26753323263009]
DELTAは3次元空間内のすべてのピクセルを効率よく追跡し,ビデオ全体の正確な動き推定を可能にする手法である。
提案手法では,低分解能追跡のためのグローバルアテンション機構と,高分解能予測を実現するためのトランスフォーマーベースアップサンプラーを併用する。
提案手法は,3次元空間における細粒度・長期動作追跡を必要とするアプリケーションに対して,ロバストなソリューションを提供する。
論文 参考訳(メタデータ) (2024-10-31T17:59:01Z) - PointOcc: Cylindrical Tri-Perspective View for Point-based 3D Semantic
Occupancy Prediction [72.75478398447396]
本稿では,点雲を効果的かつ包括的に表現する円筒型三重対視図を提案する。
また,LiDAR点雲の距離分布を考慮し,円筒座標系における三点ビューを構築した。
プロジェクション中に構造の詳細を維持するために空間群プーリングを使用し、各TPV平面を効率的に処理するために2次元バックボーンを採用する。
論文 参考訳(メタデータ) (2023-08-31T17:57:17Z) - 3D Harmonic Loss: Towards Task-consistent and Time-friendly 3D Object
Detection on Edge for Intelligent Transportation System [28.55894241049706]
本稿では,ポイントクラウドに基づく不整合予測を緩和する3次元高調波損失関数を提案する。
提案手法はベンチマークモデルよりも性能が大幅に向上する。
私たちのコードはオープンソースで公開されています。
論文 参考訳(メタデータ) (2022-11-07T10:11:48Z) - 6D Pose Estimation with Combined Deep Learning and 3D Vision Techniques
for a Fast and Accurate Object Grasping [0.19686770963118383]
リアルタイムロボットの把握は高度な自律システムにとって最優先の目標である。
本稿では,ディープニューラルネットワークを用いた高速な2次元物体認識を組み合わせた2段階手法を提案する。
提案手法は、効率と精度の両方を必要とせず、リアルタイムアプリケーションで堅牢に動作する可能性がある。
論文 参考訳(メタデータ) (2021-11-11T15:36:55Z) - Uncertainty-Aware Camera Pose Estimation from Points and Lines [101.03675842534415]
Perspective-n-Point-and-Line (Pn$PL) は、2D-3D特徴座標の3Dモデルに関して、高速で正確で堅牢なカメラローカライゼーションを目指している。
論文 参考訳(メタデータ) (2021-07-08T15:19:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。