Fugu-MT 論文翻訳(概要): Robust 3D Semantic Occupancy Prediction with Calibration-free Spatial Transformation

論文の概要: Robust 3D Semantic Occupancy Prediction with Calibration-free Spatial Transformation

arxiv url: http://arxiv.org/abs/2411.12177v1
Date: Tue, 19 Nov 2024 02:40:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:48.980376
Title: Robust 3D Semantic Occupancy Prediction with Calibration-free Spatial Transformation
Title（参考訳）: 校正自由空間変換を用いたロバスト3次元セマンティック占有予測
Authors: Zhuangwei Zhuang, Ziyin Wang, Sitao Chen, Lizhao Liu, Hui Luo, Mingkui Tan,
Abstract要約: マルチカメラとLiDARを備えた自動運転車では、高精度で堅牢な予測のために、マルチセンサー情報を統一された3D空間に集約することが重要である。最近の手法は主にセンサキャリブレーションに依存する2D-to-3D変換に基づいて構築され,2D画像情報を3D空間に投影する。本研究では,空間対応を暗黙的にモデル化するために,バニラ注意に基づく校正自由空間変換を提案する。
参考スコア（独自算出の注目度）: 32.50849425431012
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: 3D semantic occupancy prediction, which seeks to provide accurate and comprehensive representations of environment scenes, is important to autonomous driving systems. For autonomous cars equipped with multi-camera and LiDAR, it is critical to aggregate multi-sensor information into a unified 3D space for accurate and robust predictions. Recent methods are mainly built on the 2D-to-3D transformation that relies on sensor calibration to project the 2D image information into the 3D space. These methods, however, suffer from two major limitations: First, they rely on accurate sensor calibration and are sensitive to the calibration noise, which limits their application in real complex environments. Second, the spatial transformation layers are computationally expensive and limit their running on an autonomous vehicle. In this work, we attempt to exploit a Robust and Efficient 3D semantic Occupancy (REO) prediction scheme. To this end, we propose a calibration-free spatial transformation based on vanilla attention to implicitly model the spatial correspondence. In this way, we robustly project the 2D features to a predefined BEV plane without using sensor calibration as input. Then, we introduce 2D and 3D auxiliary training tasks to enhance the discrimination power of 2D backbones on spatial, semantic, and texture features. Last, we propose a query-based prediction scheme to efficiently generate large-scale fine-grained occupancy predictions. By fusing point clouds that provide complementary spatial information, our REO surpasses the existing methods by a large margin on three benchmarks, including OpenOccupancy, Occ3D-nuScenes, and SemanticKITTI Scene Completion. For instance, our REO achieves 19.8$\times$ speedup compared to Co-Occ, with 1.1 improvements in geometry IoU on OpenOccupancy. Our code will be available at https://github.com/ICEORY/REO.
Abstract（参考訳）: 環境シーンを正確に包括的に表現することを目指す3Dセマンティック占有予測は,自律運転システムにおいて重要である。マルチカメラとLiDARを備えた自動運転車では、高精度で堅牢な予測のために、マルチセンサー情報を統一された3D空間に集約することが重要である。最近の手法は主にセンサキャリブレーションに依存する2D-to-3D変換に基づいて構築され,2D画像情報を3D空間に投影する。しかし、これらの手法には2つの大きな制限がある: まず、正確なセンサーキャリブレーションに依存し、キャリブレーションノイズに敏感であり、実際の複雑な環境での使用を制限する。第二に、空間変換層は計算コストが高く、自動運転車上での走行を制限する。本研究では,ロバストで効率的な3Dセマンティック・アクシデンシー(REO)予測手法を応用しようと試みる。そこで本研究では,空間対応を暗黙的にモデル化するために,バニラアテンションに基づくキャリブレーションのない空間変換を提案する。このようにして、センサキャリブレーションを入力として使用せずに、予め定義されたBEV平面に2D機能をしっかりと投影する。次に,空間的,意味的,テクスチャ的特徴に対する2次元バックボーンの識別能力を高めるために,2次元および3次元補助訓練タスクを導入する。最後に,大規模きめ細かな占有率予測を効率的に生成するクエリベースの予測手法を提案する。相補的な空間情報を提供する点雲を融合させることで、我々のREOはOpenOccupancy、Occ3D-nuScenes、SemanticKITTI Scene Completionを含む3つのベンチマークで既存の手法を大きく上回っている。例えば、我々のREOはCo-Occと比較して19.8$\times$のスピードアップを実現しており、OpenOccupancyの幾何学IoUは1.1改善されている。私たちのコードはhttps://github.com/ICEORY/REO.comで公開されます。

関連論文リスト

Towards Scalable Spatial Intelligence via 2D-to-3D Data Lifting [64.64738535860351]
単一ビュー画像を包括的・スケール的・外観リアルな3D表現に変換するスケーラブルなパイプラインを提案する。本手法は,画像の膨大な保存と空間的シーン理解への需要の増大とのギャップを埋めるものである。画像から精度の高い3Dデータを自動的に生成することにより,データ収集コストを大幅に削減し,空間知性を向上するための新たな道を開く。
論文参考訳（メタデータ） (2025-07-24T14:53:26Z)
TGP: Two-modal occupancy prediction with 3D Gaussian and sparse points for 3D Environment Awareness [13.68631587423815]
3Dセマンティックな占有力は、ロボット工学と自律運転環境知覚の分野において、急速に研究の焦点となっている。既存の占有予測タスクは、voxelやポイントクラウドベースのアプローチを使用してモデル化される。本稿では空間的位置と体積構造情報のバランスをとる3次元ガウス集合とスパース点に基づく2次元モーダル予測法を提案する。
論文参考訳（メタデータ） (2025-03-13T01:35:04Z)
Lift3D Foundation Policy: Lifting 2D Large-Scale Pretrained Models for Robust 3D Robotic Manipulation [30.744137117668643]
Lift3Dは、ロバストな3D操作ポリシーを構築するために、暗黙的で明示的な3Dロボット表現で2Dファンデーションモデルを強化するフレームワークである。実験では、Lift3Dはいくつかのシミュレーションベンチマークや実世界のシナリオで、最先端の手法を一貫して上回っている。
論文参考訳（メタデータ） (2024-11-27T18:59:52Z)
ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文参考訳（メタデータ） (2024-11-12T11:32:56Z)
NDC-Scene: Boost Monocular 3D Semantic Scene Completion in Normalized Device Coordinates Space [77.6067460464962]
SSC(Monocular 3D Semantic Scene Completion)は、単一の画像から複雑なセマンティックスや幾何学的形状を予測し、3D入力を必要としないため、近年大きな注目を集めている。我々は,3次元空間に投影された2次元特徴の特徴的曖昧さ,3次元畳み込みのPose Ambiguity,深さの異なる3次元畳み込みにおける不均衡など,現在の最先端手法におけるいくつかの重要な問題を明らかにする。シーン補完ネットワーク(NDC-Scene)を考案し,2を直接拡張する。
論文参考訳（メタデータ） (2023-09-26T02:09:52Z)
Uncertainty-aware State Space Transformer for Egocentric 3D Hand Trajectory Forecasting [79.34357055254239]
ハンドトラジェクトリ予測は、AR/VRシステムと対話する際の人間の意図の迅速な理解を可能にするために不可欠である。既存の方法では、現実の3Dアプリケーションでは不十分な2次元画像空間でこの問題に対処する。初対人視点で観察されたRGBビデオから3次元空間のハンドトラジェクトリを予測することを目的とした,エゴセントリックな3Dハンドトラジェクトリ予測タスクを構築した。
論文参考訳（メタデータ） (2023-07-17T04:55:02Z)
Act3D: 3D Feature Field Transformers for Multi-Task Robotic Manipulation [18.964403296437027]
Act3Dは、手作業に依存する適応的な解像度を持つ3D特徴体を用いて、ロボットのワークスペースを表現する。粗い方法で3Dポイントグリッドをサンプリングし、相対的な位置の注意を使ってそれらを巧みに加工し、次の点サンプリングのラウンドにフォーカスする場所を選択する。
論文参考訳（メタデータ） (2023-06-30T17:34:06Z)
Uncertainty-Aware Camera Pose Estimation from Points and Lines [101.03675842534415]
Perspective-n-Point-and-Line (Pn$PL) は、2D-3D特徴座標の3Dモデルに関して、高速で正確で堅牢なカメラローカライゼーションを目指している。
論文参考訳（メタデータ） (2021-07-08T15:19:36Z)
PLUME: Efficient 3D Object Detection from Stereo Images [95.31278688164646]
既存の手法では、2つのステップでこの問題に対処する: 第一深度推定を行い、その深さ推定から擬似LiDAR点雲表現を計算し、3次元空間で物体検出を行う。この2つのタスクを同一のメトリック空間で統一するモデルを提案する。提案手法は,既存の手法と比較して推定時間を大幅に削減し,挑戦的なKITTIベンチマークの最先端性能を実現する。
論文参考訳（メタデータ） (2021-01-17T05:11:38Z)
Learning to Predict the 3D Layout of a Scene [0.3867363075280544]
本稿では,単一のRGB画像のみを使用する手法を提案し,LiDARセンサを持たないデバイスや車両に適用できるようにする。 KITTIデータセットは,クラスラベル付き道路交通シーン,2D境界ボックス,自由度7自由度3Dアノテーションで構成される。我々は、公式のKITTIベンチマークで要求されるように、結合閾値70%の3次元交差で測定された適度に困難なデータに対して平均47.3%の平均精度を達成し、従来の最先端のRGBのみの手法よりも大きなマージンで上回った。
論文参考訳（メタデータ） (2020-11-19T17:23:30Z)
Cylinder3D: An Effective 3D Framework for Driving-scene LiDAR Semantic Segmentation [87.54570024320354]
大規模運転シーンのLiDARセマンティックセマンティックセグメンテーションのための最先端の手法は、しばしば2D空間の点雲を投影して処理する。 3D-to-2Dプロジェクションの問題に取り組むための簡単な解決策は、3D表現を保ち、3D空間の点を処理することである。我々は3次元シリンダー分割と3次元シリンダー畳み込みに基づくフレームワークをCylinder3Dとして開発し,3次元トポロジの関係と運転シーンの点雲の構造を利用する。
論文参考訳（メタデータ） (2020-08-04T13:56:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。