論文の概要: ET-Former: Efficient Triplane Deformable Attention for 3D Semantic Scene Completion From Monocular Camera
- arxiv url: http://arxiv.org/abs/2410.11019v1
- Date: Mon, 14 Oct 2024 19:14:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 14:02:28.027737
- Title: ET-Former: Efficient Triplane Deformable Attention for 3D Semantic Scene Completion From Monocular Camera
- Title(参考訳): ET-Former: モノクロカメラによる3次元シーンコンプリートのための効率的な三面体変形型アテンション
- Authors: Jing Liang, He Yin, Xuewei Qi, Jong Jin Park, Min Sun, Rajasimman Madhivanan, Dinesh Manocha,
- Abstract要約: 本稿では,単一単眼カメラを用いたセマンティックシーン補完のための新しいエンドツーエンドアルゴリズムET-Formerを紹介する。
本手法は,単一のRGB観測からセマンティック占有マップを生成すると同時に,セマンティック予測のための不確実性推定を行う。
- 参考スコア(独自算出の注目度): 53.20087549782785
- License:
- Abstract: We introduce ET-Former, a novel end-to-end algorithm for semantic scene completion using a single monocular camera. Our approach generates a semantic occupancy map from single RGB observation while simultaneously providing uncertainty estimates for semantic predictions. By designing a triplane-based deformable attention mechanism, our approach improves geometric understanding of the scene than other SOTA approaches and reduces noise in semantic predictions. Additionally, through the use of a Conditional Variational AutoEncoder (CVAE), we estimate the uncertainties of these predictions. The generated semantic and uncertainty maps will aid in the formulation of navigation strategies that facilitate safe and permissible decision-making in the future. Evaluated on the Semantic-KITTI dataset, ET-Former achieves the highest IoU and mIoU, surpassing other methods by 15.16% in IoU and 24.24% in mIoU, while reducing GPU memory usage of existing methods by 25%-50.5%.
- Abstract(参考訳): 本稿では,単一単眼カメラを用いたセマンティックシーン補完のための新しいエンドツーエンドアルゴリズムET-Formerを紹介する。
本手法は,単一のRGB観測からセマンティック占有マップを生成すると同時に,セマンティック予測のための不確実性推定を行う。
本手法は,三面体をベースとした変形可能なアテンション機構を設計することにより,他のSOTA手法よりもシーンの幾何学的理解を向上し,意味的予測におけるノイズを低減する。
さらに,条件付き変分オートエンコーダ(CVAE)を用いて,これらの予測の不確かさを推定する。
生成されたセマンティックマップと不確実性マップは、将来安全かつ許容可能な意思決定を促進するナビゲーション戦略の定式化に役立つだろう。
Semantic-KITTIデータセットに基づいて評価され、ET-FormerはIoUとmIoUの最高値に達し、他のメソッドを15.16%、mIoUの24.24%、既存のメソッドのGPUメモリ使用量を25%から50.5%削減した。
関連論文リスト
- Context-Conditioned Spatio-Temporal Predictive Learning for Reliable V2V Channel Prediction [25.688521281119037]
下流タスクの最適化には,V2Vチャネル状態情報(CSI)予測が不可欠である。
従来の予測手法は、時間、帯域幅、アンテナ(TX、RX)空間の予測を含む4次元(4D)CSIに重点を置いている。
本研究では,4次元CSIデータ内の依存関係をキャプチャするコンテキスト条件付き時間予測学習手法を提案する。
論文 参考訳(メタデータ) (2024-09-16T04:15:36Z) - Self-supervised Multi-future Occupancy Forecasting for Autonomous Driving [45.886941596233974]
LiDARで生成された占有グリッドマップ(L-OGM)は、シーン表現のための頑丈な鳥眼ビューを提供する。
提案するフレームワークは、生成アーキテクチャの潜在空間においてL-OGM予測を行う。
我々は、リアルタイムに高品質な予測を提供するシングルステップデコーダまたは拡散ベースのバッチデコーダを用いて予測をデコードする。
論文 参考訳(メタデータ) (2024-07-30T18:37:59Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments [77.0399450848749]
本稿では,OccNeRF法を用いて,3次元監視なしで占有ネットワークを訓練する手法を提案する。
我々は、再構成された占有領域をパラメータ化し、サンプリング戦略を再編成し、カメラの無限知覚範囲に合わせる。
意味的占有予測のために,事前学習した開語彙2Dセグメンテーションモデルの出力をフィルタリングし,プロンプトを洗練するためのいくつかの戦略を設計する。
論文 参考訳(メタデータ) (2023-12-14T18:58:52Z) - Camera-based 3D Semantic Scene Completion with Sparse Guidance Network [18.415854443539786]
本稿では,SGNと呼ばれるカメラベースのセマンティックシーン補完フレームワークを提案する。
SGNは空間幾何学的手がかりに基づいてセマンティック・アウェア・シード・ボクセルからシーン全体へのセマンティクスの伝播を行う。
実験の結果,既存の最先端手法よりもSGNの方が優れていることが示された。
論文 参考訳(メタデータ) (2023-12-10T04:17:27Z) - Exploiting Diffusion Prior for Generalizable Dense Prediction [85.4563592053464]
近年のテキスト・トゥ・イメージ(T2I)拡散モデルでは、既成の高密度予測器では予測できないことがある。
我々は,事前学習したT2Iモデルを用いたパイプラインDMPを,高密度予測タスクの先駆けとして導入する。
限られたドメインのトレーニングデータにもかかわらず、この手法は任意の画像に対して忠実に推定し、既存の最先端のアルゴリズムを超越する。
論文 参考訳(メタデータ) (2023-11-30T18:59:44Z) - Volumetric Semantically Consistent 3D Panoptic Mapping [77.13446499924977]
非構造環境における自律エージェントに適したセマンティック3Dマップを生成することを目的としたオンライン2次元から3次元のセマンティック・インスタンスマッピングアルゴリズムを提案する。
マッピング中にセマンティック予測の信頼性を統合し、セマンティックおよびインスタンス一貫性のある3D領域を生成する新しい方法を導入する。
提案手法は,パブリックな大規模データセット上での最先端の精度を実現し,多くの広く使用されているメトリクスを改善した。
論文 参考訳(メタデータ) (2023-09-26T08:03:10Z) - LOPR: Latent Occupancy PRediction using Generative Models [49.15687400958916]
LiDARの生成した占有グリッドマップ(L-OGM)は、頑丈な鳥の視線シーンを表現している。
本稿では,学習空間内での表現学習と予測という,占有率予測を分離する枠組みを提案する。
論文 参考訳(メタデータ) (2022-10-03T22:04:00Z) - Convolutional Bayesian Kernel Inference for 3D Semantic Mapping [1.7615233156139762]
本稿では,ベイズ的推論を明示的に行うことを学ぶ畳み込みベイズ的カーネル推論層を紹介する。
We learn semantic-geometric probability distributions for LiDAR sensor information and incorporated semantic predictions into a global map。
我々は、KITTIデータセット上での最先端セマンティックマッピングアルゴリズムに対するネットワークの評価を行い、同等のセマンティックラベル推論結果によるレイテンシの向上を実証した。
論文 参考訳(メタデータ) (2022-09-21T21:15:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。