論文の概要: $α$-OCC: Uncertainty-Aware Camera-based 3D Semantic Occupancy Prediction
- arxiv url: http://arxiv.org/abs/2406.11021v4
- Date: Fri, 31 Jan 2025 16:18:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 13:59:03.323577
- Title: $α$-OCC: Uncertainty-Aware Camera-based 3D Semantic Occupancy Prediction
- Title(参考訳): α$-OCC:不確かさを意識したカメラベースの3Dセマンティックアクシデント予測
- Authors: Sanbao Su, Nuo Chen, Chenchen Lin, Felix Juefei-Xu, Chen Feng, Fei Miao,
- Abstract要約: カメラによる3Dセマンティック占領予測(OCC)は,限られた観測からシーン形状と意味を推定することを目的としている。
最初にDepth-UPを紹介します。これは、最大11.58%の幾何補完を改善する不確実性伝播フレームワークです。
不確実性(UQ)のために,OCCデータセットの高レベルクラス不均衡を効果的に扱う階層的整合予測(HCP)手法を提案する。
- 参考スコア(独自算出の注目度): 32.78977564877008
- License:
- Abstract: In the realm of autonomous vehicle perception, comprehending 3D scenes is paramount for tasks such as planning and mapping. Camera-based 3D Semantic Occupancy Prediction (OCC) aims to infer scene geometry and semantics from limited observations. While it has gained popularity due to affordability and rich visual cues, existing methods often neglect the inherent uncertainty in models. To address this, we propose an uncertainty-aware OCC method ($\alpha$-OCC). We first introduce Depth-UP, an uncertainty propagation framework that improves geometry completion by up to 11.58\% and semantic segmentation by up to 12.95\% across various OCC models. For uncertainty quantification (UQ), we propose the hierarchical conformal prediction (HCP) method, effectively handling the high-level class imbalance in OCC datasets. On the geometry level, the novel KL-based score function significantly improves the occupied recall (45\%) of safety-critical classes with minimal performance overhead (3.4\% reduction). On UQ, our HCP achieves smaller prediction set sizes while maintaining the defined coverage guarantee. Compared with baselines, it reduces up to 92\% set size, with 18\% further reduction when integrated with Depth-UP. Our contributions advance OCC accuracy and robustness, marking a noteworthy step forward in autonomous perception systems.
- Abstract(参考訳): 自動運転車の認識の領域では、3Dシーンの理解は計画やマッピングといったタスクにとって最重要である。
カメラによる3Dセマンティック占領予測(OCC)は,限られた観測からシーン形状と意味を推定することを目的としている。
手頃な価格と豊富な視覚的手がかりによって人気が高まりつつあるが、既存の手法はモデルに固有の不確実性を無視していることが多い。
そこで本研究では,不確実性を考慮したOCC法(\alpha$-OCC)を提案する。
最初にDepth-UPを紹介した。この不確実性伝播フレームワークは、幾何完成度を最大11.58\%改善し、セマンティックセグメンテーションを最大12.95\%改善する。
不確実性定量化(UQ)のために,OCCデータセットの高レベルクラス不均衡を効果的に扱う階層的共形予測(HCP)手法を提案する。
幾何レベルでは、新しいKLベースのスコア関数は、性能オーバーヘッドが最小限である安全クリティカルクラスの占有リコール(45\%)を大幅に改善する(3.4\%削減)。
UQでは,定義したカバレッジ保証を維持しつつ,予測セットのサイズを小さくする。
ベースラインと比較すると、最大92\%のセットサイズが減少し、Depth-UPと統合するとさらに18\%削減される。
当社の貢献はOCCの精度と堅牢性を向上させ、自律的な認識システムにおいて注目すべき一歩を踏み出した。
関連論文リスト
- ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。
本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。
私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - SGCCNet: Single-Stage 3D Object Detector With Saliency-Guided Data Augmentation and Confidence Correction Mechanism [7.631190617438259]
単一段階点ベース3次元物体検出器は、低品質物体(ILQ)の不十分な学習や、局所化精度と分類信頼度(MLC)の不一致といった課題に直面している。
ILQでは、SGCCNetがSaliency-Guided Data Augmentation(SGDA)戦略を採用し、低品質オブジェクトに対するモデルの堅牢性を高める。
MLCでは、ポイントベースマルチクラス検出器に特化して信頼性補正機構(CCM)を設計する。
論文 参考訳(メタデータ) (2024-07-01T12:36:01Z) - Calib3D: Calibrating Model Preferences for Reliable 3D Scene Understanding [55.32861154245772]
Calib3Dは3Dシーン理解モデルの信頼性をベンチマークし精査する先駆的な試みである。
10の異なる3Dデータセットにまたがる28の最先端モデルを総合的に評価する。
本稿では,3次元モデルのキャリブレーション向上を目的とした,深度対応のスケーリング手法であるDeptSを紹介する。
論文 参考訳(メタデータ) (2024-03-25T17:59:59Z) - PaSCo: Urban 3D Panoptic Scene Completion with Uncertainty Awareness [38.802781781863196]
Panoptic Scene Completion (PSC)タスクは、一般的なセマンティック・シーン・コンプリート(SSC)タスクをインスタンスレベルの情報で拡張する。
我々のPSC提案では,スパースマルチスケールコンプリートから空でないボクセルにマスクを用いたハイブリッド手法を用いている。
提案手法は,Panoptic Scene Completionと3つの大規模自律走行データセットにおける不確実性評価の両方において,すべてのベースラインを超えている。
論文 参考訳(メタデータ) (2023-12-04T18:59:59Z) - COTR: Compact Occupancy TRansformer for Vision-based 3D Occupancy Prediction [60.87168562615171]
自動運転コミュニティは、3Dの占有率予測に大きな関心を示している。
我々は、幾何学的占有率エンコーダと意味論的グループデコーダを備えたコンパクト占有率TRansformer (COTR)を提案する。
COTRは、8%から15%の相対的な改善でベースラインを上回っている。
論文 参考訳(メタデータ) (2023-12-04T14:23:18Z) - On the Calibration of Human Pose Estimation [39.15814732856338]
Calibrated ConfidenceNet (CCNet)は、市販のポーズ推定フレームワークでAPを最大1.4%改善する軽量なポストホック追加である。
メッシュリカバリの下流タスクに適用されたCCNetは、3Dキーポイントエラーを1.0mm削減する。
論文 参考訳(メタデータ) (2023-11-28T09:31:09Z) - Enhancing Few-shot CLIP with Semantic-Aware Fine-Tuning [61.902254546858465]
Contrastive Language-Image Pre-Trainingに基づく手法は、数発の適応タスクで有望な性能を示した。
本稿では,タスク固有のセマンティクスに焦点を合わせるために,トレーニングプロセス中にアテンションプーリング層のパラメータを微調整することを提案する。
論文 参考訳(メタデータ) (2023-11-08T05:18:57Z) - CPPF++: Uncertainty-Aware Sim2Real Object Pose Estimation by Vote Aggregation [67.12857074801731]
そこで本研究では,シミュレートからリアルなポーズ推定のための新しい手法であるCPPF++を提案する。
投票衝突による課題に対処するため,投票の不確実性をモデル化する新たなアプローチを提案する。
ノイズの多いペアフィルタリング、オンラインアライメント最適化、機能アンサンブルなど、いくつかの革新的なモジュールを組み込んでいます。
論文 参考訳(メタデータ) (2022-11-24T03:27:00Z) - Uncertainty-Aware Camera Pose Estimation from Points and Lines [101.03675842534415]
Perspective-n-Point-and-Line (Pn$PL) は、2D-3D特徴座標の3Dモデルに関して、高速で正確で堅牢なカメラローカライゼーションを目指している。
論文 参考訳(メタデータ) (2021-07-08T15:19:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。