Fugu-MT 論文翻訳(概要): $α$-SSC: Uncertainty-Aware Camera-based 3D Semantic Scene Completion

論文の概要: $α$-SSC: Uncertainty-Aware Camera-based 3D Semantic Scene Completion

arxiv url: http://arxiv.org/abs/2406.11021v2
Date: Fri, 21 Jun 2024 06:42:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-24 18:47:43.660838
Title: $α$-SSC: Uncertainty-Aware Camera-based 3D Semantic Scene Completion
Title（参考訳）: α$-SSC:不確かさを意識したカメラベースの3Dセマンティック・シーン・コンプリート
Authors: Sanbao Su, Nuo Chen, Felix Juefei-Xu, Chen Feng, Fei Miao,
Abstract要約: 我々は不確実性を考慮したカメラによる3Dセマンティックシーン補完法(alpha$-SSC)を提案する。我々のアプローチは、幾何学的完備化とセマンティックセグメンテーションを強化するために、深度モデルからの不確実性伝播フレームワークを含む。幾何レベルでは、安全クリティカルクラスの占有リコールを大幅に改善する新しいKL発散に基づくスコア関数を提案する。
参考スコア（独自算出の注目度）: 34.744565054976285
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In the realm of autonomous vehicle (AV) perception, comprehending 3D scenes is paramount for tasks such as planning and mapping. Semantic scene completion (SSC) aims to infer scene geometry and semantics from limited observations. While camera-based SSC has gained popularity due to affordability and rich visual cues, existing methods often neglect the inherent uncertainty in models. To address this, we propose an uncertainty-aware camera-based 3D semantic scene completion method ($\alpha$-SSC). Our approach includes an uncertainty propagation framework from depth models (Depth-UP) to enhance geometry completion (up to 11.58% improvement) and semantic segmentation (up to 14.61% improvement). Additionally, we propose a hierarchical conformal prediction (HCP) method to quantify SSC uncertainty, effectively addressing high-level class imbalance in SSC datasets. On the geometry level, we present a novel KL divergence-based score function that significantly improves the occupied recall of safety-critical classes (45% improvement) with minimal performance overhead (3.4% reduction). For uncertainty quantification, we demonstrate the ability to achieve smaller prediction set sizes while maintaining a defined coverage guarantee. Compared with baselines, it achieves up to 85% reduction in set sizes. Our contributions collectively signify significant advancements in SSC accuracy and robustness, marking a noteworthy step forward in autonomous perception systems.
Abstract（参考訳）: 自動運転車(AV)の認識の領域では、計画やマッピングといったタスクにおいて、3Dシーンの理解が最重要である。セマンティックシーン補完(SSC)は、限られた観測からシーンの幾何学と意味を推測することを目的としている。カメラベースのSSCは、手頃な価格とリッチな視覚的手がかりによって人気を得ているが、既存の手法はモデルに固有の不確実性を無視していることが多い。そこで我々は,不確実性を考慮したカメラによる3Dセマンティックシーン補完手法(\alpha$-SSC)を提案する。提案手法では,深度モデル(Depth-UP)からの不確実な伝播フレームワークを組み,幾何学的完備化(最大11.58%改良)と意味的セグメンテーション(最大14.61%改良)を向上する。さらに,SSCデータセットの高レベルクラス不均衡を効果的に解消し,SSCの不確かさを定量化する階層型共形予測手法を提案する。幾何レベルでは、安全クリティカルクラス(45%改善)の占有リコールを大幅に改善し、性能オーバーヘッドを最小化(3.4%削減)するKL発散に基づくスコア関数を提案する。不確実性定量化のために、定義されたカバレッジ保証を維持しつつ、より小さな予測セットサイズを達成する能力を示す。ベースラインと比較すると、セットサイズを最大85%削減できる。我々の貢献は、SSCの精度と堅牢性において大きな進歩を示すものであり、自律認識システムにおける注目すべき一歩である。

関連論文リスト

One Step Closer: Creating the Future to Boost Monocular Semantic Scene Completion [3.664655957801223]
現実世界の交通シナリオでは、視覚的な3Dシーンのかなりの部分は、カメラの視野の外側に留まっている。本稿では、擬似未来フレーム予測を利用して、モデルの有効性を拡大する新しい時間的SSCフレームワークであるCreating the Future SSCを提案する。提案手法は、ポーズと深さを組み合わせて正確な3次元対応を確立し、3次元空間における過去、現在、予測される将来のフレームの幾何学的に一貫性のある融合を可能にする。
論文参考訳（メタデータ） (2025-07-18T10:24:58Z)
Zero-shot Inexact CAD Model Alignment from a Single Image [53.37898107159792]
1つの画像から3Dシーン構造を推測する実践的なアプローチは、データベースから密に一致する3Dモデルを検索し、画像内のオブジェクトと整列させることである。既存のメソッドは、イメージによる教師付きトレーニングとアノテーションのポーズに依存しており、オブジェクトカテゴリの狭いセットに制限されている。ポーズアノテーションを必要とせず、未知のカテゴリに一般化する不正確な3次元モデルの弱い教師付き9-DoFアライメント法を提案する。
論文参考訳（メタデータ） (2025-07-04T04:46:59Z)
DSOcc: Leveraging Depth Awareness and Semantic Aid to Boost Camera-Based 3D Semantic Occupancy Prediction [51.42817309112156]
カメラによる3Dセマンティックアクセシビリティ予測(DSOcc)を促進するために,奥行き認識とセマンティック支援を活用することを提案する。我々は,非学習法によりソフトな占有率の信頼度を算出し,画像特徴に乗じてボクセルに奥行きを知らせる,占有状態と占有階級推定を共同で行う。特徴学習を向上する代わりに、よく訓練されたイメージセマンティックセグメンテーションと、その占有確率で複数のフレームを融合させて、占有率のクラス推論を支援する。
論文参考訳（メタデータ） (2025-05-27T09:45:00Z)
ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文参考訳（メタデータ） (2024-11-12T11:32:56Z)
OccLoff: Learning Optimized Feature Fusion for 3D Occupancy Prediction [5.285847977231642]
3Dセマンティック占有予測は、自動運転の安全性を確保するために不可欠である。既存のフュージョンベースの占有法では、画像の特徴に対して2次元から3次元のビュー変換を行うのが一般的である。 OccLoffは3次元占有予測のためにFeature Fusionを最適化するフレームワークである。
論文参考訳（メタデータ） (2024-11-06T06:34:27Z)
ET-Former: Efficient Triplane Deformable Attention for 3D Semantic Scene Completion From Monocular Camera [53.20087549782785]
本稿では,単一単眼カメラを用いたセマンティックシーン補完のための新しいエンドツーエンドアルゴリズムET-Formerを紹介する。本手法は,単一のRGB観測からセマンティック占有マップを生成すると同時に,セマンティック予測のための不確実性推定を行う。
論文参考訳（メタデータ） (2024-10-14T19:14:49Z)
SGCCNet: Single-Stage 3D Object Detector With Saliency-Guided Data Augmentation and Confidence Correction Mechanism [7.631190617438259]
単一段階点ベース3次元物体検出器は、低品質物体(ILQ)の不十分な学習や、局所化精度と分類信頼度(MLC)の不一致といった課題に直面している。 ILQでは、SGCCNetがSaliency-Guided Data Augmentation(SGDA)戦略を採用し、低品質オブジェクトに対するモデルの堅牢性を高める。 MLCでは、ポイントベースマルチクラス検出器に特化して信頼性補正機構(CCM)を設計する。
論文参考訳（メタデータ） (2024-07-01T12:36:01Z)
UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文参考訳（メタデータ） (2024-04-23T00:18:00Z)
Calib3D: Calibrating Model Preferences for Reliable 3D Scene Understanding [55.32861154245772]
Calib3Dは3Dシーン理解モデルの信頼性をベンチマークし精査する先駆的な試みである。 10種類の3Dデータセットにわたる28の最先端モデルを評価した。本稿では,3次元モデルのキャリブレーション向上を目的とした,深度対応のスケーリング手法であるDeptSを紹介する。
論文参考訳（メタデータ） (2024-03-25T17:59:59Z)
PaSCo: Urban 3D Panoptic Scene Completion with Uncertainty Awareness [38.802781781863196]
Panoptic Scene Completion (PSC)タスクは、一般的なセマンティック・シーン・コンプリート(SSC)タスクをインスタンスレベルの情報で拡張する。我々のPSC提案では,スパースマルチスケールコンプリートから空でないボクセルにマスクを用いたハイブリッド手法を用いている。提案手法は,Panoptic Scene Completionと3つの大規模自律走行データセットにおける不確実性評価の両方において,すべてのベースラインを超えている。
論文参考訳（メタデータ） (2023-12-04T18:59:59Z)
COTR: Compact Occupancy TRansformer for Vision-based 3D Occupancy Prediction [60.87168562615171]
自動運転コミュニティは、3Dの占有率予測に大きな関心を示している。我々は、幾何学的占有率エンコーダと意味論的グループデコーダを備えたコンパクト占有率TRansformer (COTR)を提案する。 COTRは、8%から15%の相対的な改善でベースラインを上回っている。
論文参考訳（メタデータ） (2023-12-04T14:23:18Z)
On the Calibration of Human Pose Estimation [39.15814732856338]
Calibrated ConfidenceNet (CCNet)は、市販のポーズ推定フレームワークでAPを最大1.4%改善する軽量なポストホック追加である。メッシュリカバリの下流タスクに適用されたCCNetは、3Dキーポイントエラーを1.0mm削減する。
論文参考訳（メタデータ） (2023-11-28T09:31:09Z)
Enhancing Few-shot CLIP with Semantic-Aware Fine-Tuning [61.902254546858465]
Contrastive Language-Image Pre-Trainingに基づく手法は、数発の適応タスクで有望な性能を示した。本稿では,タスク固有のセマンティクスに焦点を合わせるために,トレーニングプロセス中にアテンションプーリング層のパラメータを微調整することを提案する。
論文参考訳（メタデータ） (2023-11-08T05:18:57Z)
CPPF++: Uncertainty-Aware Sim2Real Object Pose Estimation by Vote Aggregation [67.12857074801731]
そこで本研究では,シミュレートからリアルなポーズ推定のための新しい手法であるCPPF++を提案する。投票衝突による課題に対処するため,投票の不確実性をモデル化する新たなアプローチを提案する。ノイズの多いペアフィルタリング、オンラインアライメント最適化、機能アンサンブルなど、いくつかの革新的なモジュールを組み込んでいます。
論文参考訳（メタデータ） (2022-11-24T03:27:00Z)
Uncertainty-Aware Camera Pose Estimation from Points and Lines [101.03675842534415]
Perspective-n-Point-and-Line (Pn$PL) は、2D-3D特徴座標の3Dモデルに関して、高速で正確で堅牢なカメラローカライゼーションを目指している。
論文参考訳（メタデータ） (2021-07-08T15:19:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。