論文の概要: DSOcc: Leveraging Depth Awareness and Semantic Aid to Boost Camera-Based 3D Semantic Occupancy Prediction
- arxiv url: http://arxiv.org/abs/2505.20951v1
- Date: Tue, 27 May 2025 09:45:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.553575
- Title: DSOcc: Leveraging Depth Awareness and Semantic Aid to Boost Camera-Based 3D Semantic Occupancy Prediction
- Title(参考訳): DSOcc:カメラによる3Dセマンティックアクシデント予測のための奥行き認識とセマンティックエイド
- Authors: Naiyu Fang, Zheyuan Zhou, Kang Wang, Ruibo Li, Lemiao Qiu, Shuyou Zhang, Zhe Wang, Guosheng Lin,
- Abstract要約: カメラによる3Dセマンティックアクセシビリティ予測(DSOcc)を促進するために,奥行き認識とセマンティック支援を活用することを提案する。
我々は,非学習法によりソフトな占有率の信頼度を算出し,画像特徴を乗じて,占有状態と占有階級推定を共同で行う。
画像のセマンティックセグメンテーションをよく訓練し、複数のフレームをその占有確率で融合することにより、占有率のクラス推論を補助し、堅牢性を高める。
- 参考スコア(独自算出の注目度): 51.42817309112156
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Camera-based 3D semantic occupancy prediction offers an efficient and cost-effective solution for perceiving surrounding scenes in autonomous driving. However, existing works rely on explicit occupancy state inference, leading to numerous incorrect feature assignments, and insufficient samples restrict the learning of occupancy class inference. To address these challenges, we propose leveraging Depth awareness and Semantic aid to boost camera-based 3D semantic Occupancy prediction (DSOcc). We jointly perform occupancy state and occupancy class inference, where soft occupancy confidence is calculated through non-learning method and multiplied with image features to make the voxel representation aware of depth, enabling adaptive implicit occupancy state inference. Rather than focusing on improving feature learning, we directly utilize well-trained image semantic segmentation and fuse multiple frames with their occupancy probabilities to aid occupancy class inference, thereby enhancing robustness. Experimental results demonstrate that DSOcc achieves state-of-the-art performance on the SemanticKITTI dataset among camera-based methods.
- Abstract(参考訳): カメラベースの3Dセマンティック占有予測は、自動運転における周囲のシーンを知覚するための効率的で費用対効果の高いソリューションを提供する。
しかし、既存の研究は明示的な占有状態推論に依存しており、多くの誤った特徴割り当てをもたらし、不十分なサンプルは占有クラス推論の学習を制限する。
これらの課題に対処するために、DSOcc(Depth awareness and Semantic aid)を用いて、カメラベースの3Dセマンティックアクセシビリティ予測(DSOcc)を促進することを提案する。
我々は,非学習手法を用いてソフトな占有率の信頼度を算出し,画像特徴に乗じてボクセル表現に奥行きを認識させ,適応的な占領状態の推測を可能にする,占有状態と占有階級の推論を共同で行う。
特徴学習の改善に焦点をあてるのではなく、よく訓練されたイメージセマンティックセグメンテーションと、その占有確率で複数のフレームを融合することにより、占有率のクラス推論を補助し、堅牢性を向上する。
実験結果から,DSOccはカメラベース手法間でセマンティックKITTIデータセットの最先端性能を実現することが示された。
関連論文リスト
- Underlying Semantic Diffusion for Effective and Efficient In-Context Learning [113.4003355229632]
Underlying Semantic Diffusion (US-Diffusion)は、セマンティック学習、計算効率、文脈内学習能力を高める拡張拡散モデルである。
本稿では,フィードバック信号を利用したフィードバック支援学習(FAL)フレームワークを提案する。
また,高雑音レベルの時間ステップで高密度サンプリングを行うためのプラグイン・アンド・プレイの効率的なサンプリング戦略(ESS)を提案する。
論文 参考訳(メタデータ) (2025-03-06T03:06:22Z) - Self-supervised Learning via Cluster Distance Prediction for Operating Room Context Awareness [44.15562068190958]
オペレーティングルームでは、セマンティックセグメンテーションは、臨床環境を認識したロボットを作るための中核である。
最先端のセマンティックセグメンテーションとアクティビティ認識アプローチは、スケーラブルではない、完全に管理されている。
ToFカメラで撮影したORシーン画像を利用したORシーン理解のための新しい3次元自己教師型タスクを提案する。
論文 参考訳(メタデータ) (2024-07-07T17:17:52Z) - $α$-OCC: Uncertainty-Aware Camera-based 3D Semantic Occupancy Prediction [32.78977564877008]
カメラによる3Dセマンティック占領予測(OCC)は,限られた観測からシーン形状と意味を推定することを目的としている。
最初にDepth-UPを紹介します。これは、最大11.58%の幾何補完を改善する不確実性伝播フレームワークです。
不確実性(UQ)のために,OCCデータセットの高レベルクラス不均衡を効果的に扱う階層的整合予測(HCP)手法を提案する。
論文 参考訳(メタデータ) (2024-06-16T17:27:45Z) - Improving 3D Occupancy Prediction through Class-balancing Loss and Multi-scale Representation [7.651064601670273]
自動運転システムには3D環境認識が不可欠である。
Birds-Eye-View(BEV)に基づく認識は,このタスクのSOTA性能を達成している。
この問題を解決するために,新しいUNetライクなマルチスケールOccupancy Headモジュールを導入する。
論文 参考訳(メタデータ) (2024-05-25T07:13:13Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments [77.0399450848749]
本稿では,OccNeRF法を用いて,3次元監視なしで占有ネットワークを訓練する手法を提案する。
我々は、再構成された占有領域をパラメータ化し、サンプリング戦略を再編成し、カメラの無限知覚範囲に合わせる。
意味的占有予測のために,事前学習した開語彙2Dセグメンテーションモデルの出力をフィルタリングし,プロンプトを洗練するためのいくつかの戦略を設計する。
論文 参考訳(メタデータ) (2023-12-14T18:58:52Z) - PanoOcc: Unified Occupancy Representation for Camera-based 3D Panoptic
Segmentation [45.39981876226129]
本研究では、カメラのみの3Dシーン理解のための統一的な占有表現の実現を目的とした、カメラベースの3Dパノプティクスセグメンテーションについて研究する。
マルチフレーム画像とマルチビュー画像からのセマンティック情報を集約するために,voxelクエリを利用するPanoOccという新しい手法を提案する。
提案手法は,nuScenesデータセット上でのカメラベースセグメンテーションとパノプティクスセグメンテーションのための最新の結果を実現する。
論文 参考訳(メタデータ) (2023-06-16T17:59:33Z) - PointACL:Adversarial Contrastive Learning for Robust Point Clouds
Representation under Adversarial Attack [73.3371797787823]
逆比較学習(Adversarial contrastive learning, ACL)は、事前学習されたモデルの堅牢性を改善する効果的な方法と考えられている。
本稿では,自己指導型コントラスト学習フレームワークを逆向きに学習するために,ロバストな認識損失関数を提案する。
提案手法であるPointACLを,複数のデータセットを用いた3次元分類と3次元分割を含む下流タスクで検証する。
論文 参考訳(メタデータ) (2022-09-14T22:58:31Z) - On Triangulation as a Form of Self-Supervision for 3D Human Pose
Estimation [57.766049538913926]
ラベル付きデータが豊富である場合, 単一画像からの3次元ポーズ推定に対する改良されたアプローチは, 極めて効果的である。
最近の注目の多くは、セミと(あるいは)弱い教師付き学習に移行している。
本稿では,多視点の幾何学的制約を,識別可能な三角測量を用いて課し,ラベルがない場合の自己監督の形式として用いることを提案する。
論文 参考訳(メタデータ) (2022-03-29T19:11:54Z) - Semantics-Driven Unsupervised Learning for Monocular Depth and
Ego-Motion Estimation [33.83396613039467]
ビデオからの単眼深度と自我運動推定のためのセマンティクス駆動型教師なし学習手法を提案する。
近年の教師なし学習法では, 合成ビューと実画像の光度誤差を指導信号として用いている。
論文 参考訳(メタデータ) (2020-06-08T05:55:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。