論文の概要: ShelfOcc: Native 3D Supervision beyond LiDAR for Vision-Based Occupancy Estimation
- arxiv url: http://arxiv.org/abs/2511.15396v1
- Date: Wed, 19 Nov 2025 12:44:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.805002
- Title: ShelfOcc: Native 3D Supervision beyond LiDAR for Vision-Based Occupancy Estimation
- Title(参考訳): ShelfOcc:LiDARを超えるネイティブ3Dスーパービジョン
- Authors: Simon Boeder, Fabian Gigengack, Simon Roesler, Holger Caesar, Benjamin Risse,
- Abstract要約: 我々は、LiDARに頼ることなく制限を克服する、視覚のみのShelfOccを紹介した。
ShelfOccは、ビデオからメートル法的に一貫したセマンティックなボクセルラベルを生成することで、ネイティブな3D空間を監督する。
本手法では,フレーム間の静的な幾何を一貫したフィルタリングと蓄積により,これらの問題を緩和する専用フレームワークを提案する。
- 参考スコア(独自算出の注目度): 9.977834471775816
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress in self- and weakly supervised occupancy estimation has largely relied on 2D projection or rendering-based supervision, which suffers from geometric inconsistencies and severe depth bleeding. We thus introduce ShelfOcc, a vision-only method that overcomes these limitations without relying on LiDAR. ShelfOcc brings supervision into native 3D space by generating metrically consistent semantic voxel labels from video, enabling true 3D supervision without any additional sensors or manual 3D annotations. While recent vision-based 3D geometry foundation models provide a promising source of prior knowledge, they do not work out of the box as a prediction due to sparse or noisy and inconsistent geometry, especially in dynamic driving scenes. Our method introduces a dedicated framework that mitigates these issues by filtering and accumulating static geometry consistently across frames, handling dynamic content and propagating semantic information into a stable voxel representation. This data-centric shift in supervision for weakly/shelf-supervised occupancy estimation allows the use of essentially any SOTA occupancy model architecture without relying on LiDAR data. We argue that such high-quality supervision is essential for robust occupancy learning and constitutes an important complementary avenue to architectural innovation. On the Occ3D-nuScenes benchmark, ShelfOcc substantially outperforms all previous weakly/shelf-supervised methods (up to a 34% relative improvement), establishing a new data-driven direction for LiDAR-free 3D scene understanding.
- Abstract(参考訳): 近年の自己および弱教師付き占有推定の進歩は、幾何学的不整合と深部出血に悩まされる2次元投影やレンダリングに基づく監督に大きく依存している。
そこで我々は、LiDARを頼らずにこれらの制限を克服する、視覚のみのShelfOccを導入する。
ShelfOccは、ビデオからメートル法的に一貫したセマンティックなボクセルラベルを生成することで、ネイティブな3D空間を監督する。
近年の視覚に基づく3次元幾何学基礎モデルは、事前知識の有望な源泉となっているが、特に動的駆動シーンにおいて、疎かさやうるさい、不整合な幾何学による予測として、ボックス外では機能しない。
本手法では,静的幾何をフレーム間で一貫したフィルタリング,動的コンテンツ処理,セマンティック情報を安定なボクセル表現に伝達することにより,これらの問題を緩和する専用フレームワークを提案する。
このデータ中心の監視のシフトにより、LiDARデータに頼ることなく、本質的に任意のSOTA占有モデルアーキテクチャを使用することができる。
このような高品質な監督は、堅牢な占有学習には不可欠であり、アーキテクチャ革新の重要な補完手段である、と我々は主張する。
Occ3D-nuScenesベンチマークでは、ShelfOccはそれまでの弱い/シェルフで監督されていたすべての手法(最大34%の改善)を大幅に上回り、LiDARのない3Dシーン理解のための新しいデータ駆動の方向を確立した。
関連論文リスト
- GEAL: Generalizable 3D Affordance Learning with Cross-Modal Consistency [50.11520458252128]
既存の3Dアベイランス学習手法は、注釈付きデータに制限があるため、一般化と堅牢性に苦慮している。
本稿では,大規模事前学習型2Dモデルを活用することで,3次元アベイランス学習の一般化と堅牢性を高めるための新しいフレームワークであるGEALを提案する。
GEALは、既存のメソッドと、新しいオブジェクトカテゴリ、および破損したデータにおいて、一貫して優れています。
論文 参考訳(メタデータ) (2024-12-12T17:59:03Z) - Semi-supervised 3D Semantic Scene Completion with 2D Vision Foundation Model Guidance [8.07701188057789]
我々は、高密度な注釈付きデータへの依存を軽減するために、新しい半教師付きフレームワークを導入する。
提案手法は2次元基礎モデルを用いて3次元シーンの幾何学的・意味的手がかりを生成する。
本手法は,10%のラベル付きデータを用いて全教師付き性能の最大85%を達成する。
論文 参考訳(メタデータ) (2024-08-21T12:13:18Z) - GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision [49.839374549646884]
本稿では,視覚のみのサラウンドビュー知覚に適したジオメトリ強化OccupancyネットワークであるGEOccについて述べる。
提案手法は,Occ3D-nuScenesデータセット上で,画像解像度が最小で,画像バックボーンが最大である状態-Of-The-Art性能を実現する。
論文 参考訳(メタデータ) (2024-05-17T07:31:20Z) - FILP-3D: Enhancing 3D Few-shot Class-incremental Learning with Pre-trained Vision-Language Models [59.13757801286343]
クラス増分学習(class-incremental learning)は、モデルが限られたデータで漸進的にトレーニングされている場合、破滅的な忘れの問題を軽減することを目的としている。
本稿では,特徴空間の不整合のための冗長特徴除去器 (RFE) と,重要な雑音に対する空間ノイズ補償器 (SNC) の2つの新しいコンポーネントを備えたFILP-3Dフレームワークを紹介する。
論文 参考訳(メタデータ) (2023-12-28T14:52:07Z) - OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments [77.0399450848749]
本稿では,OccNeRF法を用いて,3次元監視なしで占有ネットワークを訓練する手法を提案する。
我々は、再構成された占有領域をパラメータ化し、サンプリング戦略を再編成し、カメラの無限知覚範囲に合わせる。
意味的占有予測のために,事前学習した開語彙2Dセグメンテーションモデルの出力をフィルタリングし,プロンプトを洗練するためのいくつかの戦略を設計する。
論文 参考訳(メタデータ) (2023-12-14T18:58:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。