論文の概要: ShelfOcc: Native 3D Supervision beyond LiDAR for Vision-Based Occupancy Estimation
- arxiv url: http://arxiv.org/abs/2511.15396v1
- Date: Wed, 19 Nov 2025 12:44:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.805002
- Title: ShelfOcc: Native 3D Supervision beyond LiDAR for Vision-Based Occupancy Estimation
- Title(参考訳): ShelfOcc:LiDARを超えるネイティブ3Dスーパービジョン
- Authors: Simon Boeder, Fabian Gigengack, Simon Roesler, Holger Caesar, Benjamin Risse,
- Abstract要約: 我々は、LiDARに頼ることなく制限を克服する、視覚のみのShelfOccを紹介した。
ShelfOccは、ビデオからメートル法的に一貫したセマンティックなボクセルラベルを生成することで、ネイティブな3D空間を監督する。
本手法では,フレーム間の静的な幾何を一貫したフィルタリングと蓄積により,これらの問題を緩和する専用フレームワークを提案する。
- 参考スコア(独自算出の注目度): 9.977834471775816
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress in self- and weakly supervised occupancy estimation has largely relied on 2D projection or rendering-based supervision, which suffers from geometric inconsistencies and severe depth bleeding. We thus introduce ShelfOcc, a vision-only method that overcomes these limitations without relying on LiDAR. ShelfOcc brings supervision into native 3D space by generating metrically consistent semantic voxel labels from video, enabling true 3D supervision without any additional sensors or manual 3D annotations. While recent vision-based 3D geometry foundation models provide a promising source of prior knowledge, they do not work out of the box as a prediction due to sparse or noisy and inconsistent geometry, especially in dynamic driving scenes. Our method introduces a dedicated framework that mitigates these issues by filtering and accumulating static geometry consistently across frames, handling dynamic content and propagating semantic information into a stable voxel representation. This data-centric shift in supervision for weakly/shelf-supervised occupancy estimation allows the use of essentially any SOTA occupancy model architecture without relying on LiDAR data. We argue that such high-quality supervision is essential for robust occupancy learning and constitutes an important complementary avenue to architectural innovation. On the Occ3D-nuScenes benchmark, ShelfOcc substantially outperforms all previous weakly/shelf-supervised methods (up to a 34% relative improvement), establishing a new data-driven direction for LiDAR-free 3D scene understanding.
- Abstract(参考訳): 近年の自己および弱教師付き占有推定の進歩は、幾何学的不整合と深部出血に悩まされる2次元投影やレンダリングに基づく監督に大きく依存している。
そこで我々は、LiDARを頼らずにこれらの制限を克服する、視覚のみのShelfOccを導入する。
ShelfOccは、ビデオからメートル法的に一貫したセマンティックなボクセルラベルを生成することで、ネイティブな3D空間を監督する。
近年の視覚に基づく3次元幾何学基礎モデルは、事前知識の有望な源泉となっているが、特に動的駆動シーンにおいて、疎かさやうるさい、不整合な幾何学による予測として、ボックス外では機能しない。
本手法では,静的幾何をフレーム間で一貫したフィルタリング,動的コンテンツ処理,セマンティック情報を安定なボクセル表現に伝達することにより,これらの問題を緩和する専用フレームワークを提案する。
このデータ中心の監視のシフトにより、LiDARデータに頼ることなく、本質的に任意のSOTA占有モデルアーキテクチャを使用することができる。
このような高品質な監督は、堅牢な占有学習には不可欠であり、アーキテクチャ革新の重要な補完手段である、と我々は主張する。
Occ3D-nuScenesベンチマークでは、ShelfOccはそれまでの弱い/シェルフで監督されていたすべての手法(最大34%の改善)を大幅に上回り、LiDARのない3Dシーン理解のための新しいデータ駆動の方向を確立した。
関連論文リスト
- AugVLA-3D: Depth-Driven Feature Augmentation for Vision-Language-Action Models [42.57469056850227]
VLA(Vision-Language-Action)モデルは最近、ロボットの知覚と制御において顕著な進歩を遂げている。
深度推定をVLAモデルに統合し,3次元特徴表現を充実させる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-11T09:57:32Z) - H3O: Hyper-Efficient 3D Occupancy Prediction with Heterogeneous Supervision [41.529084775662355]
本稿では3次元占有予測手法であるH3Oを提案する。H3Oは高効率なアーキテクチャ設計を特徴とし,現在の最先端手法と比較して計算コストを大幅に削減する。
特に, マルチカメラ深度推定, セマンティックセグメンテーション, および表面正規推定を, 対応する2次元ラベルで教師する可変ボリュームレンダリングにより統合する。
論文 参考訳(メタデータ) (2025-03-06T03:27:14Z) - GEAL: Generalizable 3D Affordance Learning with Cross-Modal Consistency [50.11520458252128]
既存の3Dアベイランス学習手法は、注釈付きデータに制限があるため、一般化と堅牢性に苦慮している。
本稿では,大規模事前学習型2Dモデルを活用することで,3次元アベイランス学習の一般化と堅牢性を高めるための新しいフレームワークであるGEALを提案する。
GEALは、既存のメソッドと、新しいオブジェクトカテゴリ、および破損したデータにおいて、一貫して優れています。
論文 参考訳(メタデータ) (2024-12-12T17:59:03Z) - Semi-supervised 3D Semantic Scene Completion with 2D Vision Foundation Model Guidance [8.07701188057789]
我々は、高密度な注釈付きデータへの依存を軽減するために、新しい半教師付きフレームワークを導入する。
提案手法は2次元基礎モデルを用いて3次元シーンの幾何学的・意味的手がかりを生成する。
本手法は,10%のラベル付きデータを用いて全教師付き性能の最大85%を達成する。
論文 参考訳(メタデータ) (2024-08-21T12:13:18Z) - GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision [49.839374549646884]
本稿では,視覚のみのサラウンドビュー知覚に適したジオメトリ強化OccupancyネットワークであるGEOccについて述べる。
提案手法は,Occ3D-nuScenesデータセット上で,画像解像度が最小で,画像バックボーンが最大である状態-Of-The-Art性能を実現する。
論文 参考訳(メタデータ) (2024-05-17T07:31:20Z) - OccFlowNet: Towards Self-supervised Occupancy Estimation via
Differentiable Rendering and Occupancy Flow [0.6577148087211809]
本稿では,2次元ラベルのみを用いたニューラルレイディアンス場(NeRF)による占有率推定手法を提案する。
深度とセマンティックマップの予測や,2次元監視のみに基づく3次元ネットワークのトレーニングには,可変ボリュームレンダリングを用いる。
論文 参考訳(メタデータ) (2024-02-20T08:04:12Z) - FILP-3D: Enhancing 3D Few-shot Class-incremental Learning with Pre-trained Vision-Language Models [59.13757801286343]
クラス増分学習(class-incremental learning)は、モデルが限られたデータで漸進的にトレーニングされている場合、破滅的な忘れの問題を軽減することを目的としている。
本稿では,特徴空間の不整合のための冗長特徴除去器 (RFE) と,重要な雑音に対する空間ノイズ補償器 (SNC) の2つの新しいコンポーネントを備えたFILP-3Dフレームワークを紹介する。
論文 参考訳(メタデータ) (2023-12-28T14:52:07Z) - OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments [77.0399450848749]
本稿では,OccNeRF法を用いて,3次元監視なしで占有ネットワークを訓練する手法を提案する。
我々は、再構成された占有領域をパラメータ化し、サンプリング戦略を再編成し、カメラの無限知覚範囲に合わせる。
意味的占有予測のために,事前学習した開語彙2Dセグメンテーションモデルの出力をフィルタリングし,プロンプトを洗練するためのいくつかの戦略を設計する。
論文 参考訳(メタデータ) (2023-12-14T18:58:52Z) - Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR-based
Perception [122.53774221136193]
運転時のLiDARに基づく認識のための最先端の手法は、しばしば点雲を2D空間に投影し、2D畳み込みによって処理する。
自然な対策として、3Dボクセル化と3D畳み込みネットワークを利用する方法がある。
本研究では,3次元幾何学的パターンを探索するために,円筒状分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-12T06:25:11Z) - Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR
Segmentation [81.02742110604161]
大規模運転シーンのLiDARセグメンテーションのための最先端の手法は、しばしば点雲を2次元空間に投影し、2D畳み込みによって処理する。
そこで我々は,3次元幾何学的パタンを探索するために,円筒分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
提案手法はセマンティックKITTIのリーダーボードにおいて第1位を獲得し,既存のnuScenesの手法を約4%のマージンで上回っている。
論文 参考訳(メタデータ) (2020-11-19T18:53:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。