論文の概要: OccLE: Label-Efficient 3D Semantic Occupancy Prediction
- arxiv url: http://arxiv.org/abs/2505.20617v2
- Date: Wed, 06 Aug 2025 13:55:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 15:43:08.712477
- Title: OccLE: Label-Efficient 3D Semantic Occupancy Prediction
- Title(参考訳): OccLE: ラベル効率のよい3Dセマンティック動作予測
- Authors: Naiyu Fang, Zheyuan Zhou, Fayao Liu, Xulei Yang, Jiacheng Wei, Lemiao Qiu, Guosheng Lin,
- Abstract要約: 3Dセマンティック占有予測は、直感的で効率的なシーン理解を提供する。
既存のアプローチは、完全な監督や、限られたガイダンスを提供し、最適以下のパフォーマンスを得るセルフスーパービジョンに依存している。
我々は,画像とLiDARを入力とし,限られたボクセルアノテーションで高い性能を維持するラベル効率のよい3Dセマンティックアクセシビリティ予測OccLEを提案する。
- 参考スコア(独自算出の注目度): 48.50138308129873
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D semantic occupancy prediction offers an intuitive and efficient scene understanding and has attracted significant interest in autonomous driving perception. Existing approaches either rely on full supervision, which demands costly voxel-level annotations, or on self-supervision, which provides limited guidance and yields suboptimal performance. To address these challenges, we propose OccLE, a Label-Efficient 3D Semantic Occupancy Prediction that takes images and LiDAR as inputs and maintains high performance with limited voxel annotations. Our intuition is to decouple the semantic and geometric learning tasks and then fuse the learned feature grids from both tasks for the final semantic occupancy prediction. Therefore, the semantic branch distills 2D foundation model to provide aligned pseudo labels for 2D and 3D semantic learning. The geometric branch integrates image and LiDAR inputs in cross-plane synergy based on their inherency, employing semi-supervision to enhance geometry learning. We fuse semantic-geometric feature grids through Dual Mamba and incorporate a scatter-accumulated projection to supervise unannotated prediction with aligned pseudo labels. Experiments show that OccLE achieves competitive performance with only 10\% of voxel annotations on the SemanticKITTI and Occ3D-nuScenes datasets.
- Abstract(参考訳): 3Dセマンティック占有予測は直感的で効率的なシーン理解を提供し、自律運転認識に大きな関心を惹きつけている。
既存のアプローチは、コストのかかるボクセルレベルのアノテーションを必要とする完全な監督や、限られたガイダンスを提供し、最適以下のパフォーマンスをもたらすセルフスーパービジョンに依存している。
これらの課題に対処するために,画像とLiDARを入力として取り込んだラベル効率のよい3Dセマンティックアクシデント予測であるOccLEを提案する。
我々の直感は、意味的および幾何学的学習タスクを分離し、学習した特徴グリッドを両方のタスクから切り離して、最終的な意味的占有率を予測することである。
そのため、セマンティックブランチは2D基礎モデルを蒸留し、2Dおよび3Dセマンティックラーニングのための整列した擬似ラベルを提供する。
幾何学分枝は、画像とLiDAR入力を、その相似性に基づいて平面横断相乗効果に統合し、幾何学習を強化するために半スーパービジョンを利用する。
We fuse semantic-geometric feature grids through Dual Mamba and includes a scatter-cumulated projection to supervise unannotated prediction with aligned pseudo labels。
実験の結果、OccLEはSemanticKITTIとOcc3D-nuScenesデータセット上のボクセルアノテーションのわずか10%で競合性能を達成した。
関連論文リスト
- From Binary to Semantic: Utilizing Large-Scale Binary Occupancy Data for 3D Semantic Occupancy Prediction [0.0]
本稿では,予測プロセスを二分的および意味的占有モジュールに分解する,二分的占有に基づく新しいフレームワークを提案する。
実験の結果,提案手法は事前学習作業と自動ラベル作業の両方において,既存の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2025-07-16T01:57:16Z) - Do It Yourself: Learning Semantic Correspondence from Pseudo-Labels [69.58063088519852]
本稿では,3D対応の擬似ラベルを用いた意味対応推定法を提案する。
具体的には, 3D-aware chaining を用いて得られた擬似ラベルを用いて, 既製の特徴を洗練するためのアダプタを訓練する。
データセット固有のアノテーションの必要性を減らしながら、SPair-71kに新たな最先端を4%以上の絶対的なゲインに設定しました。
論文 参考訳(メタデータ) (2025-06-05T17:54:33Z) - VoxDet: Rethinking 3D Semantic Occupancy Prediction as Dense Object Detection [67.09867723723934]
3Dのセマンティック占有予測は,周囲環境の3D形状とセマンティックスを再構築することを目的としている。
密接なボクセルラベルでは、以前の研究は通常、これを密接なセグメンテーションタスクとして定式化し、それぞれのボクセルを独立に分類する。
本稿では,Voxelレベルの占有率予測を高密度オブジェクト検出として再構成する,インスタンス中心のフレームワークであるVoxDetを提案する。
論文 参考訳(メタデータ) (2025-06-05T04:31:55Z) - AGO: Adaptive Grounding for Open World 3D Occupancy Prediction [11.607246562535366]
オープンワールドの3Dセマンティック占有予測は、センサ入力からボキセル化された3D表現を生成することを目的としている。
AGOは,多様なオープンワールドシナリオを扱うための適応的基盤を持つ,新しい3次元占有予測フレームワークである。
論文 参考訳(メタデータ) (2025-04-14T11:26:20Z) - MinkOcc: Towards real-time label-efficient semantic occupancy prediction [8.239334282982623]
MinkOccはカメラとLiDARのためのマルチモーダルな3Dセマンティック占有予測フレームワークである。
競争精度を維持しつつ、手動ラベリングへの依存を90%削減する。
我々は、MinkOccをキュレートされたデータセットを超えて拡張することを目指しており、自動運転における3Dセマンティック占有率予測のより広範な現実的な展開を可能にしている。
論文 参考訳(メタデータ) (2025-04-03T04:31:56Z) - Bayesian Self-Training for Semi-Supervised 3D Segmentation [59.544558398992386]
3Dセグメンテーションはコンピュータビジョンの中核的な問題である。
完全に教師されたトレーニングを採用するために、3Dポイントクラウドを密にラベル付けすることは、労働集約的で高価です。
半教師付きトレーニングは、ラベル付きデータの小さなセットのみを付与し、より大きなラベル付きデータセットを伴って、より実用的な代替手段を提供する。
論文 参考訳(メタデータ) (2024-09-12T14:54:31Z) - Semi-supervised 3D Semantic Scene Completion with 2D Vision Foundation Model Guidance [8.07701188057789]
我々は、高密度な注釈付きデータへの依存を軽減するために、新しい半教師付きフレームワークを導入する。
提案手法は2次元基礎モデルを用いて3次元シーンの幾何学的・意味的手がかりを生成する。
本手法は,10%のラベル付きデータを用いて全教師付き性能の最大85%を達成する。
論文 参考訳(メタデータ) (2024-08-21T12:13:18Z) - Label-efficient Semantic Scene Completion with Scribble Annotations [29.88371368606911]
ScribbleSCと呼ばれる新しいラベル効率ベンチマークを構築し、スパーススクリブルに基づくセマンティックラベルと密な幾何学的ラベルを組み合わせてセマンティックシーンを補完する。
本手法は, オフライン-オンライン蒸留モジュールを用いた自動ラベル作成とオンラインモデルトレーニングにより, 性能を向上させる。
論文 参考訳(メタデータ) (2024-05-24T03:09:50Z) - 2D Feature Distillation for Weakly- and Semi-Supervised 3D Semantic
Segmentation [92.17700318483745]
合成訓練された2Dセマンティックセマンティックセグメンテーションネットワークから高レベル特徴情報を蒸留するアイデアに基づく画像誘導ネットワーク(IGNet)を提案する。
IGNetは、ScribbleKITTI上の弱い教師付きLiDARセマンティックセマンティックセグメンテーションの最先端の結果を達成し、8%のラベル付きポイントしか持たない完全な教師付きトレーニングに対して最大98%のパフォーマンスを誇っている。
論文 参考訳(メタデータ) (2023-11-27T07:57:29Z) - SPOT: Scalable 3D Pre-training via Occupancy Prediction for Learning Transferable 3D Representations [76.45009891152178]
トレーニング-ファインタニングアプローチは、さまざまな下流データセットとタスクをまたいだトレーニング済みのバックボーンを微調整することで、ラベル付けの負担を軽減することができる。
本稿では, 一般表現学習が, 占領予測のタスクを通じて達成できることを, 初めて示す。
本研究は,LiDAR 点の理解を促進するとともに,LiDAR の事前訓練における今後の進歩の道を開くことを目的とする。
論文 参考訳(メタデータ) (2023-09-19T11:13:01Z) - UniOcc: Unifying Vision-Centric 3D Occupancy Prediction with Geometric
and Semantic Rendering [27.712689811093362]
我々は、ビジョン中心の3D占有率予測トラックにUniOCCというソリューションを提示する。
我々のソリューションは、単一のモデルで公式のリーダーボード上で51.27% mIoUを達成した。
論文 参考訳(メタデータ) (2023-06-15T13:23:57Z) - VL-SAT: Visual-Linguistic Semantics Assisted Training for 3D Semantic
Scene Graph Prediction in Point Cloud [51.063494002003154]
点雲における3次元意味的シーングラフ(DSSG)の予測は、3次元点雲が2次元画像と比較して限られた意味を持つ幾何学的構造のみを捉えているため困難である。
本稿では,3DSSG予測モデルに対して,長い尾とあいまいな意味関係を識別できる視覚言語セマンティックス支援トレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-03-25T09:14:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。