論文の概要: OccLE: Label-Efficient 3D Semantic Occupancy Prediction
- arxiv url: http://arxiv.org/abs/2505.20617v1
- Date: Tue, 27 May 2025 01:41:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.337957
- Title: OccLE: Label-Efficient 3D Semantic Occupancy Prediction
- Title(参考訳): OccLE: ラベル効率のよい3Dセマンティック動作予測
- Authors: Naiyu Fang, Zheyuan Zhou, Fayao Liu, Xulei Yang, Jiacheng Wei, Lemiao Qiu, Guosheng Lin,
- Abstract要約: OccLEはラベル効率のよい3Dセマンティック動作予測である。
イメージとLiDARを入力として取り、限られたvoxelアノテーションでハイパフォーマンスを維持する。
実験の結果,OccLE は Voxel アノテーションの10% しか使用せず,競争性能が向上していることがわかった。
- 参考スコア(独自算出の注目度): 48.50138308129873
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D semantic occupancy prediction offers an intuitive and efficient scene understanding and has attracted significant interest in autonomous driving perception. Existing approaches either rely on full supervision, which demands costly voxel-level annotations, or on self-supervision, which provides limited guidance and yields suboptimal performance. To address these challenges, we propose OccLE, a Label-Efficient 3D Semantic Occupancy Prediction that takes images and LiDAR as inputs and maintains high performance with limited voxel annotations. Our intuition is to decouple the semantic and geometric learning tasks and then fuse the learned feature grids from both tasks for the final semantic occupancy prediction. Therefore, the semantic branch distills 2D foundation model to provide aligned pseudo labels for 2D and 3D semantic learning. The geometric branch integrates image and LiDAR inputs in cross-plane synergy based on their inherency, employing semi-supervision to enhance geometry learning. We fuse semantic-geometric feature grids through Dual Mamba and incorporate a scatter-accumulated projection to supervise unannotated prediction with aligned pseudo labels. Experiments show that OccLE achieves competitive performance with only 10% of voxel annotations, reaching a mIoU of 16.59% on the SemanticKITTI validation set.
- Abstract(参考訳): 3Dセマンティック占有予測は直感的で効率的なシーン理解を提供し、自律運転認識に大きな関心を惹きつけている。
既存のアプローチは、コストのかかるボクセルレベルのアノテーションを必要とする完全な監督や、限られたガイダンスを提供し、最適以下のパフォーマンスをもたらすセルフスーパービジョンに依存している。
これらの課題に対処するために,画像とLiDARを入力として取り込んだラベル効率のよい3Dセマンティックアクシデント予測であるOccLEを提案する。
我々の直感は、意味的および幾何学的学習タスクを分離し、学習した特徴グリッドを両方のタスクから切り離して、最終的な意味的占有率を予測することである。
そのため、セマンティックブランチは2D基礎モデルを蒸留し、2Dおよび3Dセマンティックラーニングのための整列した擬似ラベルを提供する。
幾何学分枝は、画像とLiDAR入力を、その相似性に基づいて平面横断相乗効果に統合し、幾何学習を強化するために半スーパービジョンを利用する。
We fuse semantic-geometric feature grids through Dual Mamba and includes a scatter-cumulated projection to supervise unannotated prediction with aligned pseudo labels。
実験の結果、OccLEはVoxelアノテーションの10%しか使用せず、SemanticKITTI検証セットで16.59%のmIoUに達した。
関連論文リスト
- Bayesian Self-Training for Semi-Supervised 3D Segmentation [59.544558398992386]
3Dセグメンテーションはコンピュータビジョンの中核的な問題である。
完全に教師されたトレーニングを採用するために、3Dポイントクラウドを密にラベル付けすることは、労働集約的で高価です。
半教師付きトレーニングは、ラベル付きデータの小さなセットのみを付与し、より大きなラベル付きデータセットを伴って、より実用的な代替手段を提供する。
論文 参考訳(メタデータ) (2024-09-12T14:54:31Z) - Semi-supervised 3D Semantic Scene Completion with 2D Vision Foundation Model Guidance [8.07701188057789]
我々は、高密度な注釈付きデータへの依存を軽減するために、新しい半教師付きフレームワークを導入する。
提案手法は2次元基礎モデルを用いて3次元シーンの幾何学的・意味的手がかりを生成する。
本手法は,10%のラベル付きデータを用いて全教師付き性能の最大85%を達成する。
論文 参考訳(メタデータ) (2024-08-21T12:13:18Z) - Label-efficient Semantic Scene Completion with Scribble Annotations [29.88371368606911]
ScribbleSCと呼ばれる新しいラベル効率ベンチマークを構築し、スパーススクリブルに基づくセマンティックラベルと密な幾何学的ラベルを組み合わせてセマンティックシーンを補完する。
本手法は, オフライン-オンライン蒸留モジュールを用いた自動ラベル作成とオンラインモデルトレーニングにより, 性能を向上させる。
論文 参考訳(メタデータ) (2024-05-24T03:09:50Z) - 2D Feature Distillation for Weakly- and Semi-Supervised 3D Semantic
Segmentation [92.17700318483745]
合成訓練された2Dセマンティックセマンティックセグメンテーションネットワークから高レベル特徴情報を蒸留するアイデアに基づく画像誘導ネットワーク(IGNet)を提案する。
IGNetは、ScribbleKITTI上の弱い教師付きLiDARセマンティックセマンティックセグメンテーションの最先端の結果を達成し、8%のラベル付きポイントしか持たない完全な教師付きトレーニングに対して最大98%のパフォーマンスを誇っている。
論文 参考訳(メタデータ) (2023-11-27T07:57:29Z) - SPOT: Scalable 3D Pre-training via Occupancy Prediction for Learning Transferable 3D Representations [76.45009891152178]
トレーニング-ファインタニングアプローチは、さまざまな下流データセットとタスクをまたいだトレーニング済みのバックボーンを微調整することで、ラベル付けの負担を軽減することができる。
本稿では, 一般表現学習が, 占領予測のタスクを通じて達成できることを, 初めて示す。
本研究は,LiDAR 点の理解を促進するとともに,LiDAR の事前訓練における今後の進歩の道を開くことを目的とする。
論文 参考訳(メタデータ) (2023-09-19T11:13:01Z) - UniOcc: Unifying Vision-Centric 3D Occupancy Prediction with Geometric
and Semantic Rendering [27.712689811093362]
我々は、ビジョン中心の3D占有率予測トラックにUniOCCというソリューションを提示する。
我々のソリューションは、単一のモデルで公式のリーダーボード上で51.27% mIoUを達成した。
論文 参考訳(メタデータ) (2023-06-15T13:23:57Z) - VL-SAT: Visual-Linguistic Semantics Assisted Training for 3D Semantic
Scene Graph Prediction in Point Cloud [51.063494002003154]
点雲における3次元意味的シーングラフ(DSSG)の予測は、3次元点雲が2次元画像と比較して限られた意味を持つ幾何学的構造のみを捉えているため困難である。
本稿では,3DSSG予測モデルに対して,長い尾とあいまいな意味関係を識別できる視覚言語セマンティックス支援トレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-03-25T09:14:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。