論文の概要: From Binary to Semantic: Utilizing Large-Scale Binary Occupancy Data for 3D Semantic Occupancy Prediction
- arxiv url: http://arxiv.org/abs/2507.13387v1
- Date: Wed, 16 Jul 2025 01:57:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-21 20:43:26.062231
- Title: From Binary to Semantic: Utilizing Large-Scale Binary Occupancy Data for 3D Semantic Occupancy Prediction
- Title(参考訳): バイナリからセマンティックへ:3次元セマンティックセマンティックセマンティックセマンティックセマンティックセマンティックセマンティクス予測のための大規模セマンティクスデータの利用
- Authors: Chihiro Noguchi, Takaki Yamamoto,
- Abstract要約: 本稿では,予測プロセスを二分的および意味的占有モジュールに分解する,二分的占有に基づく新しいフレームワークを提案する。
実験の結果,提案手法は事前学習作業と自動ラベル作業の両方において,既存の手法よりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate perception of the surrounding environment is essential for safe autonomous driving. 3D occupancy prediction, which estimates detailed 3D structures of roads, buildings, and other objects, is particularly important for vision-centric autonomous driving systems that do not rely on LiDAR sensors. However, in 3D semantic occupancy prediction -- where each voxel is assigned a semantic label -- annotated LiDAR point clouds are required, making data acquisition costly. In contrast, large-scale binary occupancy data, which only indicate occupied or free space without semantic labels, can be collected at a lower cost. Despite their availability, the potential of leveraging such data remains unexplored. In this study, we investigate the utilization of large-scale binary occupancy data from two perspectives: (1) pre-training and (2) learning-based auto-labeling. We propose a novel binary occupancy-based framework that decomposes the prediction process into binary and semantic occupancy modules, enabling effective use of binary occupancy data. Our experimental results demonstrate that the proposed framework outperforms existing methods in both pre-training and auto-labeling tasks, highlighting its effectiveness in enhancing 3D semantic occupancy prediction. The code is available at https://github.com/ToyotaInfoTech/b2s-occupancy
- Abstract(参考訳): 環境の正確な認識は、安全な自動運転に不可欠である。
道路、建物、その他の物体の詳細な3D構造を推定する3D占有予測は、LiDARセンサーに依存しない視覚中心の自動運転システムにとって特に重要である。
しかし、各ボクセルにセマンティックラベルが割り当てられる3Dセマンティック占有予測では、注釈付きLiDARポイントクラウドが必要であり、データ取得にコストがかかる。
対照的に、セマンティックラベルのない占有空間や自由空間のみを示す大規模なバイナリ占有データは、低コストで収集できる。
利用可能であるにもかかわらず、そのようなデータを活用する可能性はまだ検討されていない。
本研究では,(1)事前学習と(2)学習に基づく自動学習の2つの視点から,大規模バイナリ占有データの利用について検討する。
本稿では、予測プロセスをバイナリおよびセマンティック占有モジュールに分解し、バイナリ占有データを効果的に活用する新しいバイナリ占有ベースのフレームワークを提案する。
実験の結果,提案手法は事前学習作業と自動ラベル作業の両方において既存の手法よりも優れており,その3Dセマンティック占有率予測の精度が向上していることが示された。
コードはhttps://github.com/ToyotaInfoTech/b2s-occupancyで入手できる。
関連論文リスト
- OccLE: Label-Efficient 3D Semantic Occupancy Prediction [48.50138308129873]
3Dセマンティック占有予測は、直感的で効率的なシーン理解を提供する。
既存のアプローチは、完全な監督や、限られたガイダンスを提供し、最適以下のパフォーマンスを得るセルフスーパービジョンに依存している。
我々は,画像とLiDARを入力とし,限られたボクセルアノテーションで高い性能を維持するラベル効率のよい3Dセマンティックアクセシビリティ予測OccLEを提案する。
論文 参考訳(メタデータ) (2025-05-27T01:41:28Z) - MinkOcc: Towards real-time label-efficient semantic occupancy prediction [8.239334282982623]
MinkOccはカメラとLiDARのためのマルチモーダルな3Dセマンティック占有予測フレームワークである。
競争精度を維持しつつ、手動ラベリングへの依存を90%削減する。
我々は、MinkOccをキュレートされたデータセットを超えて拡張することを目指しており、自動運転における3Dセマンティック占有率予測のより広範な現実的な展開を可能にしている。
論文 参考訳(メタデータ) (2025-04-03T04:31:56Z) - OPUS: Occupancy Prediction Using a Sparse Set [64.60854562502523]
学習可能なクエリの集合を用いて、占有された場所とクラスを同時に予測するフレームワークを提案する。
OPUSには、モデルパフォーマンスを高めるための非自明な戦略が組み込まれている。
最も軽量なモデルではOcc3D-nuScenesデータセットの2倍 FPS に優れたRayIoUが得られる一方、最も重いモデルは6.1 RayIoUを上回ります。
論文 参考訳(メタデータ) (2024-09-14T07:44:22Z) - Semi-supervised 3D Semantic Scene Completion with 2D Vision Foundation Model Guidance [8.07701188057789]
我々は、高密度な注釈付きデータへの依存を軽減するために、新しい半教師付きフレームワークを導入する。
提案手法は2次元基礎モデルを用いて3次元シーンの幾何学的・意味的手がかりを生成する。
本手法は,10%のラベル付きデータを用いて全教師付き性能の最大85%を達成する。
論文 参考訳(メタデータ) (2024-08-21T12:13:18Z) - OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments [77.0399450848749]
本稿では,OccNeRF法を用いて,3次元監視なしで占有ネットワークを訓練する手法を提案する。
我々は、再構成された占有領域をパラメータ化し、サンプリング戦略を再編成し、カメラの無限知覚範囲に合わせる。
意味的占有予測のために,事前学習した開語彙2Dセグメンテーションモデルの出力をフィルタリングし,プロンプトを洗練するためのいくつかの戦略を設計する。
論文 参考訳(メタデータ) (2023-12-14T18:58:52Z) - SPOT: Scalable 3D Pre-training via Occupancy Prediction for Learning Transferable 3D Representations [76.45009891152178]
トレーニング-ファインタニングアプローチは、さまざまな下流データセットとタスクをまたいだトレーニング済みのバックボーンを微調整することで、ラベル付けの負担を軽減することができる。
本稿では, 一般表現学習が, 占領予測のタスクを通じて達成できることを, 初めて示す。
本研究は,LiDAR 点の理解を促進するとともに,LiDAR の事前訓練における今後の進歩の道を開くことを目的とする。
論文 参考訳(メタデータ) (2023-09-19T11:13:01Z) - OVO: Open-Vocabulary Occupancy [12.596828397087085]
セマンティック占有予測は、自律エージェントが3D環境で安全に動作するための周囲の密集した幾何学と意味を推測することを目的としている。
既存の占有率予測手法は,人間の注釈付きボリュームデータに基づいてほぼ完全に訓練されている。
本稿では,任意のクラスの意味的占有を予測できるが,訓練中に3Dアノテーションを必要としない新しい手法であるOpen Vocabulary Occupancy(OVO)を提案する。
論文 参考訳(メタデータ) (2023-05-25T15:07:25Z) - Point Cloud Forecasting as a Proxy for 4D Occupancy Forecasting [58.45661235893729]
有望な自己管理タスクの1つは、注釈のないLiDARシーケンスからの3Dポイントクラウド予測である。
本課題は,(1)センサ外在物(自動運転車の移動),(2)センサ内在物(特定のLiDARセンサに特有のサンプリングパターン),(3)シーン内の他の物体の形状と動きを暗黙的にキャプチャするアルゴリズムを必要とすることを示す。
センサ外在性および内在性に関する4D占有率予測のポイントクラウドデータをレンダリングすることにより、注釈のないLiDARシーケンスで占有率アルゴリズムをトレーニングし、テストすることができる。
論文 参考訳(メタデータ) (2023-02-25T18:12:37Z) - Open-Set Semi-Supervised Learning for 3D Point Cloud Understanding [62.17020485045456]
半教師付き学習(SSL)では、ラベル付きデータと同じ分布からラベル付きデータが引き出されることが一般的である。
サンプル重み付けによりラベルなしデータを選択的に活用することを提案する。
論文 参考訳(メタデータ) (2022-05-02T16:09:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。