論文の概要: OVO: Open-Vocabulary Occupancy
- arxiv url: http://arxiv.org/abs/2305.16133v2
- Date: Wed, 14 Jun 2023 17:30:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-17 00:28:29.107331
- Title: OVO: Open-Vocabulary Occupancy
- Title(参考訳): OVO: Open-Vocabulary Occupancy
- Authors: Zhiyu Tan, Zichao Dong, Cheng Zhang, Weikun Zhang, Hang Ji, Hao Li
- Abstract要約: セマンティック占有予測は、自律エージェントが3D環境で安全に動作するための周囲の密集した幾何学と意味を推測することを目的としている。
既存の占有率予測手法は,人間の注釈付きボリュームデータに基づいてほぼ完全に訓練されている。
本稿では,任意のクラスの意味的占有を予測できるが,訓練中に3Dアノテーションを必要としない新しい手法であるOpen Vocabulary Occupancy(OVO)を提案する。
- 参考スコア(独自算出の注目度): 12.596828397087085
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Semantic occupancy prediction aims to infer dense geometry and semantics of
surroundings for an autonomous agent to operate safely in the 3D environment.
Existing occupancy prediction methods are almost entirely trained on
human-annotated volumetric data. Although of high quality, the generation of
such 3D annotations is laborious and costly, restricting them to a few specific
object categories in the training dataset. To address this limitation, this
paper proposes Open Vocabulary Occupancy (OVO), a novel approach that allows
semantic occupancy prediction of arbitrary classes but without the need for 3D
annotations during training. Keys to our approach are (1) knowledge
distillation from a pre-trained 2D open-vocabulary segmentation model to the 3D
occupancy network, and (2) pixel-voxel filtering for high-quality training data
generation. The resulting framework is simple, compact, and compatible with
most state-of-the-art semantic occupancy prediction models. On NYUv2 and
SemanticKITTI datasets, OVO achieves competitive performance compared to
supervised semantic occupancy prediction approaches. Furthermore, we conduct
extensive analyses and ablation studies to offer insights into the design of
the proposed framework. Our code is publicly available at
https://github.com/dzcgaara/OVO.
- Abstract(参考訳): semantic occupancy predictionは、自律エージェントが3d環境で安全に動作するために、周囲の密度の幾何と意味を推測することを目的としている。
既存の占有率予測手法は,人間の注釈付きボリュームデータに基づいてほぼ完全に訓練されている。
高品質ではあるが、そのような3Dアノテーションの生成は面倒でコストがかかり、トレーニングデータセット内のいくつかの特定のオブジェクトカテゴリに制限される。
この制限に対処するために,任意のクラスを意味的に占有できるが,訓練中に3Dアノテーションを必要としない新しい手法であるOpen Vocabulary Occupancy (OVO)を提案する。
提案手法の鍵は,(1)事前訓練した2次元開語彙セグメンテーションモデルから3次元占有ネットワークへの知識蒸留,(2)高品質トレーニングデータ生成のためのピクセルボクセルフィルタリングである。
結果として得られるフレームワークはシンプルでコンパクトで、ほとんどの最先端のセマンティック占有予測モデルと互換性がある。
NYUv2とSemanticKITTIデータセットでは、OVOは教師付きセマンティック占有予測アプローチと比較して、競争性能が向上する。
さらに,提案フレームワークの設計に関する知見を提供するため,広範な解析およびアブレーション研究を行う。
私たちのコードはhttps://github.com/dzcgaara/ovoで公開されています。
関連論文リスト
- OccFeat: Self-supervised Occupancy Feature Prediction for Pretraining BEV Segmentation Networks [75.10231099007494]
本稿では,カメラのみのBird's-Eye-View(BEV)セグメンテーションネットワークのための,OcFeatと呼ばれる自己教師付き事前学習手法を提案する。
OccFeatでは、占有率予測と特徴蒸留タスクを介して、BEVネットワークを事前訓練する。
本手法で事前訓練したモデルでは,特に低データシナリオにおいて,BEVセマンティックセマンティックセマンティクスの性能が向上した。
論文 参考訳(メタデータ) (2024-04-22T09:43:03Z) - WildScenes: A Benchmark for 2D and 3D Semantic Segmentation in
Large-scale Natural Environments [34.24004079703609]
WildScenesは、自然環境における複数の大規模データセットからなる、バイモーダルなベンチマークデータセットである。
データは軌道中心であり、正確なローカライゼーションとグローバルに整列した点雲がある。
本稿では,2次元および3次元セマンティックセマンティックセグメンテーションのベンチマークを導入し,近年のディープラーニング技術の評価を行う。
論文 参考訳(メタデータ) (2023-12-23T22:27:40Z) - OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments [77.0399450848749]
本稿では,OccNeRF法を用いて,3次元監視なしで占有ネットワークを訓練する手法を提案する。
我々は、再構成された占有領域をパラメータ化し、サンプリング戦略を再編成し、カメラの無限知覚範囲に合わせる。
意味的占有予測のために,事前学習した開語彙2Dセグメンテーションモデルの出力をフィルタリングし,プロンプトを洗練するためのいくつかの戦略を設計する。
論文 参考訳(メタデータ) (2023-12-14T18:58:52Z) - SPOT: Scalable 3D Pre-training via Occupancy Prediction for Autonomous
Driving [84.22159537581742]
職業予測は一般表現の学習に有望であることが示されている。
SPOTは、ポイントクラウド拡張にビーム再サンプリング技術を使用し、クラスバランス戦略を適用している。
論文 参考訳(メタデータ) (2023-09-19T11:13:01Z) - UniOcc: Unifying Vision-Centric 3D Occupancy Prediction with Geometric
and Semantic Rendering [27.712689811093362]
我々は、ビジョン中心の3D占有率予測トラックにUniOCCというソリューションを提示する。
我々のソリューションは、単一のモデルで公式のリーダーボード上で51.27% mIoUを達成した。
論文 参考訳(メタデータ) (2023-06-15T13:23:57Z) - VL-SAT: Visual-Linguistic Semantics Assisted Training for 3D Semantic
Scene Graph Prediction in Point Cloud [51.063494002003154]
点雲における3次元意味的シーングラフ(DSSG)の予測は、3次元点雲が2次元画像と比較して限られた意味を持つ幾何学的構造のみを捉えているため困難である。
本稿では,3DSSG予測モデルに対して,長い尾とあいまいな意味関係を識別できる視覚言語セマンティックス支援トレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-03-25T09:14:18Z) - ALSO: Automotive Lidar Self-supervision by Occupancy estimation [70.70557577874155]
本稿では,ポイントクラウド上で動作している深層知覚モデルのバックボーンを事前学習するための自己教師型手法を提案する。
中心となる考え方は、3Dポイントがサンプリングされる表面の再構成であるプリテキストタスクでモデルをトレーニングすることである。
直感的には、もしネットワークがわずかな入力ポイントのみを考慮し、シーン表面を再構築できるなら、おそらく意味情報の断片をキャプチャする。
論文 参考訳(メタデータ) (2022-12-12T13:10:19Z) - Open-Set Semi-Supervised Learning for 3D Point Cloud Understanding [62.17020485045456]
半教師付き学習(SSL)では、ラベル付きデータと同じ分布からラベル付きデータが引き出されることが一般的である。
サンプル重み付けによりラベルなしデータを選択的に活用することを提案する。
論文 参考訳(メタデータ) (2022-05-02T16:09:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。