論文の概要: OVO: Open-Vocabulary Occupancy
- arxiv url: http://arxiv.org/abs/2305.16133v1
- Date: Thu, 25 May 2023 15:07:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 14:30:19.762526
- Title: OVO: Open-Vocabulary Occupancy
- Title(参考訳): OVO: Open-Vocabulary Occupancy
- Authors: Zhiyu Tan, Zichao Dong, Cheng Zhang, Weikun Zhang, Hang Ji, Hao Li
- Abstract要約: セマンティック占有予測は、自律エージェントが3D環境で安全に動作するための周囲の密集した幾何学と意味を推測することを目的としている。
本稿では,任意のクラスを意味的に占有できる新しい手法であるOpen Vocabulary Occupancyを提案する。
結果として得られるフレームワークはシンプルでコンパクトで、ほとんどの最先端のセマンティック占有予測モデルと互換性がある。
- 参考スコア(独自算出の注目度): 12.596828397087085
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Semantic occupancy prediction aims to infer dense geometry and semantics of
surroundings for an autonomous agent to operate safely in the 3D environment.
Existing occupancy prediction methods are almost entirely trained on
human-annotated volumetric data. Although of high quality, the generation of
such 3D annotations is laborious and costly, restricting them to a few specific
object categories in the training dataset. To address this limitation, this
paper proposes Open Vocabulary Occupancy (OVO), a novel approach that allows
semantic occupancy prediction of arbitrary classes but without the need for 3D
annotations during training. Keys to our approach are (1) knowledge
distillation from a pre-trained 2D open-vocabulary segmentation model to the 3D
occupancy network, and (2) pixel-voxel filtering for high-quality training data
generation. The resulting framework is simple, compact, and compatible with
most state-of-the-art semantic occupancy prediction models. On NYUv2 and
SemanticKITTI datasets, OVO achieves competitive performance compared to
supervised semantic occupancy prediction approaches. Furthermore, we conduct
extensive analyses and ablation studies to offer insights into the design of
the proposed framework.
- Abstract(参考訳): semantic occupancy predictionは、自律エージェントが3d環境で安全に動作するために、周囲の密度の幾何と意味を推測することを目的としている。
既存の占有率予測手法は,人間の注釈付きボリュームデータに基づいてほぼ完全に訓練されている。
高品質ではあるが、そのような3Dアノテーションの生成は面倒でコストがかかり、トレーニングデータセット内のいくつかの特定のオブジェクトカテゴリに制限される。
この制限に対処するために,任意のクラスを意味的に占有できるが,訓練中に3Dアノテーションを必要としない新しい手法であるOpen Vocabulary Occupancy (OVO)を提案する。
提案手法の鍵は,(1)事前訓練した2次元開語彙セグメンテーションモデルから3次元占有ネットワークへの知識蒸留,(2)高品質トレーニングデータ生成のためのピクセルボクセルフィルタリングである。
結果として得られるフレームワークはシンプルでコンパクトで、ほとんどの最先端のセマンティック占有予測モデルと互換性がある。
NYUv2とSemanticKITTIデータセットでは、OVOは教師付きセマンティック占有予測アプローチと比較して、競争性能が向上する。
さらに,提案フレームワークの設計に関する知見を提供するため,広範な解析およびアブレーション研究を行う。
関連論文リスト
- Language Driven Occupancy Prediction [11.208411421996052]
オープン語彙占有予測のための効果的で一般化可能なフレームワークであるLOccを紹介する。
私たちのパイプラインは、画像の貴重な意味情報を掘り下げるための、実現可能な方法を提供します。
LOccは生成された言語基底の真実を効果的に利用し、3D言語ボリュームの学習をガイドする。
論文 参考訳(メタデータ) (2024-11-25T03:47:10Z) - ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。
本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。
私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - OPUS: Occupancy Prediction Using a Sparse Set [64.60854562502523]
学習可能なクエリの集合を用いて、占有された場所とクラスを同時に予測するフレームワークを提案する。
OPUSには、モデルパフォーマンスを高めるための非自明な戦略が組み込まれている。
最も軽量なモデルではOcc3D-nuScenesデータセットの2倍 FPS に優れたRayIoUが得られる一方、最も重いモデルは6.1 RayIoUを上回ります。
論文 参考訳(メタデータ) (2024-09-14T07:44:22Z) - Semi-supervised 3D Semantic Scene Completion with 2D Vision Foundation Model Guidance [11.090775523892074]
我々は、高密度な注釈付きデータへの依存を軽減するために、新しい半教師付きフレームワークを導入する。
提案手法は2次元基礎モデルを用いて3次元シーンの幾何学的・意味的手がかりを生成する。
本手法は,10%のラベル付きデータを用いて全教師付き性能の最大85%を達成する。
論文 参考訳(メタデータ) (2024-08-21T12:13:18Z) - OccFeat: Self-supervised Occupancy Feature Prediction for Pretraining BEV Segmentation Networks [75.10231099007494]
本稿では,Bird's-Eye-View(BEV)セグメンテーションネットワークのための,OccFeatと呼ばれる自己教師付き事前学習手法を提案する。
OccFeatでは、占有率予測と特徴蒸留タスクを介して、BEVネットワークを事前訓練する。
本手法で事前訓練したモデルでは,特に低データシナリオにおいて,BEVセマンティックセマンティックセマンティクスの性能が向上した。
論文 参考訳(メタデータ) (2024-04-22T09:43:03Z) - OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments [77.0399450848749]
本稿では,OccNeRF法を用いて,3次元監視なしで占有ネットワークを訓練する手法を提案する。
我々は、再構成された占有領域をパラメータ化し、サンプリング戦略を再編成し、カメラの無限知覚範囲に合わせる。
意味的占有予測のために,事前学習した開語彙2Dセグメンテーションモデルの出力をフィルタリングし,プロンプトを洗練するためのいくつかの戦略を設計する。
論文 参考訳(メタデータ) (2023-12-14T18:58:52Z) - SPOT: Scalable 3D Pre-training via Occupancy Prediction for Learning Transferable 3D Representations [76.45009891152178]
トレーニング-ファインタニングアプローチは、さまざまな下流データセットとタスクをまたいだトレーニング済みのバックボーンを微調整することで、ラベル付けの負担を軽減することができる。
本稿では, 一般表現学習が, 占領予測のタスクを通じて達成できることを, 初めて示す。
本研究は,LiDAR 点の理解を促進するとともに,LiDAR の事前訓練における今後の進歩の道を開くことを目的とする。
論文 参考訳(メタデータ) (2023-09-19T11:13:01Z) - Open-Set Semi-Supervised Learning for 3D Point Cloud Understanding [62.17020485045456]
半教師付き学習(SSL)では、ラベル付きデータと同じ分布からラベル付きデータが引き出されることが一般的である。
サンプル重み付けによりラベルなしデータを選択的に活用することを提案する。
論文 参考訳(メタデータ) (2022-05-02T16:09:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。