Fugu-MT 論文翻訳(概要): OVO: Open-Vocabulary Occupancy

論文の概要: OVO: Open-Vocabulary Occupancy

arxiv url: http://arxiv.org/abs/2305.16133v2
Date: Wed, 14 Jun 2023 17:30:54 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-17 00:28:29.107331
Title: OVO: Open-Vocabulary Occupancy
Title（参考訳）: OVO: Open-Vocabulary Occupancy
Authors: Zhiyu Tan, Zichao Dong, Cheng Zhang, Weikun Zhang, Hang Ji, Hao Li
Abstract要約: セマンティック占有予測は、自律エージェントが3D環境で安全に動作するための周囲の密集した幾何学と意味を推測することを目的としている。既存の占有率予測手法は,人間の注釈付きボリュームデータに基づいてほぼ完全に訓練されている。本稿では,任意のクラスの意味的占有を予測できるが,訓練中に3Dアノテーションを必要としない新しい手法であるOpen Vocabulary Occupancy(OVO)を提案する。
参考スコア（独自算出の注目度）: 12.596828397087085
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Semantic occupancy prediction aims to infer dense geometry and semantics of surroundings for an autonomous agent to operate safely in the 3D environment. Existing occupancy prediction methods are almost entirely trained on human-annotated volumetric data. Although of high quality, the generation of such 3D annotations is laborious and costly, restricting them to a few specific object categories in the training dataset. To address this limitation, this paper proposes Open Vocabulary Occupancy (OVO), a novel approach that allows semantic occupancy prediction of arbitrary classes but without the need for 3D annotations during training. Keys to our approach are (1) knowledge distillation from a pre-trained 2D open-vocabulary segmentation model to the 3D occupancy network, and (2) pixel-voxel filtering for high-quality training data generation. The resulting framework is simple, compact, and compatible with most state-of-the-art semantic occupancy prediction models. On NYUv2 and SemanticKITTI datasets, OVO achieves competitive performance compared to supervised semantic occupancy prediction approaches. Furthermore, we conduct extensive analyses and ablation studies to offer insights into the design of the proposed framework. Our code is publicly available at https://github.com/dzcgaara/OVO.
Abstract（参考訳）: semantic occupancy predictionは、自律エージェントが3d環境で安全に動作するために、周囲の密度の幾何と意味を推測することを目的としている。既存の占有率予測手法は,人間の注釈付きボリュームデータに基づいてほぼ完全に訓練されている。高品質ではあるが、そのような3Dアノテーションの生成は面倒でコストがかかり、トレーニングデータセット内のいくつかの特定のオブジェクトカテゴリに制限される。この制限に対処するために,任意のクラスを意味的に占有できるが,訓練中に3Dアノテーションを必要としない新しい手法であるOpen Vocabulary Occupancy (OVO)を提案する。提案手法の鍵は,(1)事前訓練した2次元開語彙セグメンテーションモデルから3次元占有ネットワークへの知識蒸留,(2)高品質トレーニングデータ生成のためのピクセルボクセルフィルタリングである。結果として得られるフレームワークはシンプルでコンパクトで、ほとんどの最先端のセマンティック占有予測モデルと互換性がある。 NYUv2とSemanticKITTIデータセットでは、OVOは教師付きセマンティック占有予測アプローチと比較して、競争性能が向上する。さらに,提案フレームワークの設計に関する知見を提供するため,広範な解析およびアブレーション研究を行う。私たちのコードはhttps://github.com/dzcgaara/ovoで公開されています。

関連論文リスト

From Binary to Semantic: Utilizing Large-Scale Binary Occupancy Data for 3D Semantic Occupancy Prediction [0.0]
本稿では,予測プロセスを二分的および意味的占有モジュールに分解する,二分的占有に基づく新しいフレームワークを提案する。実験の結果,提案手法は事前学習作業と自動ラベル作業の両方において,既存の手法よりも優れていることがわかった。
論文参考訳（メタデータ） (2025-07-16T01:57:16Z)
OccLE: Label-Efficient 3D Semantic Occupancy Prediction [48.50138308129873]
3Dセマンティック占有予測は、直感的で効率的なシーン理解を提供する。既存のアプローチは、完全な監督や、限られたガイダンスを提供し、最適以下のパフォーマンスを得るセルフスーパービジョンに依存している。我々は,画像とLiDARを入力とし,限られたボクセルアノテーションで高い性能を維持するラベル効率のよい3Dセマンティックアクセシビリティ予測OccLEを提案する。
論文参考訳（メタデータ） (2025-05-27T01:41:28Z)
MinkOcc: Towards real-time label-efficient semantic occupancy prediction [8.239334282982623]
MinkOccはカメラとLiDARのためのマルチモーダルな3Dセマンティック占有予測フレームワークである。競争精度を維持しつつ、手動ラベリングへの依存を90%削減する。我々は、MinkOccをキュレートされたデータセットを超えて拡張することを目指しており、自動運転における3Dセマンティック占有率予測のより広範な現実的な展開を可能にしている。
論文参考訳（メタデータ） (2025-04-03T04:31:56Z)
Language Driven Occupancy Prediction [11.208411421996052]
オープン語彙占有予測のための効果的で一般化可能なフレームワークであるLOccを紹介する。私たちのパイプラインは、画像の貴重な意味情報を掘り下げるための、実現可能な方法を提供します。 LOccは生成された言語基底の真実を効果的に利用し、3D言語ボリュームの学習をガイドする。
論文参考訳（メタデータ） (2024-11-25T03:47:10Z)
ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文参考訳（メタデータ） (2024-11-12T11:32:56Z)
OPUS: Occupancy Prediction Using a Sparse Set [64.60854562502523]
学習可能なクエリの集合を用いて、占有された場所とクラスを同時に予測するフレームワークを提案する。 OPUSには、モデルパフォーマンスを高めるための非自明な戦略が組み込まれている。最も軽量なモデルではOcc3D-nuScenesデータセットの2倍 FPS に優れたRayIoUが得られる一方、最も重いモデルは6.1 RayIoUを上回ります。
論文参考訳（メタデータ） (2024-09-14T07:44:22Z)
Semi-supervised 3D Semantic Scene Completion with 2D Vision Foundation Model Guidance [11.090775523892074]
我々は、高密度な注釈付きデータへの依存を軽減するために、新しい半教師付きフレームワークを導入する。提案手法は2次元基礎モデルを用いて3次元シーンの幾何学的・意味的手がかりを生成する。本手法は,10%のラベル付きデータを用いて全教師付き性能の最大85%を達成する。
論文参考訳（メタデータ） (2024-08-21T12:13:18Z)
3D Annotation-Free Learning by Distilling 2D Open-Vocabulary Segmentation Models for Autonomous Driving [17.42913935045091]
2D textbf Open-textbfVocabulary セグメンテーションモデルを用いた新しい3D textbf Annotation-textbfFree フレームワーク AFOV を提案する。第一段階では、2次元オープン語彙モデルの高品質テキストと画像の特徴を革新的に統合し、TMP(Tri-Modal contrastive Pre-training)を提案する。第2段階では、点雲と画像の間の空間マッピングを利用して擬似ラベルを生成し、交差を可能にする。
論文参考訳（メタデータ） (2024-05-24T07:18:09Z)
OccFeat: Self-supervised Occupancy Feature Prediction for Pretraining BEV Segmentation Networks [75.10231099007494]
本稿では,Bird's-Eye-View(BEV)セグメンテーションネットワークのための,OccFeatと呼ばれる自己教師付き事前学習手法を提案する。 OccFeatでは、占有率予測と特徴蒸留タスクを介して、BEVネットワークを事前訓練する。本手法で事前訓練したモデルでは,特に低データシナリオにおいて,BEVセマンティックセマンティックセマンティクスの性能が向上した。
論文参考訳（メタデータ） (2024-04-22T09:43:03Z)
OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments [77.0399450848749]
本稿では,OccNeRF法を用いて,3次元監視なしで占有ネットワークを訓練する手法を提案する。我々は、再構成された占有領域をパラメータ化し、サンプリング戦略を再編成し、カメラの無限知覚範囲に合わせる。意味的占有予測のために,事前学習した開語彙2Dセグメンテーションモデルの出力をフィルタリングし,プロンプトを洗練するためのいくつかの戦略を設計する。
論文参考訳（メタデータ） (2023-12-14T18:58:52Z)
Generalized Robot 3D Vision-Language Model with Fast Rendering and Pre-Training Vision-Language Alignment [55.11291053011696]
本研究は,ラベル付きシーンが極めて限定された場合の3次元シーン理解のためのフレームワークを提案する。事前学習された視覚言語モデルから新しいカテゴリーの知識を抽出するために,階層的特徴整合型事前学習と知識蒸留戦略を提案する。限定的な再構築の場合、提案手法はWS3D++と呼ばれ、大規模なScanNetベンチマークで1位にランクインした。
論文参考訳（メタデータ） (2023-12-01T15:47:04Z)
SPOT: Scalable 3D Pre-training via Occupancy Prediction for Learning Transferable 3D Representations [76.45009891152178]
トレーニング-ファインタニングアプローチは、さまざまな下流データセットとタスクをまたいだトレーニング済みのバックボーンを微調整することで、ラベル付けの負担を軽減することができる。本稿では, 一般表現学習が, 占領予測のタスクを通じて達成できることを, 初めて示す。本研究は,LiDAR 点の理解を促進するとともに,LiDAR の事前訓練における今後の進歩の道を開くことを目的とする。
論文参考訳（メタデータ） (2023-09-19T11:13:01Z)
Open-Set Semi-Supervised Learning for 3D Point Cloud Understanding [62.17020485045456]
半教師付き学習(SSL)では、ラベル付きデータと同じ分布からラベル付きデータが引き出されることが一般的である。サンプル重み付けによりラベルなしデータを選択的に活用することを提案する。
論文参考訳（メタデータ） (2022-05-02T16:09:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。